Очікує на перевірку

PDF/A

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
PDF/A
Розширення файлу:.pdf
MIME-тип:application/pdf
Розробник:ISO
Рік випуску:1 жовтня 2005
Стандарт(и):ISO 19005-1:2005
ISO 19005-2:2011
ISO 19005-3:2012
ISO 19005-4:2020

PDF/A (англ. Portable Document Format / A) — стандарт ISO 19005 (перша редакція опублікована 1 жовтня 2005 р.) для довгострокового архівного зберігання електронних документів, який базується на описі стандарту PDF (ISO 32000) від Adobe Systems Inc.

PDF/A є підмножиною формату PDF, з якого виключені деякі особливості, що не підходять для довгострокового архівного зберігання. Реалізовано аналогічно визначенню підмножини PDF/X для цілей друку і поліграфії.

Крім цього, стандарт визначає вимоги до програмних продуктів, які створюють або читають файли формату PDF/A. «Сумісний редактор» повинен дозволяти керування кольором, використання вбудованих шрифтів, при візуалізації документу, створення вмісту анотацій користувачами та ін.

Стандарт PDF/A не визначає стратегію архівування або цілі системи архівування. Він визначає «профіль» для електронних документів, який гарантує, що документи можуть бути відтворені точно так само за допомогою різноманітного програмного забезпечення в наступні роки. Ключовим елементом такої відтворюваності є вимога до документів PDF/A бути на 100% самодостатніми. Уся інформація, необхідна для відображення документа таким же чином, вбудована у файл. Це включає, але не обмежується, увесь вміст (текст, растрові зображення та векторну графіку), шрифти та інформацію про колір. Документ PDF/A не може покладатися на інформацію із зовнішніх джерел (наприклад, програми шрифтів і потоки даних), але може містити анотації (наприклад, гіпертекстові посилання), які посилаються на зовнішні документи[1].

Інші ключові елементи відповідності PDF/A[2][3][4]:

  • аудіо- та відеоконтент заборонені;
  • JavaScript і запуск виконуваних файлів заборонено;
  • усі шрифти мають бути вбудовані, а також мати можливість юридично вбудовуватися для необмеженого універсального відтворення. Це також стосується так званих стандартних шрифтів PostScript, таких як Times New Roman або Helvetica .
  • кольорові простори, визначені апаратно-незалежним способом;
  • шифрування заборонене;
  • потрібне використання метаданих на основі стандартів;
  • зовнішні посилання на контент заборонені;
  • LZW заборонено через обмеження інтелектуальної власності. Моделі стиснення зображень JPEG 2000 не дозволені в PDF/A-1 (на основі PDF 1.4), оскільки це було вперше представлено в PDF 1.5. Стиснення JPEG 2000 дозволено в PDF/A-2 і PDF/A-3;
  • прозорі об’єкти та шари (додаткові групи вмісту) заборонені в PDF/A-1, але дозволені в PDF/A-2;
  • положення щодо цифрових підписів відповідно до стандарту PAdES (розширені електронні підписи PDF) підтримуються у форматі PDF/A-2;
  • вбудовані файли заборонені в PDF/A-1, але PDF/A-2 дозволяє вбудовувати файли PDF/A, полегшуючи архівування наборів документів PDF/A в одному файлі. PDF/A-3 дозволяє вбудовувати файли будь-якого формату, як-от XML, CAD тощо, у документи PDF/A;
  • використання форм XML Forms Architecture (XFA) на основі XML заборонено в PDF/A (дані форми XFA можна зберегти у файлі PDF/A-2 шляхом переміщення з ключа XFA до дерева імен, яке саме по собі є значенням ключа XFAResources словника імен словника каталогу документів);
  • поля інтерактивної форми PDF повинні мати словник вигляду, пов’язаний із даними поля. Під час візуалізації поля слід використовувати словник зовнішнього вигляду.

Стандарти

[ред. | ред. код]
ISO 19005. Управління документами. Формат файлу електронного документа для тривалого зберігання (PDF/A)
Назва Стандарт Опубліковано На основі Посилання
PDF/A-1 ISO 19005-1 28.09.2005 PDF 1.4 (Adobe Systems, PDF Reference, третє видання) [5]
PDF/A-2 ISO 19005-2 20.06.2011 PDF 1.7 (ISO 32000-1:2008) [6]
PDF/A-3 ISO 19005-3 15.10.2012 PDF 1.7 (ISO 32000-1:2008) [7]
PDF/A-4 ISO 19005-4 11.2020 PDF 2.0 (ISO 32000-2:2020) [8]

Рівні відповідності і версії

[ред. | ред. код]

Стандарт визначає два рівня відповідності для PDF-файлів:

  • PDF/A-1a — відповідність Рівню A (в Частині 1);
  • PDF/A-1b — відповідність Рівню B (в Частині 1).

PDF/A-1b ставить за мету забезпечення надійного відтворення зовнішнього вигляду документу. PDF/A-1a включає всі вимоги стандарту PDF/A-1b і додатково вимагає, щоб була включена структура документу, з метою забезпечення можливості пошуку і перепризначення (перетворення) вмісту документа.

Частина 2 стандарту, опублікована 20 червня 2011 р.[6], стосується деяких нових функцій, доданих у версіях 1.5, 1.6 і 1.7 PDF Reference. Файли PDF/A-1 не обов’язково відповідатимуть PDF/A-2, а сумісні файли PDF/A-2 не обов’язково відповідатимуть PDF/A-1.

Частина 2 стандарту PDF/A базується на PDF 1.7 (ISO 32000-1), а не на PDF 1.4, і пропонує кілька нових функцій:

  • стиснення зображення JPEG 2000
  • підтримка ефектів прозорості та шарів
  • вбудовування шрифтів OpenType
  • положення щодо цифрових підписів відповідно до стандарту PDF Advanced Electronic Signatures – PAdES
  • можливість вбудовування файлів PDF/A для полегшення архівування наборів документів одним файлом. [3]

Частина 2 визначає три рівні відповідності. PDF/A-2a та PDF/A-2b відповідають рівням відповідності a та b у PDF/A-1. Новий рівень відповідності, PDF/A-2u, відповідає рівню B (PDF/A-2b) з додатковою вимогою, щоб увесь текст у документі мав відображення Unicode[9][10].

Частина 3 стандарту, опублікованого 15 жовтня 2012 року [7], відрізняється від PDF/A-2 лише в одному аспекті: вона дозволяє вставляти довільні формати файлів (такі як XML, CSV, CAD, текстові документи, електронні таблиці та ін.) у документи, що відповідають формату PDF/A[11].

Частина 4 стандарту базується на PDF 2.0 і була опублікована наприкінці 2020 року[12].

Ідентифікація

[ред. | ред. код]

Документ PDF/A можна ідентифікувати як такий за допомогою метаданих PDF/A, розташованих у просторі імен "http://www.aiim.org/pdfa/ns/id/" . Ці метадані представляють заяву про відповідність; сам по собі він не забезпечує відповідності:

  • PDF-документ може бути сумісним із PDF/A, за винятком відсутності в ньому метаданих PDF/A. Це може статися, наприклад, з документами, які були створені до визначення стандарту PDF/A авторами, які знають про особливості, які створюють проблеми довгострокового збереження.
  • PDF-документ можна ідентифікувати як PDF/A, але він може неправильно містити PDF-функції, недозволені в PDF/A; отже, документи, які претендують на сумісність із PDF/A, слід перевіряти на відповідність PDF/A[13].

Як створити файл PDF/A

[ред. | ред. код]

Архіви іноді вимагають від своїх користувачів надіслати файли PDF/A. Таким чином вони надають своїм користувачам інформацію про те, як конвертувати їхні файли у PDF/A. Існує декілька методів із використанням стандартного програмного забезпечення, які відрізняються часом обчислення, а також збереженням зв’язків, рівнянь, векторних графіків і спеціальних символів. [14]

Коли документи конвертуються у формат PDF/A, потрібна візуальна перевірка, оскільки помилки у візуальному вмісті є поширеними. У тестовій вибірці 11 відсотків створеного документа PDF/A-1b містили візуальні артефакти. Ці помилки відтворення включали проблеми з векторною графікою (прозорі об’єкти), втрату посилань, втрату іншого вмісту документа (нечитабельні символи, відсутній текст, відсутність частини документа), оновлені поля (що відображають час або папку перетворення) та орфографічні помилки[15]. Таким чином, самі архіви зазвичай не перетворюються на PDF/A. Натомість деякі архіви просять своїх користувачів надати документ PDF/A. Типові налаштування комп’ютера пропонують кілька методів перетворення документів у PDF/A з різними перевагами та недоліками[14].

Перетворення простого PDF-файлу (до версії 1.4) у PDF/A-2 зазвичай працює належним чином, за винятком проблем із гліфами . Відповідно до PDF Association, «Проблеми можуть виникнути до та/або під час створення PDF-файлів. Файл PDF/A може бути формально правильним, але все ще містити неправильні гліфи. Тільки ретельний візуальний огляд може виявити цю проблему. Оскільки проблеми генерації також впливають на відображення Unicode, проблема привертає увагу, коли виконується візуальна перевірка вилученого тексту. У PDF/A використання тексту/шрифту вказано достатньо однозначно, щоб гарантувати, що воно не може бути неправильним. Якщо засоби перегляду або принтери не пропонують повної підтримки систем кодування, це може призвести до проблем із PDF/A[16]. Це означає, що для того, щоб документ повністю відповідав стандарту, він буде правильним внутрішньо, тоді як документ система, яка використовується для перегляду або друку документа, може призвести до небажаних результатів.

Документ, створений за допомогою перетворення оптичного розпізнавання символів (OCR) у PDF/A-2 або PDF/A-3, не підтримує позначку notdefglyph . Тому цей тип перетворення може призвести до невідтвореного вмісту.

Стандартні документи PDF/A можна створювати за допомогою такого програмного забезпечення: SoftMaker Office 2021, MS Word 2010 і новіших версій, Adobe Acrobat Distiller, PDF Creator, OpenOffice або LibreOffice, починаючи з випуску 3.0, LaTeX із додатками pdfx або pdfTeX або за допомогою віртуального PDF-файлу. принтер (Adobe Acrobat Pro, PDF24, FreePDF + Ghostscript)[17].

Перевірка

[ред. | ред. код]

Перевірка документів PDF/A намагається виявити, чи створений файл справді є файлом PDF/A. На жаль, валідатори PDF/A часто розходяться, оскільки інтерпретація стандартів PDF/A не завжди зрозуміла[15].

Набір тестів Isartor

[ред. | ред. код]

Співпраця промисловості в оригінальному PDF/A Competence Center призвела до розробки набору тестів Isartor у 2007 та 2008 роках. Тестовий набір складається з 204 PDF-файлів, навмисно створених для систематичного невиконання кожної з вимог щодо відповідності PDF/A-1b, що дозволяє розробникам перевірити здатність свого програмного забезпечення перевіряти найпростіший рівень відповідності стандарту[18][19]. До середини 2009 року набір тестів уже помітно покращив загальну якість програмного забезпечення для перевірки PDF/A[20].

Консорціум veraPDF, очолюваний Open Preservation Foundation[21] і PDF Association, був створений у відповідь на виклик PREFORMA Комісії ЄС[22] щодо розробки валідатора з відкритим кодом для формату PDF/A. Асоціація PDF створила технічну робочу групу з перевірки PDF у листопаді 2014 року, щоб сформулювати план розробки підтримуваного галуззю засобу перевірки PDF/A[23]

У квітні 2015 року консорціум veraPDF виграв другу фазу контракту PREFORMA[24] Розробка тривала протягом 2016 року[25], Фаза 2 була завершена за графіком до грудня 2016 року. Фаза 3 тестування та період прийняття завершився в липні 2017 року. Тепер veraPDF охоплює всі частини (1, 2 і 3) і рівні відповідності (a, b, u) PDF/A.

veraPDF доступний для встановлення в Windows, macOS або Linux за допомогою аналізатора PDF на основі PDFBox або «Greenfields»[26].

Переглядач PDF/A

[ред. | ред. код]

Специфікація PDF/A також визначає деякі вимоги до відповідної програми перегляду PDF/A, яка повинна:

  • ігнорувати будь-які дані, які не описані стандартами PDF і PDF/A;
  • ігнорувати будь-яку інформацію про лінеаризацію, надану файлом;
  • використовувати лише вбудовані шрифти (а не будь-які локально доступні, замінені або імітовані шрифти);
  • відображати лише за допомогою вбудованого кольорового профілю;
  • гарантувати, що поля форми не змінюють відтворену презентацію та відтворюються без урахування даних форми;
  • переконатися, що анотації відображаються узгоджено.

Зустрічаючи файл, який заявляє про відповідність PDF/A, деякі програми перегляду PDF за замовчуванням встановлюють спеціальний «режим перегляду PDF/A», щоб відповідати вимогам до переглядача PDF/A. Наприклад, Adobe Acrobat і Adobe Reader 9 включають сповіщення, щоб повідомити користувача про те, що режим перегляду PDF/A активовано. Деякі програми перегляду PDF дозволяють користувачам вимкнути режим перегляду PDF/A або видалити інформацію PDF/A з файлу.[27] [28]

Недоліки

[ред. | ред. код]

Оскільки документ формату PDF/A повинен включати всі шрифти, які він використовує, PDF/A часто буде більшого розміру, ніж його PDF-еквівалент, який не містить вбудованих шрифтів. Це може бути небажаним при зберіганні великої кількості невеликих документів, що містять одні й ті ж самі шрифти, оскільки один і той же шрифт буде вбудований в кожен з файлів. Однак при зберіганні великої кількості невеликих документів в одному архіві, завдяки властивостям алгоритмів стиснення, різниця між використанням PDF з вбудованими шрифтами і без них — незначна.

У PDF/A-1 використання прозорості заборонено. Більшість інструментів створення PDF, які забезпечують відповідність документа PDF/A, наприклад інструмент експорту PDF у OpenOffice.org або інструмент експорту PDF у пакетах Microsoft Office 2007, також зроблять будь-які прозорі зображення в певному документі непрозорими. Це обмеження було знято в PDF/A-2. [2]

Деякі архівісти висловили занепокоєння, що PDF/A-3, який дозволяє вставляти довільні файли в документи PDF/A, може призвести до обходу процедур виділення пам’яті та обмежень на архівні формати.

Асоціація PDF розглянула деякі хибні уявлення про PDF/A у своїй публікації «PDF/A in a Nutshell 2.0» (2013).

Походження

[ред. | ред. код]

PDF/A спочатку був новою спільною ініціативою Асоціації постачальників друкованих, видавничих і конвертуючих технологій (NPES) і Асоціації з питань управління інформацією і зображеннями (AIIM), спрямованої на розробку міжнародного стандарту, який визначає використання PDF для цілей архівації і збереження документів. Метою було забезпечити зростаючу потребу електронного архівування документів засобами, за допомогою яких гарантувалося б збереження вмісту документів протягом тривалого періоду часу і надалі забезпечувалася б можливість отримання і відображення документів з цільним і передбачуваним результатом. Потреба в такому форматі існує у зростаючій кількості міжнародних, урядових і галузевих програм, включаючи юридичні системи, бібліотеки, регульовані галузі і т. д.

Див. також

[ред. | ред. код]
  • PDF/UA — стандарт PDF, розроблений для «універсальної доступності»
  • PDF/X — стандарт PDF, оптимізований для друку
  • PDF/VT — стандарт PDF для змінного та транзакційного друку
  • PDF/E — стандарт PDF для інженерно-технічної документації
  • Цифрові темні сторіччя

Примітки

[ред. | ред. код]
  1. PDF/A – ein Blick auf die technische Seite : [нім.] / Olaf Drümmer ; PDF/A Competence Center // www.pdfa.org. — 2011. — September 6. — Дата звернення: 07.08.2017.
  2. а б PDF/A – A Look at the Technical Side[недоступне посилання — історія] // www.pdfa.org. — Дата звернення: 06.07.2011.
  3. а б PDF/A-2 Standard Published by ISO! The New Standard Includes Great Technical Enhancements // www.pdfa.org. — 2011. — 1 July. — Дата звернення: 06.07.2011.
  4. Frequently Asked Questions (FAQs) : ISO 19005-1:2005 : PDF/A-1 : Date: July 10, 2006 // www.aiim.org. — 2006. — 10 July. — Дата звернення: 06.07.2011.
  5. ISO 19005-1:2005 // www.iso.org. — Дата звернення: 27.07.2016.
  6. а б ISO 19005-2:2011 // www.iso.org. — Дата звернення: 27.07.2016.
  7. а б ISO 19005-3:2012 // www.iso.org. — Дата звернення: 27.07.2016.
  8. ISO 19005-4:2020 // www.iso.org. — Дата звернення: 04.02.2021.
  9. Improved PDF/A-1b : [арх. 15.09.2012] // PDF Association. — 2011. — 5 August. — Дата звернення: 26.09.2012.
  10. PDF/A-2, PDF for Long-term Preservation, Use of ISO 32000-1 (PDF 1.7) // Library of Congress. — Дата звернення: 26.09.2012.
  11. PDF Association Arranges Its First Seminar on PDF/A to Include Standards 1 to 3 : [арх. 15.09.2012] // PDF Association. — 2012. — 29 March.
  12. The new PDF 2.0 and subset standards (PDF Association)
  13. Validation: is it really PDF/A? / Alexandra Oettler // PDF Association. — 2013. — 7 February. — Дата звернення: 11.07.2014.
  14. а б How do I create a PDF/A file? / Roland Erwin Suri. — . — DOI 10.16911/ethz-ib-2722-de.
  15. а б Suri Roland Erwin. Lost in migration: document quality for batch conversion to PDF/A // Library Hi Tech. — 2018. — Vol. 39, iss. 2 (6 June). — P. LHT–10–2017-0220. — ISSN 0737-8831. — DOI:10.1108/LHT-10-2017-0220.
  16. PDF/A – A Look at the Technical Side / Olaf Drümmer // PDF/A Competence Center. — PDF Association, 2007. — 22 September. — P. 5. — Дата звернення: 15.06.2022.
  17. INSTRUCTIONS FOR CREATING PDF/A-COMPLIANT FILES FOR ONLINE PUBLISHING AT THE TU BERLIN. — 2018. — November.
  18. Isartor Test Suite / PDF/A Competence Center. — 2008. — 12 August. — Дата звернення: 23.09.2016.
  19. Isartor Test Suite // PDF Association. — 2011. — 3 August. — Дата звернення: 23.09.2016.
  20. Bavaria Report[недоступне посилання] : [арх. 21.04.2015] // PDFlib. — 2009. — Дата звернення: 30.04.2015.
  21. Open Preservation Foundation veraPDF project // Open Preservation Foundation. — Дата звернення: 30.04.2015.
  22. PREFORMA, an EU Commission funded project
  23. A consortium including the PDF Association wins phase 1 of an EU Commission tender to create an open-source PDF/A validator : [арх. 21.04.2015] // PDF Association. — 2014. — 13 November. — Дата звернення: 30.04.2015.
  24. PREFORMA starts prototyping phase. — Дата звернення: 30.04.2015.
  25. veraPDF 0.22 released. — 2016. — 8 September. — Дата звернення: 23 вересня 2016.
  26. Software // veraPDF. — 2015. — 30 June. — Дата звернення: 15.03.2017. Page for downloading the platform-specific installer.
  27. How to Remove PDF/A Information from a file. — Дата звернення: 10.04.2014.
  28. Change the PDF/A viewing mode. — Дата звернення: 10.04.2014.

Література

[ред. | ред. код]

Посилання

[ред. | ред. код]
  • veraPDF — програмне забезпечення для перевірки файлів PDF/A.