23. 印刷格物致知
          23.3. PDF
              23.3.3. 印前的PDF標準
 23.3.3.5. PDF/A檔案格式

如今越來越多的文件都以電子方式存檔,如果您已用電腦工作若干年,您可能已經了解重新使用舊的存檔資料可能是一項挑戰,10 年前用 WordPerfect 創建的檔案根本無法以新的文字處理器讀取;可能也有根本已經不存在的某繪圖應用程式所建立的繪圖設計。

對於需要以電子形式將數以千計或百萬計文件存檔的組織,檔案格式的關鍵包括:

  • 保留文件的原貌
  • 有良好註解說明
  • 與供應商和作業系統無關
  • 自我包含:檢視檔案不需額外的資料
  • 可以進行搜尋

PDF 檔案格式符合上述大部分要求,只要加上一套額外的規則來規範 PDF 檔案,便能確保該資料百年之後仍然可以被處理;這套規則稱為 PDF/A,由 ISO 組織親自發展,PDF/A 定義於 ISO 19005-1:2005 標準。

PDF/A 是一個清楚界定的 PDF 標準之子集合,優化以期能長期保存的電子文件..

目前有 2 個 PDF/A 的變異型,兩者都是基於 PDF1.4 規格:

  • PDF/A-1a

    • 文件的內容也以“標記的內容”(tagged content) 嵌入到檔案內,這表示 PDF 描述文件的外觀,但也包含了所有內文以 Unicode 編碼作為結構資料,所以文字的邏輯結構仍可被識別,尋找文字或萃取文字都會比較容易;舉個簡單的例子:假設單字“Appalachians”在某一文件只出現一次,而且剛好是跨行斷字 (hyphenated),如果 PDF 檔案只包含描述外觀的內容,它只包含“Appa-”和“lachians”,檔案內無法查詢到 Appalachians 這個單字,但如果所有的文字都以標記內容嵌入 PDF 檔案內,搜索引擎便可以在檔案裡很容易找到這個單字
  • PDF/A-1b

    • 僅專注於檔案外觀視覺顯示的完整性

什麼使 PDF/A 檔案適合作為文件歸檔?

PDF/A 檔案有一些的限制。

  • PDF/A-1 檔案堅持使用 PDF 1.4 規格
  • 不能使用透明度
  • PDF/A 檔案應自我包含,表示著它不能包含任何外部引用或相依關係資料
  • 所有字體都必須內嵌到檔案內,不允許使用字體部份內嵌 (subsetting)
  • 可包括 RGB 或 CMYK 資料,但你不能混用:檔案要麼全是 RGB 或全是 CMYK
  • 只允許有限程度的評論 (Comments) 和注釋 (Notes),不論是在螢幕檢視與印刷上都必須是同樣的表現方式
  • PDF/A 檔案不能嵌入如音樂,電影或其他文件
  • 不可包含表單或 JavaScript 代碼
  • 不能用版權專屬於某公司的壓縮演算法,因為專利權可能限制檔案的使用;這意味著 PDF/A 檔案不能使用 LZW 和 JPEG 壓縮

除了上述提到的不能使用外,也規定若干平常 PDF 檔案不會有的資料必須出現於 PDF/A 檔案內:

  • 有一個單獨的 PDF/A 標識需要被置入文件
  • 雖然不是強制性的,還是強烈建議使用 Metadata,這些 Metadata 資料應條理清楚有一致性

如何創建 PDF/A 檔案

最便宜的解決方案可能是購買和使用的 Adobe Acrobat 8 或更高版本,Acrobat 8 內建直接支援 PDF/A 檔案。

市場上也有其他的工具和插件,例如 Callas pdfaPilot

更多資訊

更多的訊息可以參考美國政府的這個網頁或是直接到 PDF/A 的網站

Table of contents