23. 印刷格物致知
          23.3. PDF
              23.3.4. PDF檔案格式
 23.3.4.3. 文字(Text)

PDF 檔案內的文字可能是有被壓縮或無壓縮,用於文字的壓縮演算法是 LZW,用編輯器或文字處理器打開的 PDF 內之被壓縮過的文字是無法被閱讀的,LZW 壓縮的原理是將經常出現的一串字(譬如 the)替換為一個字元,通常的壓縮比約是 2 比 1。

編輯 PDF 內的文字

Acrobat Professional 專業版內有一個“TouchUp Text”可以稍對 PDF 檔案內的文字製作微小的變化,可惜 PDF 檔案對文字是以一行一行的方式儲存,這意味著 PDF 檔案是不了解檔案中文字流的順序,如果使用 Acrobat 到某行補加幾個字,就算是超出行的寬度也不會溢流到下一行。

如果你想在 PDF 內大量更改文字並且絕對需要重排 (reflow) 時,可以試試 Infix PDF Editor,它是一個 Windows 下獨立程式提供處理 PDF 檔案時所需的強大文字編輯能力。

從 PDF 萃取文字

最簡單的方式是使用 Acrobat 來選擇文字,然後將其複製在貼入其他文字檔案內,選取的方式是按下左鍵後拖曳過要選取的文字,但這方法跨頁時就不方便,也可以點選在文字區然後使用全選指令選取各頁面的所有文字。

另外 Acrobat 8 的另存新檔指令下可以將整個 PDF 儲存為 DOC, RTF 或是 TXT 的文字檔案。

也有許多可用的工具可以萃取 PDF 檔案中的文字,要花錢購買,但效率更高。

Table of contents