Techioz Blog

PDFNet: PDF からの出力テキストの語順が Ubuntu 16.04 と Ubuntu 20.04 で異なります。

概要

PDFNet (バージョン 9.308007) を使用して PDF ファイルをテキスト形式に変換します。 最近、Ubuntu 16.04 から Ubuntu 20.04 にアップグレードする必要がありました。 問題は、Ubuntu 20.04 で PDFNet を使用して変換すると、出力ファイル内の単語の順序が変わることです。 例:

Ubuntu 16.04

Ubuntu 20.04

最初のバリアント (Ubuntu 16.04) とまったく同じように語順が必要です。さらに掘り下げるヒントが少なくともいくつかある場合は、非常に感謝します。

解決策

PDF 内のすべてのフォントが埋め込まれていないと仮定すると、問題は 2 つのシステムに異なるフォントがインストールされており、PDFNet が (埋め込まれていないフォントの) フォント置換を行うときに、これらの他のフォントのメトリクスとグリフが異なることです。フォント メトリックとグリフのこの微妙な違いは、テキスト ランの検出に影響を与え、テキスト抽出出力が異なる場合があります。

Ubuntu 20 システムを更新して Ubuntu 16 システムと同じフォントを使用すると、同じフォントが置換されるため、テキスト抽出順序も同じになります。