Ruby PDF-Readerを使用してPDFを解析する
概要
pdf-reader gemを使用してpdfを解析しようとしています。いくつかのメソッドを検討し、特定のPDFページの表示メソッドには正しいデータが表示されます(テーブル列に複数の行がある場合でも、その特定の列が結合されて表示されます)が、戻り値がnilであるため、できる方法はありますかこのメソッドが表示する値を取得します。また、テキストメソッドを使用しようとしましたが、問題は、PDFにテーブルのような構造があり、1つのテーブル列に複数の行を含めることができ、そのためテキストメソッドでは値が順番に表示されないため、最初に表示されることです。行、次に 2 行目など。したがって、どの列に複数の行があるかを判断することはほとんど困難になります。その問題を解決する解決策はありますか?
reader = PDF::Reader.new(io)
reader.page(1).display #display methods print nice pdf data but return nil
reader.page(1).text #display pdf text but does not show value in order (in case of table)
解決策
以下のコードを試してみてはいかがでしょうか
reader = PDF::Reader.new(io)
puts reader.page(1).display #display methods print nice pdf data but return nil
puts reader.page(1).text #display pdf text but does not show value in order (in case of table)
display メソッドは印刷のみを返しません。
結果を確認したい場合は。 putor p と入力して試してください