アプリの街 アプリの街に関するブログです

<<    2014/12    >>
  1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31      

Profile
アプリの街
アプリの街を作っています

カウンタ
201003

Links
アプリの街
メロディの街
ドット絵の街



最近のブログ
popplerではなくxpdfのpdftotextを使う
pdftotext > PDFBox > iText
JavaFX 8
技術的な内容の忘備録。
アマゾンで間違った商品を購入した場合
6213
burp
2038年問題
スケジュール帳バージョンアップ
スケジュール帳をバージョンアップ

アプリの街 TOP


popplerではなくxpdfのpdftotextを使う 2014年12月27日
pdftotextというコマンドは、PDFビューアーのソフト「poppler」の一部として提供されていて、linuxのいろいろなディストリビューションでは、それが標準で使えるようになっているようです。

その後さらに調べたところ、popplerに含まれてくるpdftotextよりも、xpdf本家にあるpdftotextのほうが、新しいバージョンになっているようです(本日時点)。

試しにいろいろなPDFを変換してみたところ、xpdf本家で提供されている最新バージョンのpdftotextのほうが、精度良く日本語テキストを抽出できるようです。

おそらく近い将来、PDFBoxよりもxpdfのほうが性能が良いことに誰かが気づき、PDFBoxの精度を向上していくことでしょう。

技術の発展により、今できなくても、数年後、数十年後にできるようになる、ということがあるものなのですねぇ。
(2014/12/27 12:26更新) コメント ( 11 )