<< 2014/12 >> |
|
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
15 |
16 |
17 |
18 |
19 |
20 |
21 |
22 |
23 |
24 |
25 |
26 |
27 |
28 |
29 |
30 |
31 |
|
|
|
Profile |
アプリの街
アプリの街を作っています |
|
popplerではなくxpdfのpdftotextを使う
|
2014年12月27日
|
pdftotextというコマンドは、PDFビューアーのソフト「poppler」の一部として提供されていて、linuxのいろいろなディストリビューションでは、それが標準で使えるようになっているようです。
その後さらに調べたところ、popplerに含まれてくるpdftotextよりも、xpdf本家にあるpdftotextのほうが、新しいバージョンになっているようです(本日時点)。
試しにいろいろなPDFを変換してみたところ、xpdf本家で提供されている最新バージョンのpdftotextのほうが、精度良く日本語テキストを抽出できるようです。
おそらく近い将来、PDFBoxよりもxpdfのほうが性能が良いことに誰かが気づき、PDFBoxの精度を向上していくことでしょう。
技術の発展により、今できなくても、数年後、数十年後にできるようになる、ということがあるものなのですねぇ。(2014/12/27 12:26更新) コメント ( 11 )
|
|
|
|