2004-06-06 [長年日記]
_ 8時半におきて
勉強。すずしくてはかどる。
_ かさ
撥水が悪くなってきたので防水スプレーを吹きかけようか。もうスプレーしまくりで。
_ pdfからtextの抽出法
以前はacrobatのtext選択機能を使っていたのだが、いかんせんめんどうだった。前田さんからxpdfのお話を伺って早速試してみる。
1.Linux boxにxpdfのパッケージを入れる。apt-get install xpdf
2.適当なフォルダにhoge.pdfをアップロードする。
3.pdfがおいてあるフォルダで"pdftotext hoge.pdf"を実行
4.hoge.txtが作成されるので、回収。
5.exciteのtext翻訳で・・(ry
結構精度よく展開してくれるので重宝しています。2段組とかになってるドキュメントは若干内容が前後しますが、まぁそれくらいはてめえで直せってことで。前田さん有難うございます。(もともとはnamazuのお話をしていたのですが。。)