ubuntu で pdfファイルからテキスト抽出
インストール
$ sudo apt-get install poppler-utils
上記でpdftotextというコマンドが使えます。
コマンドの例
$ pdftotext abc.pdf abc.txt
レイアウトを維持したい場合
$ pdftotext -layout abc.pdf abc.txt最後の5ページを変換
$ pdftotext -l 5 abc.pdf abc.txt最初の5ページを変換
$ pdftotext -f 5 abc.pdf abc.txtパスワード付きのPDFの場合
$ pdftotext -upw 'password' abc.pdf abc.txt