ubuntu で pdfファイルからテキスト抽出

インストール
$ sudo apt-get install poppler-utils


上記でpdftotextというコマンドが使えます。

コマンドの例

$ pdftotext abc.pdf abc.txt

レイアウトを維持したい場合
$ pdftotext -layout abc.pdf abc.txt

最後の5ページを変換
$ pdftotext -l 5 abc.pdf abc.txt

最初の5ページを変換
$ pdftotext -f 5 abc.pdf abc.txt

パスワード付きのPDFの場合
$ pdftotext -upw 'password' abc.pdf abc.txt