PDF をテキストにできるPoppler pdftotext
Popplerは、PDFをレンダリングするためのライブラリで、その汎用性とパフォーマンスの高さから広く使用されています。Windows上でPopplerを使用することができます
インストール
または
アナコンダ からダウンロードした場合は 拡張子を ZIP にしてください
Poppler Encoding Data
アナコンダからダウンロードした場合はこちらも入れてください
poppler-data-0.4.12.tar.gzをダウンロード
share/popplerにファイルを解凍します
pdftotext
Usage: pdftotext [options] <PDF-file> [<text-file>]
-f <int> : 変換する最初のページ
-l <int> : 変換する最後のページ
-r <fp> : 解像度、DPI単位(デフォルトは72)
-x <int> : トリミング領域の左上隅のx座標
-y <int> : トリミング領域の左上隅のy座標
-W <int> : トリミング領域の幅(ピクセル単位、デフォルトは0)
-H <int> : トリミング領域の高さ(ピクセル単位、デフォルトは0)
-layout : 元の物理レイアウトを維持
-fixed <fp> : 固定ピッチ(または表形式)のテキストを仮定
-raw : コンテンツストリーム順に文字列を保持
-nodiag : 斜めテキストを無視
-htmlmeta : メタ情報を含む簡単なHTMLファイルを生成
-tsv : メタ情報を含む簡単なTSVファイルを生成(バウンディングボックス用)
-enc <string> : 出力テキストのエンコーディング名
-listenc : 利用可能なエンコーディングの一覧を表示
-eol <string> : 出力の改行方式(unix, dos, or mac)
-nopgbrk : ページ間にページブレークを挿入しない
-bbox : 各単語のバウンディングボックスとページサイズをHTMLに出力。-htmlmetaを設定
-bbox-layout : -bboxと同様だが、追加のレイアウトバウンディングボックスデータを含む。-htmlmetaを設定
-cropbox : メディアボックスではなくトリミングボックスを使用
-colspacing <fp> : 隣接するテキストを新しい列と見なす前に単語の後に許容される間隔、フォントサイズの割合(デフォルトは0.7、旧リリースは0.3)
-opw <string> : オーナーパスワード(暗号化されたファイル用)
-upw <string> : ユーザーパスワード(暗号化されたファイル用)
-q : メッセージやエラーを表示しない
-v : 著作権およびバージョン情報を表示
-h : 使用情報を表示
-help : 使用情報を表示
--help : 使用情報を表示
-? : 使用情報を表示
ディスカッション
コメント一覧
まだ、コメントがありません