PDF をテキストにできるPoppler pdftotext  

Popplerは、PDFをレンダリングするためのライブラリで、その汎用性とパフォーマンスの高さから広く使用されています。Windows上でPopplerを使用することができます

インストール

GitHub – oschwartz10612/poppler-windows: Download Poppler binaries packaged for Windows with dependencies

または

Files | Anaconda.org

アナコンダ からダウンロードした場合は 拡張子を ZIP にしてください

Poppler Encoding Data

アナコンダからダウンロードした場合はこちらも入れてください

Poppler-25.01.0

poppler-data-0.4.12.tar.gzをダウンロード

share/popplerにファイルを解凍します

pdftotext  

Usage: pdftotext [options] <PDF-file> [<text-file>]
  -f <int>             : 変換する最初のページ
  -l <int>             : 変換する最後のページ
  -r <fp>              : 解像度、DPI単位(デフォルトは72)
  -x <int>             : トリミング領域の左上隅のx座標
  -y <int>             : トリミング領域の左上隅のy座標
  -W <int>             : トリミング領域の幅(ピクセル単位、デフォルトは0)
  -H <int>             : トリミング領域の高さ(ピクセル単位、デフォルトは0)
  -layout              : 元の物理レイアウトを維持
  -fixed <fp>          : 固定ピッチ(または表形式)のテキストを仮定
  -raw                 : コンテンツストリーム順に文字列を保持
  -nodiag              : 斜めテキストを無視
  -htmlmeta            : メタ情報を含む簡単なHTMLファイルを生成
  -tsv                 : メタ情報を含む簡単なTSVファイルを生成(バウンディングボックス用)
  -enc <string>        : 出力テキストのエンコーディング名
  -listenc             : 利用可能なエンコーディングの一覧を表示
  -eol <string>        : 出力の改行方式(unix, dos, or mac)
  -nopgbrk             : ページ間にページブレークを挿入しない
  -bbox                : 各単語のバウンディングボックスとページサイズをHTMLに出力。-htmlmetaを設定
  -bbox-layout         : -bboxと同様だが、追加のレイアウトバウンディングボックスデータを含む。-htmlmetaを設定
  -cropbox             : メディアボックスではなくトリミングボックスを使用
  -colspacing <fp>     : 隣接するテキストを新しい列と見なす前に単語の後に許容される間隔、フォントサイズの割合(デフォルトは0.7、旧リリースは0.3)
  -opw <string>        : オーナーパスワード(暗号化されたファイル用)
  -upw <string>        : ユーザーパスワード(暗号化されたファイル用)
  -q                   : メッセージやエラーを表示しない
  -v                   : 著作権およびバージョン情報を表示
  -h                   : 使用情報を表示
  -help                : 使用情報を表示
  --help               : 使用情報を表示
  -?                   : 使用情報を表示

bat,windows

Posted by eightban