GLM-OCRをOllamaで動かす

バッチファイル

set OLLAMA_GPU_LAYER=cuda 
set OLLAMA_MODELS=E:\ollama\models
set INPUT_FOLDER=C:\data\
set OUTPUT_FOLDER=Y:\output_txt

REM 出力フォルダがなければ作成
if not exist "%OUTPUT_FOLDER%" (
    mkdir "%OUTPUT_FOLDER%"
)
for %%f in ("%INPUT_FOLDER%\*.*") do (
E:\ollama\ollama.exe run glm-ocr Text Recognition: "%%f" > "%OUTPUT_FOLDER%\%%~nf.txt"
)

ollama ps

Usage

Text recognition

ollama run glm-ocr Text Recognition: ./image.png

Table recognition

ollama run glm-ocr Table Recognition: ./image.png

Figure recognition

ollama run glm-ocr Figure Recognition: ./image.png

まとめ

GLM-OCRは、複雑な文書理解を目的とした多モーダルOCRモデルで、以下のような特徴があります

  • GLM-Vアーキテクチャに基づくエンコーダ・デコーダ構成。
  • Multi-Token Prediction(MTP)損失全タスク強化学習による高精度・高汎化性能。
  • CogViT視覚エンコーダ、軽量クロスモーダルコネクタ、GLM-0.5B言語デコーダを統合。
  • PP-DocLayout-V3に基づく「レイアウト解析→並列認識」の2段階プロセス。
  • OmniDocBench V1.5で94.62点を記録し、業界トップの性能。
  • 実用性重視:複雑な表、コード文書、印章などにも対応。
  • 高速・軽量:パラメータ数0.9Bで、vLLMやOllamaなどを通じて効率的にデプロイ可能。
  • オープンソース:SDKや推論ツールチェーンも提供され、導入が簡単。


ollama

Posted by eightban