GLM-OCRをOllamaで動かす
バッチファイル
set OLLAMA_GPU_LAYER=cuda
set OLLAMA_MODELS=E:\ollama\models
set INPUT_FOLDER=C:\data\
set OUTPUT_FOLDER=Y:\output_txt
REM 出力フォルダがなければ作成
if not exist "%OUTPUT_FOLDER%" (
mkdir "%OUTPUT_FOLDER%"
)
for %%f in ("%INPUT_FOLDER%\*.*") do (
E:\ollama\ollama.exe run glm-ocr Text Recognition: "%%f" > "%OUTPUT_FOLDER%\%%~nf.txt"
)
ollama ps
Usage
Text recognition
ollama run glm-ocr Text Recognition: ./image.png
Table recognition
ollama run glm-ocr Table Recognition: ./image.png
Figure recognition
ollama run glm-ocr Figure Recognition: ./image.png
まとめ
GLM-OCRは、複雑な文書理解を目的とした多モーダルOCRモデルで、以下のような特徴があります
- GLM-Vアーキテクチャに基づくエンコーダ・デコーダ構成。
- Multi-Token Prediction(MTP)損失と全タスク強化学習による高精度・高汎化性能。
- CogViT視覚エンコーダ、軽量クロスモーダルコネクタ、GLM-0.5B言語デコーダを統合。
- PP-DocLayout-V3に基づく「レイアウト解析→並列認識」の2段階プロセス。
- OmniDocBench V1.5で94.62点を記録し、業界トップの性能。
- 実用性重視:複雑な表、コード文書、印章などにも対応。
- 高速・軽量:パラメータ数0.9Bで、vLLMやOllamaなどを通じて効率的にデプロイ可能。
- オープンソース:SDKや推論ツールチェーンも提供され、導入が簡単。







ディスカッション
コメント一覧
まだ、コメントがありません