GLM-OCRをOllamaで動かす

2026年2月18日2026年2月21日

バッチファイル

set OLLAMA_GPU_LAYER=cuda 
set OLLAMA_MODELS=E:\ollama\models
set INPUT_FOLDER=C:\data\
set OUTPUT_FOLDER=Y:\output_txt

REM 出力フォルダがなければ作成
if not exist "%OUTPUT_FOLDER%" (
    mkdir "%OUTPUT_FOLDER%"
)
for %%f in ("%INPUT_FOLDER%\*.*") do (
E:\ollama\ollama.exe run glm-ocr Text Recognition: "%%f" > "%OUTPUT_FOLDER%\%%~nf.txt"
)

ollama ps

Usage

Text recognition

ollama run glm-ocr Text Recognition: ./image.png

Table recognition

ollama run glm-ocr Table Recognition: ./image.png

Figure recognition

ollama run glm-ocr Figure Recognition: ./image.png

Windows でollama GPU を使ってモデルパスを変更する

まとめ

GLM-OCRは、複雑な文書理解を目的とした多モーダルOCRモデルで、以下のような特徴があります

GLM-Vアーキテクチャに基づくエンコーダ・デコーダ構成。
Multi-Token Prediction（MTP）損失と全タスク強化学習による高精度・高汎化性能。
CogViT視覚エンコーダ、軽量クロスモーダルコネクタ、GLM-0.5B言語デコーダを統合。
PP-DocLayout-V3に基づく「レイアウト解析→並列認識」の2段階プロセス。
OmniDocBench V1.5で94.62点を記録し、業界トップの性能。
実用性重視：複雑な表、コード文書、印章などにも対応。
高速・軽量：パラメータ数0.9Bで、vLLMやOllamaなどを通じて効率的にデプロイ可能。
オープンソース：SDKや推論ツールチェーンも提供され、導入が簡単。

OCR,ollama

Posted by eightban

Unicode 16進数変換ツール（複数行対応）