Ollamaでmodelfileを使ってGGUFモデルを動かす

2026年3月13日2026年3月18日

ollama modelfile

AI コーディング用です日本語で答えてくれるようにしています

FROM ./modelfiles/model/qwen2.5-coder-14b-instruct-q4_k_m.gguf


SYSTEM """
You are a helpful assistant that answers in Japanese.
"""


PARAMETER temperature 0.3
PARAMETER num_ctx 4096

モデル登録バッチファイル

モデルはダウンロードしておいてください

Qwen2.5-Coder – a Qwen Collection

set OLLAMA_GPU_LAYER=cuda 
set OLLAMA_MODELS=E:\ollama\models
set MDL=qwen2.5-coder
set MODEL=qwen2.5-coder-14b-instruct-q4_k_m

echo Starting Ollama...
start "" /B E:\ollama\ollama.exe

echo Waiting 10 seconds before stopping...
timeout /t 10 
"E:\ollama\ollama.exe"   create %MDL% -f %MODEL%.txt
ollama list        


cmd/k
localhost:11434

モデル起動

start  E:\ollama\ollama.exe run qwen2.5-coder:latest

モデルがある場合は

qwen2.5-coder:14b-instruct-q4_K_M

Ollama PARAMETER

パラメータ	(精度重視)	(創造性重視)	概要
num_ctx(文脈長)	8192	4096	次のトークンを生成するために使うコンテキストウィンドウのサイズを設定します。(デフォルト:2048)
repeat_last_n			モデルがどれだけ遡って見返すかを設定し、繰り返しを防ぐことができます。(デフォルト:64、0 = 無効化、-1 = num_ctx)
repeat_penalty			繰り返しに対してどの程度の罰則を課すかを決めます。値が高い(例:1.5)は繰り返しに対してより厳しく罰則が加わり、低い値(例:0.9)ほど緩やかになります。(デフォルト:1.1)
temperature(温度)	0.1–0.3	0.7–1.0	モデルの温度です。温度を上げることでモデルはより創造的に答えます。(デフォルト:0.8)
seed			生成に使う乱数シードを設定します。これを特定の数値に設定すると、モデルは同じプロンプトに対して同じテキストを生成します。(デフォルト:0)
stop(停止語)			ストップシーケンスを使わせます。このパターンに遭遇すると、LLMはテキスト生成を停止し、返送します。複数のストップパターンは、モデルファイル内で複数の別々のパラメータを指定することで設定できます。stop
num_predict(最大生成トークン数)			テキスト生成時に予測できる最大トークン数。(デフォルト:-1、無限生成)
top_k(候補数)			ナンセンスを生み出す確率を減らします。値が高い(例:100)は多様な答えを得られ、低い値(例:10)はより保守的です。(デフォルト:40)
top_p(確率)			トップKと相性が良いです。値が高い(例:0.95)はより多様なテキストを生み出し、低い値(例:0.5)はより焦点を絞り保守的なテキストを生成します。(デフォルト:0.9)

Modelfile Reference – Ollama

modelfile使わない方法

ollama run hf.co/unsloth/Z-Image-Turbo-GGUF

hf.co/unsloth/Z-Image-Turbo-GGUF:latest

ollama

Posted by eightban

Unsloth Studioをインストーラーを使わずに自分の用意したパイソン環境にインストールする

vibe-localをインストーラーinstall.cmdを使わずに自分の用意したパイソンとollamaを使って vibe-coder.pyを動かす

コメント一覧

まだ、コメントがありません