Ollamaでmodelfileを使ってGGUFモデルを動かす

ollama modelfile

AI コーディング用です 日本語で答えてくれるようにしています

FROM ./modelfiles/model/qwen2.5-coder-14b-instruct-q4_k_m.gguf


SYSTEM """
You are a helpful assistant that answers in Japanese.
"""


PARAMETER temperature 0.3
PARAMETER num_ctx 4096

モデル登録バッチファイル

モデルはダウンロードしておいてください

Qwen2.5-Coder – a Qwen Collection

set OLLAMA_GPU_LAYER=cuda 
set OLLAMA_MODELS=E:\ollama\models
set MDL=qwen2.5-coder
set MODEL=qwen2.5-coder-14b-instruct-q4_k_m

echo Starting Ollama...
start "" /B E:\ollama\ollama.exe

echo Waiting 10 seconds before stopping...
timeout /t 10 
"E:\ollama\ollama.exe"   create %MDL% -f %MODEL%.txt
ollama list        


cmd/k
localhost:11434

モデル起動

start  E:\ollama\ollama.exe run qwen2.5-coder:latest    

モデルがある場合は

qwen2.5-coder:14b-instruct-q4_K_M

Ollama PARAMETER

パラメータ(精度重視)(創造性重視)概要
num_ctx(文脈長)81924096次のトークンを生成するために使うコンテキストウィンドウのサイズを設定します。(デフォルト:2048)
repeat_last_nモデルがどれだけ遡って見返すかを設定し、繰り返しを防ぐことができます。(デフォルト:64、0 = 無効化、-1 = num_ctx)
repeat_penalty繰り返しに対してどの程度の罰則を課すかを決めます。値が高い(例:1.5)は繰り返しに対してより厳しく罰則が加わり、低い値(例:0.9)ほど緩やかになります。(デフォルト:1.1)
temperature(温度)0.1–0.30.7–1.0モデルの温度です。温度を上げることでモデルはより創造的に答えます。(デフォルト:0.8)
seed 生成に使う乱数シードを設定します。これを特定の数値に設定すると、モデルは同じプロンプトに対して同じテキストを生成します。(デフォルト:0)
stop(停止語)ストップシーケンスを使わせます。このパターンに遭遇すると、LLMはテキスト生成を停止し、返送します。複数のストップパターンは、モデルファイル内で複数の別々のパラメータを指定することで設定できます。stop
num_predict(最大生成トークン数)テキスト生成時に予測できる最大トークン数。(デフォルト:-1、無限生成)
top_k(候補数)ナンセンスを生み出す確率を減らします。値が高い(例:100)は多様な答えを得られ、低い値(例:10)はより保守的です。(デフォルト:40)
top_p(確率)トップKと相性が良いです。値が高い(例:0.95)はより多様なテキストを生み出し、低い値(例:0.5)はより焦点を絞り保守的なテキストを生成します。(デフォルト:0.9)

Modelfile Reference – Ollama

ollama

Posted by eightban