Ollamaでmodelfileを使ってGGUFモデルを動かす
ollama modelfile
AI コーディング用です 日本語で答えてくれるようにしています
FROM ./modelfiles/model/qwen2.5-coder-14b-instruct-q4_k_m.gguf
SYSTEM """
You are a helpful assistant that answers in Japanese.
"""
PARAMETER temperature 0.3
PARAMETER num_ctx 4096
モデル登録バッチファイル
モデルはダウンロードしておいてください
Qwen2.5-Coder – a Qwen Collection
set OLLAMA_GPU_LAYER=cuda
set OLLAMA_MODELS=E:\ollama\models
set MDL=qwen2.5-coder
set MODEL=qwen2.5-coder-14b-instruct-q4_k_m
echo Starting Ollama...
start "" /B E:\ollama\ollama.exe
echo Waiting 10 seconds before stopping...
timeout /t 10
"E:\ollama\ollama.exe" create %MDL% -f %MODEL%.txt
ollama list
cmd/k
localhost:11434モデル起動
start E:\ollama\ollama.exe run qwen2.5-coder:latest モデルがある場合は
qwen2.5-coder:14b-instruct-q4_K_M
Ollama PARAMETER
| パラメータ | (精度重視) | (創造性重視) | 概要 |
| num_ctx(文脈長) | 8192 | 4096 | 次のトークンを生成するために使うコンテキストウィンドウのサイズを設定します。(デフォルト:2048) |
| repeat_last_n | モデルがどれだけ遡って見返すかを設定し、繰り返しを防ぐことができます。(デフォルト:64、0 = 無効化、-1 = num_ctx) | ||
| repeat_penalty | 繰り返しに対してどの程度の罰則を課すかを決めます。値が高い(例:1.5)は繰り返しに対してより厳しく罰則が加わり、低い値(例:0.9)ほど緩やかになります。(デフォルト:1.1) | ||
| temperature(温度) | 0.1–0.3 | 0.7–1.0 | モデルの温度です。温度を上げることでモデルはより創造的に答えます。(デフォルト:0.8) |
| seed | 生成に使う乱数シードを設定します。これを特定の数値に設定すると、モデルは同じプロンプトに対して同じテキストを生成します。(デフォルト:0) | ||
| stop(停止語) | ストップシーケンスを使わせます。このパターンに遭遇すると、LLMはテキスト生成を停止し、返送します。複数のストップパターンは、モデルファイル内で複数の別々のパラメータを指定することで設定できます。stop | ||
| num_predict(最大生成トークン数) | テキスト生成時に予測できる最大トークン数。(デフォルト:-1、無限生成) | ||
| top_k(候補数) | ナンセンスを生み出す確率を減らします。値が高い(例:100)は多様な答えを得られ、低い値(例:10)はより保守的です。(デフォルト:40) | ||
| top_p(確率) | トップKと相性が良いです。値が高い(例:0.95)はより多様なテキストを生み出し、低い値(例:0.5)はより焦点を絞り保守的なテキストを生成します。(デフォルト:0.9) |







ディスカッション
コメント一覧
まだ、コメントがありません