GGUF量子化は、Gemma 4を24GBのモンスターから実際にあなたのハードウェアに収まる何かに縮小する方法です。しかし、選択肢が何十もある量子化レベルから適切なものを選ぶのは混乱します。このガイドではノイズをカットして、どのフォーマットを使うべきか正確にお伝えします。
GGUFとは?
GGUF(GGML Universal Format)は、コンシューマーハードウェアで大規模言語モデルを実行するために特別に設計されたファイル形式です。モデルの重みを圧縮形式で保存し、小さな品質のトレードオフで劇的に小さいファイルサイズと高速な推論を実現します。
キーコンセプトは量子化 — モデル重みの精度を16bit浮動小数点(FP16)から8bit、4bit、さらに低くに減らすこと。低精度 = 小さいファイル = 高速推論 = わずかに精度が落ちる。
量子化レベルの比較
Gemma 4 12Bの完全な比較:
| 量子化 | ファイルサイズ | 必要VRAM | 速度(tok/s)* | 品質損失 | 最適 |
|---|---|---|---|---|---|
| FP16 | 約24 GB | 約26 GB | ベースライン | なし | リサーチ、ファインチューン |
| Q8_0 | 約13 GB | 約15 GB | 1.2倍速い | 無視できる | 品質重要タスク |
| Q6_K | 約10 GB | 約12 GB | 1.4倍速い | 非常に小さい | 品質とサイズのバランス |
| Q5_K_M | 約8.5 GB | 約10 GB | 1.6倍速い | 小さい | より良い品質の日常用 |
| Q5_K_S | 約8 GB | 約10 GB | 1.6倍速い | 小さい | Q5よりわずかに小さい |
| Q4_K_M | 約7 GB | 約9 GB | 1.8倍速い | 中程度 | ほとんどのユーザー最良の選択 |
| Q4_K_S | 約6.5 GB | 約8.5 GB | 1.8倍速い | 中程度 | VRAM予算タイト |
| IQ4_XS | 約6 GB | 約8 GB | 1.9倍速い | 目立つ | 最小限の実用品質 |
| Q3_K_M | 約5.5 GB | 約7.5 GB | 2.0倍速い | 大きい | 推奨しない |
| Q2_K | 約4.5 GB | 約6.5 GB | 2.1倍速い | 深刻 | 実験のみ |
同じハードウェアでのFP16に対する相対速度。実際のtok/sはGPUによって変わります。
推奨
- Q4_K_M — ほとんどの人にとって最良のバランス。コーディング、ライティング、Q&Aなどの日常タスクでは、品質は驚くほどFP16に近いです。ほとんどのOllamaモデルのデフォルトです。
- Q5_K_M — 追加のVRAMがあり、複雑な推論タスクで目に見えて良い品質が欲しい場合に選択。
- Q8_0 — オリジナルに近い品質。ハードウェアが対応できる場合のみ使用 — Q5に対する品質改善はほとんどのタスクで微々たるものです。
- IQ4_XS — 使用可能な最小のフォーマット。テストや、VRAMが1-2 GB足りない時に最適。
Q3とQ2は避けましょう — 品質低下が急すぎて、何か真剣なことには使えません。
GGUFファイルのダウンロード先
Hugging FaceのUnsloth(推奨)
Unslothはすべてのgemma 4モデル向けに高品質なGGUF変換を提供:
# 利用可能なファイルを閲覧
# https://huggingface.co/unsloth/gemma-4-12b-it-GGUF
# huggingface-cliでダウンロード
pip install huggingface_hub
huggingface-cli download unsloth/gemma-4-12b-it-GGUF \
gemma-4-12b-it-Q4_K_M.gguf \
--local-dir ./models
# またはwgetでダウンロード
wget https://huggingface.co/unsloth/gemma-4-12b-it-GGUF/resolve/main/gemma-4-12b-it-Q4_K_M.gguf利用可能なリポジトリ:
| モデル | Hugging Faceリポジトリ |
|---|---|
| Gemma 4 1B | unsloth/gemma-4-1b-it-GGUF |
| Gemma 4 4B | unsloth/gemma-4-4b-it-GGUF |
| Gemma 4 12B | unsloth/gemma-4-12b-it-GGUF |
| Gemma 4 27B | unsloth/gemma-4-27b-it-GGUF |
GGUFファイルの実行
llama.cppで
GGUFファイルを実行する最も直接的な方法:
# llama.cppをクローンしてビルド
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON # Macの場合はDGGML_METAL=ON
cmake --build build
# 推論を実行
./build/bin/llama-server \
-m ./models/gemma-4-12b-it-Q4_K_M.gguf \
-ngl 999 \
-c 8192 \
--host 0.0.0.0 \
--port 8080
# これでhttp://localhost:8080にOpenAI互換APIができるOllamaで
Ollamaは内部でGGUFを使用。GGUFファイルからカスタムモデルを作成できます:
# 方法1:事前ビルドされたOllamaモデルを使用(最も簡単)
ollama run gemma4:12b
# 方法2:自分のGGUFファイルをインポート
# Modelfileを作成
cat > Modelfile << 'EOF'
FROM ./gemma-4-12b-it-Q4_K_M.gguf
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
TEMPLATE """{{ .System }}
{{ .Prompt }}"""
EOF
# モデルを作成
ollama create my-gemma4 -f Modelfile
ollama run my-gemma4LM Studioで
LM StudioはGGUFファイルのダウンロードと実行のためのGUIを提供:
- LM Studioを開く
- モデルブラウザで「gemma 4」を検索
- 希望する量子化レベルを選択
- Downloadをクリック
- Chatタブに移動してモデルを選択
- チャットを開始
LM StudioはOpenAI形式互換のローカルAPIも公開しているので、OpenAIスタイルのエンドポイントを期待するアプリケーションのバックエンドとしてドロップインで使用できます。
品質 vs 速度:実世界テスト
実際のタスクでGemma 4 12Bの異なる量子化がどのように性能を発揮するか:
| タスク | Q4_K_M | Q5_K_M | Q8_0 | FP16 |
|---|---|---|---|---|
| コード生成 | 92%一致 | 95%一致 | 98%一致 | 100%(ベースライン) |
| クリエイティブライティング | 小さな差 | ほぼ同一 | 同一 | ベースライン |
| 数学推論 | 約85%精度 | 約90%精度 | 約95%精度 | 約96%精度 |
| 要約 | 非常に近い | 非常に近い | 同一 | ベースライン |
| 翻訳 | 小さな品質低下 | ほぼ同一 | 同一 | ベースライン |
ほとんどのユーザーにはQ4_K_Mが最適解です。難しい数学や複雑な推論では数パーセント失いますが、コーディング、ライティング、要約、一般的なQ&Aでは、違いはほとんど目立ちません。
ハードウェア別の選び方
| あなたのハードウェア | 推奨量子化 | モデルサイズ |
|---|---|---|
| 8GB VRAM GPU | Q4_K_MまたはIQ4_XS | 12B |
| 12GB VRAM GPU | Q5_K_MまたはQ6_K | 12B |
| 16GB VRAM GPU | Q8_0 | 12B |
| 24GB VRAM GPU | Q8_0(12B)またはQ4_K_M(27B) | 12Bまたは27B |
| 16GB Mac | Q4_K_M | 12B |
| 32GB Mac | Q5_K_M(12B)またはQ4_K_M(27B) | 12Bまたは27B |
| 64GB以上 Mac | 任意のサイズのQ8_0 | 27B |
次のステップ
- モデルをダウンロードする必要? Gemma 4の全ダウンロード方法についてはダウンロードガイドをご確認
- ハードウェア要件の詳細が欲しい? モデルと量子化別のVRAM計算についてはハードウェアガイドを参照
- Hugging Faceからダウンロード? 詳細な手順はHugging Faceからのダウンロード方法を読む
結論:Q4_K_Mから始めましょう。特定のタスクで品質問題に気付いたらQ5_K_Mに上げます。VRAMに余裕があり、本当に追加の精度が必要な場合のみ、それより高くしましょう。
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


