Gemma 4 GGUF：どの量子化を選ぶべき？

GGUF量子化は、Gemma 4を24GBのモンスターから実際にあなたのハードウェアに収まる何かに縮小する方法です。しかし、選択肢が何十もある量子化レベルから適切なものを選ぶのは混乱します。このガイドではノイズをカットして、どのフォーマットを使うべきか正確にお伝えします。

GGUFとは？

GGUF（GGML Universal Format）は、コンシューマーハードウェアで大規模言語モデルを実行するために特別に設計されたファイル形式です。モデルの重みを圧縮形式で保存し、小さな品質のトレードオフで劇的に小さいファイルサイズと高速な推論を実現します。

キーコンセプトは量子化 — モデル重みの精度を16bit浮動小数点（FP16）から8bit、4bit、さらに低くに減らすこと。低精度 = 小さいファイル = 高速推論 = わずかに精度が落ちる。

量子化レベルの比較

Gemma 4 12Bの完全な比較：

量子化	ファイルサイズ	必要VRAM	速度（tok/s）*	品質損失	最適
FP16	約24 GB	約26 GB	ベースライン	なし	リサーチ、ファインチューン
Q8_0	約13 GB	約15 GB	1.2倍速い	無視できる	品質重要タスク
Q6_K	約10 GB	約12 GB	1.4倍速い	非常に小さい	品質とサイズのバランス
Q5_K_M	約8.5 GB	約10 GB	1.6倍速い	小さい	より良い品質の日常用
Q5_K_S	約8 GB	約10 GB	1.6倍速い	小さい	Q5よりわずかに小さい
Q4_K_M	約7 GB	約9 GB	1.8倍速い	中程度	ほとんどのユーザー最良の選択
Q4_K_S	約6.5 GB	約8.5 GB	1.8倍速い	中程度	VRAM予算タイト
IQ4_XS	約6 GB	約8 GB	1.9倍速い	目立つ	最小限の実用品質
Q3_K_M	約5.5 GB	約7.5 GB	2.0倍速い	大きい	推奨しない
Q2_K	約4.5 GB	約6.5 GB	2.1倍速い	深刻	実験のみ

同じハードウェアでのFP16に対する相対速度。実際のtok/sはGPUによって変わります。

推奨

Q4_K_M — ほとんどの人にとって最良のバランス。コーディング、ライティング、Q&Aなどの日常タスクでは、品質は驚くほどFP16に近いです。ほとんどのOllamaモデルのデフォルトです。
Q5_K_M — 追加のVRAMがあり、複雑な推論タスクで目に見えて良い品質が欲しい場合に選択。
Q8_0 — オリジナルに近い品質。ハードウェアが対応できる場合のみ使用 — Q5に対する品質改善はほとんどのタスクで微々たるものです。
IQ4_XS — 使用可能な最小のフォーマット。テストや、VRAMが1-2 GB足りない時に最適。

Q3とQ2は避けましょう — 品質低下が急すぎて、何か真剣なことには使えません。

GGUFファイルのダウンロード先

Hugging FaceのUnsloth（推奨）

Unslothはすべてのgemma 4モデル向けに高品質なGGUF変換を提供：

# 利用可能なファイルを閲覧
# https://huggingface.co/unsloth/gemma-4-12b-it-GGUF

# huggingface-cliでダウンロード
pip install huggingface_hub
huggingface-cli download unsloth/gemma-4-12b-it-GGUF \
  gemma-4-12b-it-Q4_K_M.gguf \
  --local-dir ./models

# またはwgetでダウンロード
wget https://huggingface.co/unsloth/gemma-4-12b-it-GGUF/resolve/main/gemma-4-12b-it-Q4_K_M.gguf

利用可能なリポジトリ：

モデル	Hugging Faceリポジトリ
Gemma 4 1B	unsloth/gemma-4-1b-it-GGUF
Gemma 4 4B	unsloth/gemma-4-4b-it-GGUF
Gemma 4 12B	unsloth/gemma-4-12b-it-GGUF
Gemma 4 27B	unsloth/gemma-4-27b-it-GGUF

GGUFファイルの実行

llama.cppで

GGUFファイルを実行する最も直接的な方法：

# llama.cppをクローンしてビルド
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON  # Macの場合はDGGML_METAL=ON
cmake --build build

# 推論を実行
./build/bin/llama-server \
  -m ./models/gemma-4-12b-it-Q4_K_M.gguf \
  -ngl 999 \
  -c 8192 \
  --host 0.0.0.0 \
  --port 8080

# これでhttp://localhost:8080にOpenAI互換APIができる

Ollamaで

Ollamaは内部でGGUFを使用。GGUFファイルからカスタムモデルを作成できます：

# 方法1：事前ビルドされたOllamaモデルを使用（最も簡単）
ollama run gemma4:12b

# 方法2：自分のGGUFファイルをインポート
# Modelfileを作成
cat > Modelfile << 'EOF'
FROM ./gemma-4-12b-it-Q4_K_M.gguf
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
TEMPLATE """{{ .System }}
{{ .Prompt }}"""
EOF

# モデルを作成
ollama create my-gemma4 -f Modelfile
ollama run my-gemma4

LM Studioで

LM StudioはGGUFファイルのダウンロードと実行のためのGUIを提供：

LM Studioを開く
モデルブラウザで「gemma 4」を検索
希望する量子化レベルを選択
Downloadをクリック
Chatタブに移動してモデルを選択
チャットを開始

LM StudioはOpenAI形式互換のローカルAPIも公開しているので、OpenAIスタイルのエンドポイントを期待するアプリケーションのバックエンドとしてドロップインで使用できます。

品質 vs 速度：実世界テスト

実際のタスクでGemma 4 12Bの異なる量子化がどのように性能を発揮するか：

タスク	Q4_K_M	Q5_K_M	Q8_0	FP16
コード生成	92%一致	95%一致	98%一致	100%（ベースライン）
クリエイティブライティング	小さな差	ほぼ同一	同一	ベースライン
数学推論	約85%精度	約90%精度	約95%精度	約96%精度
要約	非常に近い	非常に近い	同一	ベースライン
翻訳	小さな品質低下	ほぼ同一	同一	ベースライン

ほとんどのユーザーにはQ4_K_Mが最適解です。難しい数学や複雑な推論では数パーセント失いますが、コーディング、ライティング、要約、一般的なQ&Aでは、違いはほとんど目立ちません。

ハードウェア別の選び方

あなたのハードウェア	推奨量子化	モデルサイズ
8GB VRAM GPU	Q4_K_MまたはIQ4_XS	12B
12GB VRAM GPU	Q5_K_MまたはQ6_K	12B
16GB VRAM GPU	Q8_0	12B
24GB VRAM GPU	Q8_0（12B）またはQ4_K_M（27B）	12Bまたは27B
16GB Mac	Q4_K_M	12B
32GB Mac	Q5_K_M（12B）またはQ4_K_M（27B）	12Bまたは27B
64GB以上 Mac	任意のサイズのQ8_0	27B