0% read

Gemma 4 GGUF:どの量子化を選ぶべき?

4月 7, 2026

GGUF量子化は、Gemma 4を24GBのモンスターから実際にあなたのハードウェアに収まる何かに縮小する方法です。しかし、選択肢が何十もある量子化レベルから適切なものを選ぶのは混乱します。このガイドではノイズをカットして、どのフォーマットを使うべきか正確にお伝えします。

GGUFとは?

GGUF(GGML Universal Format)は、コンシューマーハードウェアで大規模言語モデルを実行するために特別に設計されたファイル形式です。モデルの重みを圧縮形式で保存し、小さな品質のトレードオフで劇的に小さいファイルサイズと高速な推論を実現します。

キーコンセプトは量子化 — モデル重みの精度を16bit浮動小数点(FP16)から8bit、4bit、さらに低くに減らすこと。低精度 = 小さいファイル = 高速推論 = わずかに精度が落ちる。

量子化レベルの比較

Gemma 4 12Bの完全な比較:

量子化ファイルサイズ必要VRAM速度(tok/s)*品質損失最適
FP16約24 GB約26 GBベースラインなしリサーチ、ファインチューン
Q8_0約13 GB約15 GB1.2倍速い無視できる品質重要タスク
Q6_K約10 GB約12 GB1.4倍速い非常に小さい品質とサイズのバランス
Q5_K_M約8.5 GB約10 GB1.6倍速い小さいより良い品質の日常用
Q5_K_S約8 GB約10 GB1.6倍速い小さいQ5よりわずかに小さい
Q4_K_M約7 GB約9 GB1.8倍速い中程度ほとんどのユーザー最良の選択
Q4_K_S約6.5 GB約8.5 GB1.8倍速い中程度VRAM予算タイト
IQ4_XS約6 GB約8 GB1.9倍速い目立つ最小限の実用品質
Q3_K_M約5.5 GB約7.5 GB2.0倍速い大きい推奨しない
Q2_K約4.5 GB約6.5 GB2.1倍速い深刻実験のみ

同じハードウェアでのFP16に対する相対速度。実際のtok/sはGPUによって変わります。

推奨

  • Q4_K_M — ほとんどの人にとって最良のバランス。コーディング、ライティング、Q&Aなどの日常タスクでは、品質は驚くほどFP16に近いです。ほとんどのOllamaモデルのデフォルトです。
  • Q5_K_M — 追加のVRAMがあり、複雑な推論タスクで目に見えて良い品質が欲しい場合に選択。
  • Q8_0 — オリジナルに近い品質。ハードウェアが対応できる場合のみ使用 — Q5に対する品質改善はほとんどのタスクで微々たるものです。
  • IQ4_XS — 使用可能な最小のフォーマット。テストや、VRAMが1-2 GB足りない時に最適。

Q3とQ2は避けましょう — 品質低下が急すぎて、何か真剣なことには使えません。

GGUFファイルのダウンロード先

Hugging FaceのUnsloth(推奨)

Unslothはすべてのgemma 4モデル向けに高品質なGGUF変換を提供:

# 利用可能なファイルを閲覧
# https://huggingface.co/unsloth/gemma-4-12b-it-GGUF

# huggingface-cliでダウンロード
pip install huggingface_hub
huggingface-cli download unsloth/gemma-4-12b-it-GGUF \
  gemma-4-12b-it-Q4_K_M.gguf \
  --local-dir ./models

# またはwgetでダウンロード
wget https://huggingface.co/unsloth/gemma-4-12b-it-GGUF/resolve/main/gemma-4-12b-it-Q4_K_M.gguf

利用可能なリポジトリ:

モデルHugging Faceリポジトリ
Gemma 4 1Bunsloth/gemma-4-1b-it-GGUF
Gemma 4 4Bunsloth/gemma-4-4b-it-GGUF
Gemma 4 12Bunsloth/gemma-4-12b-it-GGUF
Gemma 4 27Bunsloth/gemma-4-27b-it-GGUF

GGUFファイルの実行

llama.cppで

GGUFファイルを実行する最も直接的な方法:

# llama.cppをクローンしてビルド
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON  # Macの場合はDGGML_METAL=ON
cmake --build build

# 推論を実行
./build/bin/llama-server \
  -m ./models/gemma-4-12b-it-Q4_K_M.gguf \
  -ngl 999 \
  -c 8192 \
  --host 0.0.0.0 \
  --port 8080

# これでhttp://localhost:8080にOpenAI互換APIができる

Ollamaで

Ollamaは内部でGGUFを使用。GGUFファイルからカスタムモデルを作成できます:

# 方法1:事前ビルドされたOllamaモデルを使用(最も簡単)
ollama run gemma4:12b

# 方法2:自分のGGUFファイルをインポート
# Modelfileを作成
cat > Modelfile << 'EOF'
FROM ./gemma-4-12b-it-Q4_K_M.gguf
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
TEMPLATE """{{ .System }}
{{ .Prompt }}"""
EOF

# モデルを作成
ollama create my-gemma4 -f Modelfile
ollama run my-gemma4

LM Studioで

LM StudioはGGUFファイルのダウンロードと実行のためのGUIを提供:

  1. LM Studioを開く
  2. モデルブラウザで「gemma 4」を検索
  3. 希望する量子化レベルを選択
  4. Downloadをクリック
  5. Chatタブに移動してモデルを選択
  6. チャットを開始

LM StudioはOpenAI形式互換のローカルAPIも公開しているので、OpenAIスタイルのエンドポイントを期待するアプリケーションのバックエンドとしてドロップインで使用できます。

品質 vs 速度:実世界テスト

実際のタスクでGemma 4 12Bの異なる量子化がどのように性能を発揮するか:

タスクQ4_K_MQ5_K_MQ8_0FP16
コード生成92%一致95%一致98%一致100%(ベースライン)
クリエイティブライティング小さな差ほぼ同一同一ベースライン
数学推論約85%精度約90%精度約95%精度約96%精度
要約非常に近い非常に近い同一ベースライン
翻訳小さな品質低下ほぼ同一同一ベースライン

ほとんどのユーザーにはQ4_K_Mが最適解です。難しい数学や複雑な推論では数パーセント失いますが、コーディング、ライティング、要約、一般的なQ&Aでは、違いはほとんど目立ちません。

ハードウェア別の選び方

あなたのハードウェア推奨量子化モデルサイズ
8GB VRAM GPUQ4_K_MまたはIQ4_XS12B
12GB VRAM GPUQ5_K_MまたはQ6_K12B
16GB VRAM GPUQ8_012B
24GB VRAM GPUQ8_0(12B)またはQ4_K_M(27B)12Bまたは27B
16GB MacQ4_K_M12B
32GB MacQ5_K_M(12B)またはQ4_K_M(27B)12Bまたは27B
64GB以上 Mac任意のサイズのQ8_027B

次のステップ

結論:Q4_K_Mから始めましょう。特定のタスクで品質問題に気付いたらQ5_K_Mに上げます。VRAMに余裕があり、本当に追加の精度が必要な場合のみ、それより高くしましょう。

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

Gemma 4 GGUF:どの量子化を選ぶべき? | ブログ