0% read

Gemma 4 GGUF:該選哪個量化?

Apr 7, 2026

GGUF 量化是你將 Gemma 4 從 24GB 的龐然大物縮小到能放進你硬體的方式。但有十幾種不同的量化層級可選,挑選對的很令人困惑。本指南穿透雜訊,明確告訴你該用哪種格式。

什麼是 GGUF?

GGUF(GGML Universal Format)是專為在消費級硬體上執行大型語言模型而設計的檔案格式。它以壓縮格式儲存模型權重,用少量品質換取大幅縮小的檔案大小和更快的推論速度。

關鍵概念是量化——將模型權重的精度從 16 位元浮點(FP16)降低到 8 位元、4 位元,甚至更低。精度越低 = 檔案越小 = 推論越快 = 準確度稍低。

量化層級比較

以下是 Gemma 4 12B 的完整比較:

量化檔案大小所需 VRAM速度 (tok/s)*品質損失最適合
FP16~24 GB~26 GB基準研究、微調
Q8_0~13 GB~15 GB1.2x 更快可忽略品質關鍵任務
Q6_K~10 GB~12 GB1.4x 更快非常小品質與大小的平衡
Q5_K_M~8.5 GB~10 GB1.6x 更快較佳品質的日常使用
Q5_K_S~8 GB~10 GB1.6x 更快稍小的 Q5
Q4_K_M~7 GB~9 GB1.8x 更快中等大多數使用者的最佳選擇
Q4_K_S~6.5 GB~8.5 GB1.8x 更快中等緊張的 VRAM 預算
IQ4_XS~6 GB~8 GB1.9x 更快明顯可用的最低品質
Q3_K_M~5.5 GB~7.5 GB2.0x 更快顯著不推薦
Q2_K~4.5 GB~6.5 GB2.1x 更快嚴重僅限實驗

速度相對於同一硬體上的 FP16。實際 tok/s 因 GPU 而異。

建議

  • Q4_K_M — 對大多數人的最佳平衡。對日常任務如程式設計、寫作和問答,品質出乎意料地接近 FP16。這是大多數 Ollama 模型的預設值。
  • Q5_K_M — 如果你有額外的 VRAM 並希望在複雜推理任務上有明顯更好的品質,選這個。
  • Q8_0 — 接近原始品質。只在你的硬體能處理時使用——對大多數任務來說,相對於 Q5 的品質提升很微小。
  • IQ4_XS — 仍可用的最小格式。適合測試或 VRAM 差 1-2 GB 的情況。

避免 Q3 和 Q2 — 品質下降太陡峭,對任何正經用途都沒用。

在哪裡下載 GGUF 檔案

Hugging Face 上的 Unsloth(推薦)

Unsloth 為所有 Gemma 4 模型提供高品質的 GGUF 轉換:

# 瀏覽可用檔案
# https://huggingface.co/unsloth/gemma-4-12b-it-GGUF

# 用 huggingface-cli 下載
pip install huggingface_hub
huggingface-cli download unsloth/gemma-4-12b-it-GGUF \
  gemma-4-12b-it-Q4_K_M.gguf \
  --local-dir ./models

# 或用 wget 下載
wget https://huggingface.co/unsloth/gemma-4-12b-it-GGUF/resolve/main/gemma-4-12b-it-Q4_K_M.gguf

可用的倉庫:

模型Hugging Face 倉庫
Gemma 4 1Bunsloth/gemma-4-1b-it-GGUF
Gemma 4 4Bunsloth/gemma-4-4b-it-GGUF
Gemma 4 12Bunsloth/gemma-4-12b-it-GGUF
Gemma 4 27Bunsloth/gemma-4-27b-it-GGUF

執行 GGUF 檔案

使用 llama.cpp

執行 GGUF 檔案最直接的方式:

# clone 並建構 llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON  # 或 Mac 上用 DGGML_METAL=ON
cmake --build build

# 執行推論
./build/bin/llama-server \
  -m ./models/gemma-4-12b-it-Q4_K_M.gguf \
  -ngl 999 \
  -c 8192 \
  --host 0.0.0.0 \
  --port 8080

# 現在你有一個 OpenAI 相容的 API 在 http://localhost:8080

使用 Ollama

Ollama 底層使用 GGUF。你可以從 GGUF 檔案建立自訂模型:

# 方法 1:使用預建的 Ollama 模型(最簡單)
ollama run gemma4:12b

# 方法 2:匯入你自己的 GGUF 檔案
# 建立 Modelfile
cat > Modelfile << 'EOF'
FROM ./gemma-4-12b-it-Q4_K_M.gguf
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
TEMPLATE """{{ .System }}
{{ .Prompt }}"""
EOF

# 建立模型
ollama create my-gemma4 -f Modelfile
ollama run my-gemma4

使用 LM Studio

LM Studio 提供下載和執行 GGUF 檔案的圖形介面:

  1. 開啟 LM Studio
  2. 在模型瀏覽器中搜尋 "gemma 4"
  3. 選擇你想要的量化層級
  4. 點擊下載
  5. 前往 Chat 分頁並選擇你的模型
  6. 開始聊天

LM Studio 還公開一個與 OpenAI 格式相容的本機 API,所以你可以將它作為任何期望 OpenAI 風格端點的應用程式的即插即用後端。

品質 vs 速度:實際測試

以下是不同量化在 Gemma 4 12B 實際任務上的表現:

任務Q4_K_MQ5_K_MQ8_0FP16
程式碼生成92% 匹配95% 匹配98% 匹配100%(基準)
創意寫作微小差異近乎相同相同基準
數學推理~85% 準確~90% 準確~95% 準確~96% 準確
摘要非常接近非常接近相同基準
翻譯品質微降近乎相同相同基準

對大多數使用者,Q4_K_M 是最佳點。你在困難的數學和複雜推理上損失幾個百分點,但對程式設計、寫作、摘要和一般問答,差異幾乎察覺不到。

按硬體選擇

你的硬體推薦量化模型大小
8GB VRAM GPUQ4_K_M 或 IQ4_XS12B
12GB VRAM GPUQ5_K_M 或 Q6_K12B
16GB VRAM GPUQ8_012B
24GB VRAM GPUQ8_0 (12B) 或 Q4_K_M (27B)12B 或 27B
16GB MacQ4_K_M12B
32GB MacQ5_K_M (12B) 或 Q4_K_M (27B)12B 或 27B
64GB+ Mac任何大小的 Q8_027B

下一步

底線:從 Q4_K_M 開始。如果你在具體任務上注意到品質問題,升到 Q5_K_M。只有在你有多餘的 VRAM 且真正需要額外精度時才考慮更高的。

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

Gemma 4 GGUF:該選哪個量化? | 部落格