GGUF 量化是你將 Gemma 4 從 24GB 的龐然大物縮小到能放進你硬體的方式。但有十幾種不同的量化層級可選,挑選對的很令人困惑。本指南穿透雜訊,明確告訴你該用哪種格式。
什麼是 GGUF?
GGUF(GGML Universal Format)是專為在消費級硬體上執行大型語言模型而設計的檔案格式。它以壓縮格式儲存模型權重,用少量品質換取大幅縮小的檔案大小和更快的推論速度。
關鍵概念是量化——將模型權重的精度從 16 位元浮點(FP16)降低到 8 位元、4 位元,甚至更低。精度越低 = 檔案越小 = 推論越快 = 準確度稍低。
量化層級比較
以下是 Gemma 4 12B 的完整比較:
| 量化 | 檔案大小 | 所需 VRAM | 速度 (tok/s)* | 品質損失 | 最適合 |
|---|---|---|---|---|---|
| FP16 | ~24 GB | ~26 GB | 基準 | 無 | 研究、微調 |
| Q8_0 | ~13 GB | ~15 GB | 1.2x 更快 | 可忽略 | 品質關鍵任務 |
| Q6_K | ~10 GB | ~12 GB | 1.4x 更快 | 非常小 | 品質與大小的平衡 |
| Q5_K_M | ~8.5 GB | ~10 GB | 1.6x 更快 | 小 | 較佳品質的日常使用 |
| Q5_K_S | ~8 GB | ~10 GB | 1.6x 更快 | 小 | 稍小的 Q5 |
| Q4_K_M | ~7 GB | ~9 GB | 1.8x 更快 | 中等 | 大多數使用者的最佳選擇 |
| Q4_K_S | ~6.5 GB | ~8.5 GB | 1.8x 更快 | 中等 | 緊張的 VRAM 預算 |
| IQ4_XS | ~6 GB | ~8 GB | 1.9x 更快 | 明顯 | 可用的最低品質 |
| Q3_K_M | ~5.5 GB | ~7.5 GB | 2.0x 更快 | 顯著 | 不推薦 |
| Q2_K | ~4.5 GB | ~6.5 GB | 2.1x 更快 | 嚴重 | 僅限實驗 |
速度相對於同一硬體上的 FP16。實際 tok/s 因 GPU 而異。
建議
- Q4_K_M — 對大多數人的最佳平衡。對日常任務如程式設計、寫作和問答,品質出乎意料地接近 FP16。這是大多數 Ollama 模型的預設值。
- Q5_K_M — 如果你有額外的 VRAM 並希望在複雜推理任務上有明顯更好的品質,選這個。
- Q8_0 — 接近原始品質。只在你的硬體能處理時使用——對大多數任務來說,相對於 Q5 的品質提升很微小。
- IQ4_XS — 仍可用的最小格式。適合測試或 VRAM 差 1-2 GB 的情況。
避免 Q3 和 Q2 — 品質下降太陡峭,對任何正經用途都沒用。
在哪裡下載 GGUF 檔案
Hugging Face 上的 Unsloth(推薦)
Unsloth 為所有 Gemma 4 模型提供高品質的 GGUF 轉換:
# 瀏覽可用檔案
# https://huggingface.co/unsloth/gemma-4-12b-it-GGUF
# 用 huggingface-cli 下載
pip install huggingface_hub
huggingface-cli download unsloth/gemma-4-12b-it-GGUF \
gemma-4-12b-it-Q4_K_M.gguf \
--local-dir ./models
# 或用 wget 下載
wget https://huggingface.co/unsloth/gemma-4-12b-it-GGUF/resolve/main/gemma-4-12b-it-Q4_K_M.gguf可用的倉庫:
| 模型 | Hugging Face 倉庫 |
|---|---|
| Gemma 4 1B | unsloth/gemma-4-1b-it-GGUF |
| Gemma 4 4B | unsloth/gemma-4-4b-it-GGUF |
| Gemma 4 12B | unsloth/gemma-4-12b-it-GGUF |
| Gemma 4 27B | unsloth/gemma-4-27b-it-GGUF |
執行 GGUF 檔案
使用 llama.cpp
執行 GGUF 檔案最直接的方式:
# clone 並建構 llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON # 或 Mac 上用 DGGML_METAL=ON
cmake --build build
# 執行推論
./build/bin/llama-server \
-m ./models/gemma-4-12b-it-Q4_K_M.gguf \
-ngl 999 \
-c 8192 \
--host 0.0.0.0 \
--port 8080
# 現在你有一個 OpenAI 相容的 API 在 http://localhost:8080使用 Ollama
Ollama 底層使用 GGUF。你可以從 GGUF 檔案建立自訂模型:
# 方法 1:使用預建的 Ollama 模型(最簡單)
ollama run gemma4:12b
# 方法 2:匯入你自己的 GGUF 檔案
# 建立 Modelfile
cat > Modelfile << 'EOF'
FROM ./gemma-4-12b-it-Q4_K_M.gguf
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
TEMPLATE """{{ .System }}
{{ .Prompt }}"""
EOF
# 建立模型
ollama create my-gemma4 -f Modelfile
ollama run my-gemma4使用 LM Studio
LM Studio 提供下載和執行 GGUF 檔案的圖形介面:
- 開啟 LM Studio
- 在模型瀏覽器中搜尋 "gemma 4"
- 選擇你想要的量化層級
- 點擊下載
- 前往 Chat 分頁並選擇你的模型
- 開始聊天
LM Studio 還公開一個與 OpenAI 格式相容的本機 API,所以你可以將它作為任何期望 OpenAI 風格端點的應用程式的即插即用後端。
品質 vs 速度:實際測試
以下是不同量化在 Gemma 4 12B 實際任務上的表現:
| 任務 | Q4_K_M | Q5_K_M | Q8_0 | FP16 |
|---|---|---|---|---|
| 程式碼生成 | 92% 匹配 | 95% 匹配 | 98% 匹配 | 100%(基準) |
| 創意寫作 | 微小差異 | 近乎相同 | 相同 | 基準 |
| 數學推理 | ~85% 準確 | ~90% 準確 | ~95% 準確 | ~96% 準確 |
| 摘要 | 非常接近 | 非常接近 | 相同 | 基準 |
| 翻譯 | 品質微降 | 近乎相同 | 相同 | 基準 |
對大多數使用者,Q4_K_M 是最佳點。你在困難的數學和複雜推理上損失幾個百分點,但對程式設計、寫作、摘要和一般問答,差異幾乎察覺不到。
按硬體選擇
| 你的硬體 | 推薦量化 | 模型大小 |
|---|---|---|
| 8GB VRAM GPU | Q4_K_M 或 IQ4_XS | 12B |
| 12GB VRAM GPU | Q5_K_M 或 Q6_K | 12B |
| 16GB VRAM GPU | Q8_0 | 12B |
| 24GB VRAM GPU | Q8_0 (12B) 或 Q4_K_M (27B) | 12B 或 27B |
| 16GB Mac | Q4_K_M | 12B |
| 32GB Mac | Q5_K_M (12B) 或 Q4_K_M (27B) | 12B 或 27B |
| 64GB+ Mac | 任何大小的 Q8_0 | 27B |
下一步
- 需要下載模型? 查看我們的下載指南 取得所有取得 Gemma 4 的方式
- 想了解硬體需求的更多細節? 查看硬體指南 按模型和量化計算 VRAM
- 從 Hugging Face 下載? 閱讀如何從 Hugging Face 下載 的詳細說明
底線:從 Q4_K_M 開始。如果你在具體任務上注意到品質問題,升到 Q5_K_M。只有在你有多餘的 VRAM 且真正需要額外精度時才考慮更高的。
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


