Gemma 4 GGUF：該選哪個量化？

GGUF 量化是你將 Gemma 4 從 24GB 的龐然大物縮小到能放進你硬體的方式。但有十幾種不同的量化層級可選，挑選對的很令人困惑。本指南穿透雜訊，明確告訴你該用哪種格式。

什麼是 GGUF？

GGUF（GGML Universal Format）是專為在消費級硬體上執行大型語言模型而設計的檔案格式。它以壓縮格式儲存模型權重，用少量品質換取大幅縮小的檔案大小和更快的推論速度。

關鍵概念是量化——將模型權重的精度從 16 位元浮點（FP16）降低到 8 位元、4 位元，甚至更低。精度越低 = 檔案越小 = 推論越快 = 準確度稍低。

量化層級比較

以下是 Gemma 4 12B 的完整比較：

量化	檔案大小	所需 VRAM	速度 (tok/s)*	品質損失	最適合
FP16	~24 GB	~26 GB	基準	無	研究、微調
Q8_0	~13 GB	~15 GB	1.2x 更快	可忽略	品質關鍵任務
Q6_K	~10 GB	~12 GB	1.4x 更快	非常小	品質與大小的平衡
Q5_K_M	~8.5 GB	~10 GB	1.6x 更快	小	較佳品質的日常使用
Q5_K_S	~8 GB	~10 GB	1.6x 更快	小	稍小的 Q5
Q4_K_M	~7 GB	~9 GB	1.8x 更快	中等	大多數使用者的最佳選擇
Q4_K_S	~6.5 GB	~8.5 GB	1.8x 更快	中等	緊張的 VRAM 預算
IQ4_XS	~6 GB	~8 GB	1.9x 更快	明顯	可用的最低品質
Q3_K_M	~5.5 GB	~7.5 GB	2.0x 更快	顯著	不推薦
Q2_K	~4.5 GB	~6.5 GB	2.1x 更快	嚴重	僅限實驗

速度相對於同一硬體上的 FP16。實際 tok/s 因 GPU 而異。

建議

Q4_K_M — 對大多數人的最佳平衡。對日常任務如程式設計、寫作和問答，品質出乎意料地接近 FP16。這是大多數 Ollama 模型的預設值。
Q5_K_M — 如果你有額外的 VRAM 並希望在複雜推理任務上有明顯更好的品質，選這個。
Q8_0 — 接近原始品質。只在你的硬體能處理時使用——對大多數任務來說，相對於 Q5 的品質提升很微小。
IQ4_XS — 仍可用的最小格式。適合測試或 VRAM 差 1-2 GB 的情況。

避免 Q3 和 Q2 — 品質下降太陡峭，對任何正經用途都沒用。

在哪裡下載 GGUF 檔案

Hugging Face 上的 Unsloth（推薦）

Unsloth 為所有 Gemma 4 模型提供高品質的 GGUF 轉換：

# 瀏覽可用檔案
# https://huggingface.co/unsloth/gemma-4-12b-it-GGUF

# 用 huggingface-cli 下載
pip install huggingface_hub
huggingface-cli download unsloth/gemma-4-12b-it-GGUF \
  gemma-4-12b-it-Q4_K_M.gguf \
  --local-dir ./models

# 或用 wget 下載
wget https://huggingface.co/unsloth/gemma-4-12b-it-GGUF/resolve/main/gemma-4-12b-it-Q4_K_M.gguf

可用的倉庫：

模型	Hugging Face 倉庫
Gemma 4 1B	unsloth/gemma-4-1b-it-GGUF
Gemma 4 4B	unsloth/gemma-4-4b-it-GGUF
Gemma 4 12B	unsloth/gemma-4-12b-it-GGUF
Gemma 4 27B	unsloth/gemma-4-27b-it-GGUF

執行 GGUF 檔案

使用 llama.cpp

執行 GGUF 檔案最直接的方式：

# clone 並建構 llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON  # 或 Mac 上用 DGGML_METAL=ON
cmake --build build

# 執行推論
./build/bin/llama-server \
  -m ./models/gemma-4-12b-it-Q4_K_M.gguf \
  -ngl 999 \
  -c 8192 \
  --host 0.0.0.0 \
  --port 8080

# 現在你有一個 OpenAI 相容的 API 在 http://localhost:8080

使用 Ollama

Ollama 底層使用 GGUF。你可以從 GGUF 檔案建立自訂模型：

# 方法 1：使用預建的 Ollama 模型（最簡單）
ollama run gemma4:12b

# 方法 2：匯入你自己的 GGUF 檔案
# 建立 Modelfile
cat > Modelfile << 'EOF'
FROM ./gemma-4-12b-it-Q4_K_M.gguf
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
TEMPLATE """{{ .System }}
{{ .Prompt }}"""
EOF

# 建立模型
ollama create my-gemma4 -f Modelfile
ollama run my-gemma4

使用 LM Studio

LM Studio 提供下載和執行 GGUF 檔案的圖形介面：

開啟 LM Studio
在模型瀏覽器中搜尋 "gemma 4"
選擇你想要的量化層級
點擊下載
前往 Chat 分頁並選擇你的模型
開始聊天

LM Studio 還公開一個與 OpenAI 格式相容的本機 API，所以你可以將它作為任何期望 OpenAI 風格端點的應用程式的即插即用後端。

品質 vs 速度：實際測試

以下是不同量化在 Gemma 4 12B 實際任務上的表現：

任務	Q4_K_M	Q5_K_M	Q8_0	FP16
程式碼生成	92% 匹配	95% 匹配	98% 匹配	100%（基準）
創意寫作	微小差異	近乎相同	相同	基準
數學推理	~85% 準確	~90% 準確	~95% 準確	~96% 準確
摘要	非常接近	非常接近	相同	基準
翻譯	品質微降	近乎相同	相同	基準

對大多數使用者，Q4_K_M 是最佳點。你在困難的數學和複雜推理上損失幾個百分點，但對程式設計、寫作、摘要和一般問答，差異幾乎察覺不到。

按硬體選擇

你的硬體	推薦量化	模型大小
8GB VRAM GPU	Q4_K_M 或 IQ4_XS	12B
12GB VRAM GPU	Q5_K_M 或 Q6_K	12B
16GB VRAM GPU	Q8_0	12B
24GB VRAM GPU	Q8_0 (12B) 或 Q4_K_M (27B)	12B 或 27B
16GB Mac	Q4_K_M	12B
32GB Mac	Q5_K_M (12B) 或 Q4_K_M (27B)	12B 或 27B
64GB+ Mac	任何大小的 Q8_0	27B