Gemma 4 GGUF 量化版怎么选？Q4/Q5/Q8 对比

GGUF 量化是把 24GB 的 Gemma 4 压缩成你的硬件能跑得动的大小。但十几种量化格式摆在面前，到底选哪个？这篇帮你搞清楚。

GGUF 是什么？

GGUF（GGML Universal Format）是专门为在消费级硬件上跑大语言模型设计的文件格式。它通过压缩模型权重，用少量的质量损失换取更小的文件和更快的推理速度。

核心概念是量化——把模型权重的精度从 16 位浮点（FP16）降到 8 位、4 位甚至更低。精度越低 = 文件越小 = 推理越快 = 质量略有下降。

各量化格式对比

以 Gemma 4 12B 为例：

量化格式	文件大小	显存需求	速度*	质量损失	适合场景
FP16	~24 GB	~26 GB	基准	无	研究、微调
Q8_0	~13 GB	~15 GB	快 1.2x	极小	对质量要求高的任务
Q6_K	~10 GB	~12 GB	快 1.4x	很小	质量和大小平衡
Q5_K_M	~8.5 GB	~10 GB	快 1.6x	小	高质量日用
Q5_K_S	~8 GB	~10 GB	快 1.6x	小	稍小的 Q5
Q4_K_M	~7 GB	~9 GB	快 1.8x	中等	大多数人的最佳选择
Q4_K_S	~6.5 GB	~8.5 GB	快 1.8x	中等	显存紧张
IQ4_XS	~6 GB	~8 GB	快 1.9x	明显	最小可用质量
Q3_K_M	~5.5 GB	~7.5 GB	快 2.0x	大	不推荐
Q2_K	~4.5 GB	~6.5 GB	快 2.1x	严重	仅实验用

速度相对同硬件上的 FP16。实际 tok/s 取决于 GPU。

从哪下载 GGUF 文件

Unsloth（推荐）

Unsloth 在 Hugging Face 上提供高质量的 GGUF 转换：

# 浏览可用文件
# https://huggingface.co/unsloth/gemma-4-12b-it-GGUF

# 用 huggingface-cli 下载
pip install huggingface_hub
huggingface-cli download unsloth/gemma-4-12b-it-GGUF \
  gemma-4-12b-it-Q4_K_M.gguf \
  --local-dir ./models

# 或者用 wget
wget https://huggingface.co/unsloth/gemma-4-12b-it-GGUF/resolve/main/gemma-4-12b-it-Q4_K_M.gguf

各模型的仓库地址：

模型	Hugging Face 仓库
Gemma 4 1B	unsloth/gemma-4-1b-it-GGUF
Gemma 4 4B	unsloth/gemma-4-4b-it-GGUF
Gemma 4 12B	unsloth/gemma-4-12b-it-GGUF
Gemma 4 27B	unsloth/gemma-4-27b-it-GGUF

国内用户可以通过 hf-mirror.com 加速下载，详见 Hugging Face 下载指南。

怎么跑 GGUF 文件

用 llama.cpp

最直接的方式：

# 克隆并编译 llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON  # Mac 用 DGGML_METAL=ON
cmake --build build

# 启动推理服务
./build/bin/llama-server \
  -m ./models/gemma-4-12b-it-Q4_K_M.gguf \
  -ngl 999 \
  -c 8192 \
  --host 0.0.0.0 \
  --port 8080

# 现在你有一个 OpenAI 兼容的 API 在 http://localhost:8080

用 Ollama

Ollama 底层就是用的 GGUF。你可以导入自己的 GGUF 文件：

# 方法一：直接用 Ollama 预置模型（最简单）
ollama run gemma4:12b

# 方法二：导入自己的 GGUF 文件
# 创建 Modelfile
cat > Modelfile << 'EOF'
FROM ./gemma-4-12b-it-Q4_K_M.gguf
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
TEMPLATE """{{ .System }}
{{ .Prompt }}"""
EOF

# 创建模型
ollama create my-gemma4 -f Modelfile
ollama run my-gemma4

用 LM Studio

LM Studio 提供图形界面，下载和运行都很方便：

打开 LM Studio
在模型浏览器搜索 "gemma 4"
选择你要的量化格式
点下载
切到聊天标签选择模型
开始对话

LM Studio 同时提供 OpenAI 格式的本地 API，可以直接替代 OpenAI 接口。

质量 vs 速度：实测对比

Gemma 4 12B 不同量化在实际任务上的表现：

任务	Q4_K_M	Q5_K_M	Q8_0	FP16
代码生成	92% 匹配	95% 匹配	98% 匹配	100%（基准）
创意写作	略有差异	几乎一样	一样	基准
数学推理	~85% 准确	~90% 准确	~95% 准确	~96% 准确
文本摘要	非常接近	非常接近	一样	基准
翻译	质量略降	几乎一样	一样	基准

对大部分用户来说，Q4_K_M 是甜点。在难数学题和复杂推理上会丢几个百分点，但编码、写作、摘要、问答这些日常任务，差别基本感觉不到。

按硬件选量化

你的硬件	推荐量化	模型大小
8GB 显存 GPU	Q4_K_M 或 IQ4_XS	12B
12GB 显存 GPU	Q5_K_M 或 Q6_K	12B
16GB 显存 GPU	Q8_0	12B
24GB 显存 GPU	Q8_0 (12B) 或 Q4_K_M (27B)	12B 或 27B
16GB Mac	Q4_K_M	12B
32GB Mac	Q5_K_M (12B) 或 Q4_K_M (27B)	12B 或 27B
64GB+ Mac	Q8_0 任意大小	27B