GGUF 量化是把 24GB 的 Gemma 4 压缩成你的硬件能跑得动的大小。但十几种量化格式摆在面前,到底选哪个?这篇帮你搞清楚。
GGUF 是什么?
GGUF(GGML Universal Format)是专门为在消费级硬件上跑大语言模型设计的文件格式。它通过压缩模型权重,用少量的质量损失换取更小的文件和更快的推理速度。
核心概念是量化——把模型权重的精度从 16 位浮点(FP16)降到 8 位、4 位甚至更低。精度越低 = 文件越小 = 推理越快 = 质量略有下降。
各量化格式对比
以 Gemma 4 12B 为例:
| 量化格式 | 文件大小 | 显存需求 | 速度* | 质量损失 | 适合场景 |
|---|---|---|---|---|---|
| FP16 | ~24 GB | ~26 GB | 基准 | 无 | 研究、微调 |
| Q8_0 | ~13 GB | ~15 GB | 快 1.2x | 极小 | 对质量要求高的任务 |
| Q6_K | ~10 GB | ~12 GB | 快 1.4x | 很小 | 质量和大小平衡 |
| Q5_K_M | ~8.5 GB | ~10 GB | 快 1.6x | 小 | 高质量日用 |
| Q5_K_S | ~8 GB | ~10 GB | 快 1.6x | 小 | 稍小的 Q5 |
| Q4_K_M | ~7 GB | ~9 GB | 快 1.8x | 中等 | 大多数人的最佳选择 |
| Q4_K_S | ~6.5 GB | ~8.5 GB | 快 1.8x | 中等 | 显存紧张 |
| IQ4_XS | ~6 GB | ~8 GB | 快 1.9x | 明显 | 最小可用质量 |
| Q3_K_M | ~5.5 GB | ~7.5 GB | 快 2.0x | 大 | 不推荐 |
| Q2_K | ~4.5 GB | ~6.5 GB | 快 2.1x | 严重 | 仅实验用 |
速度相对同硬件上的 FP16。实际 tok/s 取决于 GPU。
推荐方案
- Q4_K_M —— 大部分人的最佳选择。在编码、写作、问答等日常任务上质量接近 FP16,也是 Ollama 默认用的格式。
- Q5_K_M —— 显存富余的话选这个,复杂推理任务的质量明显更好。
- Q8_0 —— 接近原始质量。硬件撑得住才用,相比 Q5 的提升在大部分任务上不明显。
- IQ4_XS —— 还能用的最小格式。适合测试或者差 1-2 GB 显存的情况。
Q3 和 Q2 不推荐 —— 质量下降太厉害,干不了正事。
从哪下载 GGUF 文件
Unsloth(推荐)
Unsloth 在 Hugging Face 上提供高质量的 GGUF 转换:
# 浏览可用文件
# https://huggingface.co/unsloth/gemma-4-12b-it-GGUF
# 用 huggingface-cli 下载
pip install huggingface_hub
huggingface-cli download unsloth/gemma-4-12b-it-GGUF \
gemma-4-12b-it-Q4_K_M.gguf \
--local-dir ./models
# 或者用 wget
wget https://huggingface.co/unsloth/gemma-4-12b-it-GGUF/resolve/main/gemma-4-12b-it-Q4_K_M.gguf各模型的仓库地址:
| 模型 | Hugging Face 仓库 |
|---|---|
| Gemma 4 1B | unsloth/gemma-4-1b-it-GGUF |
| Gemma 4 4B | unsloth/gemma-4-4b-it-GGUF |
| Gemma 4 12B | unsloth/gemma-4-12b-it-GGUF |
| Gemma 4 27B | unsloth/gemma-4-27b-it-GGUF |
国内用户可以通过 hf-mirror.com 加速下载,详见 Hugging Face 下载指南。
怎么跑 GGUF 文件
用 llama.cpp
最直接的方式:
# 克隆并编译 llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON # Mac 用 DGGML_METAL=ON
cmake --build build
# 启动推理服务
./build/bin/llama-server \
-m ./models/gemma-4-12b-it-Q4_K_M.gguf \
-ngl 999 \
-c 8192 \
--host 0.0.0.0 \
--port 8080
# 现在你有一个 OpenAI 兼容的 API 在 http://localhost:8080用 Ollama
Ollama 底层就是用的 GGUF。你可以导入自己的 GGUF 文件:
# 方法一:直接用 Ollama 预置模型(最简单)
ollama run gemma4:12b
# 方法二:导入自己的 GGUF 文件
# 创建 Modelfile
cat > Modelfile << 'EOF'
FROM ./gemma-4-12b-it-Q4_K_M.gguf
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
TEMPLATE """{{ .System }}
{{ .Prompt }}"""
EOF
# 创建模型
ollama create my-gemma4 -f Modelfile
ollama run my-gemma4用 LM Studio
LM Studio 提供图形界面,下载和运行都很方便:
- 打开 LM Studio
- 在模型浏览器搜索 "gemma 4"
- 选择你要的量化格式
- 点下载
- 切到聊天标签选择模型
- 开始对话
LM Studio 同时提供 OpenAI 格式的本地 API,可以直接替代 OpenAI 接口。
质量 vs 速度:实测对比
Gemma 4 12B 不同量化在实际任务上的表现:
| 任务 | Q4_K_M | Q5_K_M | Q8_0 | FP16 |
|---|---|---|---|---|
| 代码生成 | 92% 匹配 | 95% 匹配 | 98% 匹配 | 100%(基准) |
| 创意写作 | 略有差异 | 几乎一样 | 一样 | 基准 |
| 数学推理 | ~85% 准确 | ~90% 准确 | ~95% 准确 | ~96% 准确 |
| 文本摘要 | 非常接近 | 非常接近 | 一样 | 基准 |
| 翻译 | 质量略降 | 几乎一样 | 一样 | 基准 |
对大部分用户来说,Q4_K_M 是甜点。在难数学题和复杂推理上会丢几个百分点,但编码、写作、摘要、问答这些日常任务,差别基本感觉不到。
按硬件选量化
| 你的硬件 | 推荐量化 | 模型大小 |
|---|---|---|
| 8GB 显存 GPU | Q4_K_M 或 IQ4_XS | 12B |
| 12GB 显存 GPU | Q5_K_M 或 Q6_K | 12B |
| 16GB 显存 GPU | Q8_0 | 12B |
| 24GB 显存 GPU | Q8_0 (12B) 或 Q4_K_M (27B) | 12B 或 27B |
| 16GB Mac | Q4_K_M | 12B |
| 32GB Mac | Q5_K_M (12B) 或 Q4_K_M (27B) | 12B 或 27B |
| 64GB+ Mac | Q8_0 任意大小 | 27B |
下一步
- 需要下载模型? 看 下载指南 了解所有获取 Gemma 4 的方式
- 想了解硬件要求? 看 硬件指南 按模型和量化计算显存需求
- 从 Hugging Face 下载? 看 Hugging Face 下载教程 了解详细步骤
总结:先从 Q4_K_M 开始。如果你的具体任务上觉得质量不够,升到 Q5_K_M。只有显存确实富余而且真的需要更高精度时才选更高的。



