Gemma 4 GGUF 量化版怎么选?Q4/Q5/Q8 对比

2026/04/07

GGUF 量化是把 24GB 的 Gemma 4 压缩成你的硬件能跑得动的大小。但十几种量化格式摆在面前,到底选哪个?这篇帮你搞清楚。

GGUF 是什么?

GGUF(GGML Universal Format)是专门为在消费级硬件上跑大语言模型设计的文件格式。它通过压缩模型权重,用少量的质量损失换取更小的文件和更快的推理速度。

核心概念是量化——把模型权重的精度从 16 位浮点(FP16)降到 8 位、4 位甚至更低。精度越低 = 文件越小 = 推理越快 = 质量略有下降。

各量化格式对比

以 Gemma 4 12B 为例:

量化格式文件大小显存需求速度*质量损失适合场景
FP16~24 GB~26 GB基准研究、微调
Q8_0~13 GB~15 GB快 1.2x极小对质量要求高的任务
Q6_K~10 GB~12 GB快 1.4x很小质量和大小平衡
Q5_K_M~8.5 GB~10 GB快 1.6x高质量日用
Q5_K_S~8 GB~10 GB快 1.6x稍小的 Q5
Q4_K_M~7 GB~9 GB快 1.8x中等大多数人的最佳选择
Q4_K_S~6.5 GB~8.5 GB快 1.8x中等显存紧张
IQ4_XS~6 GB~8 GB快 1.9x明显最小可用质量
Q3_K_M~5.5 GB~7.5 GB快 2.0x不推荐
Q2_K~4.5 GB~6.5 GB快 2.1x严重仅实验用

速度相对同硬件上的 FP16。实际 tok/s 取决于 GPU。

推荐方案

  • Q4_K_M —— 大部分人的最佳选择。在编码、写作、问答等日常任务上质量接近 FP16,也是 Ollama 默认用的格式。
  • Q5_K_M —— 显存富余的话选这个,复杂推理任务的质量明显更好。
  • Q8_0 —— 接近原始质量。硬件撑得住才用,相比 Q5 的提升在大部分任务上不明显。
  • IQ4_XS —— 还能用的最小格式。适合测试或者差 1-2 GB 显存的情况。

Q3 和 Q2 不推荐 —— 质量下降太厉害,干不了正事。

从哪下载 GGUF 文件

Unsloth(推荐)

Unsloth 在 Hugging Face 上提供高质量的 GGUF 转换:

# 浏览可用文件
# https://huggingface.co/unsloth/gemma-4-12b-it-GGUF

# 用 huggingface-cli 下载
pip install huggingface_hub
huggingface-cli download unsloth/gemma-4-12b-it-GGUF \
  gemma-4-12b-it-Q4_K_M.gguf \
  --local-dir ./models

# 或者用 wget
wget https://huggingface.co/unsloth/gemma-4-12b-it-GGUF/resolve/main/gemma-4-12b-it-Q4_K_M.gguf

各模型的仓库地址:

模型Hugging Face 仓库
Gemma 4 1Bunsloth/gemma-4-1b-it-GGUF
Gemma 4 4Bunsloth/gemma-4-4b-it-GGUF
Gemma 4 12Bunsloth/gemma-4-12b-it-GGUF
Gemma 4 27Bunsloth/gemma-4-27b-it-GGUF

国内用户可以通过 hf-mirror.com 加速下载,详见 Hugging Face 下载指南

怎么跑 GGUF 文件

用 llama.cpp

最直接的方式:

# 克隆并编译 llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON  # Mac 用 DGGML_METAL=ON
cmake --build build

# 启动推理服务
./build/bin/llama-server \
  -m ./models/gemma-4-12b-it-Q4_K_M.gguf \
  -ngl 999 \
  -c 8192 \
  --host 0.0.0.0 \
  --port 8080

# 现在你有一个 OpenAI 兼容的 API 在 http://localhost:8080

用 Ollama

Ollama 底层就是用的 GGUF。你可以导入自己的 GGUF 文件:

# 方法一:直接用 Ollama 预置模型(最简单)
ollama run gemma4:12b

# 方法二:导入自己的 GGUF 文件
# 创建 Modelfile
cat > Modelfile << 'EOF'
FROM ./gemma-4-12b-it-Q4_K_M.gguf
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
TEMPLATE """{{ .System }}
{{ .Prompt }}"""
EOF

# 创建模型
ollama create my-gemma4 -f Modelfile
ollama run my-gemma4

用 LM Studio

LM Studio 提供图形界面,下载和运行都很方便:

  1. 打开 LM Studio
  2. 在模型浏览器搜索 "gemma 4"
  3. 选择你要的量化格式
  4. 点下载
  5. 切到聊天标签选择模型
  6. 开始对话

LM Studio 同时提供 OpenAI 格式的本地 API,可以直接替代 OpenAI 接口。

质量 vs 速度:实测对比

Gemma 4 12B 不同量化在实际任务上的表现:

任务Q4_K_MQ5_K_MQ8_0FP16
代码生成92% 匹配95% 匹配98% 匹配100%(基准)
创意写作略有差异几乎一样一样基准
数学推理~85% 准确~90% 准确~95% 准确~96% 准确
文本摘要非常接近非常接近一样基准
翻译质量略降几乎一样一样基准

对大部分用户来说,Q4_K_M 是甜点。在难数学题和复杂推理上会丢几个百分点,但编码、写作、摘要、问答这些日常任务,差别基本感觉不到。

按硬件选量化

你的硬件推荐量化模型大小
8GB 显存 GPUQ4_K_M 或 IQ4_XS12B
12GB 显存 GPUQ5_K_M 或 Q6_K12B
16GB 显存 GPUQ8_012B
24GB 显存 GPUQ8_0 (12B) 或 Q4_K_M (27B)12B 或 27B
16GB MacQ4_K_M12B
32GB MacQ5_K_M (12B) 或 Q4_K_M (27B)12B 或 27B
64GB+ MacQ8_0 任意大小27B

下一步

总结:先从 Q4_K_M 开始。如果你的具体任务上觉得质量不够,升到 Q5_K_M。只有显存确实富余而且真的需要更高精度时才选更高的。

Gemma 4 AI

Gemma 4 AI

相关教程