"我这台机器能跑吗?"——这是每个人问的第一个问题。答案取决于你想跑哪个 Gemma 4 模型,以及你手里有什么硬件。直接上数据,不废话。
完整硬件需求表
不同量化精度下各模型的内存需求:
| 模型 | 4-bit(Q4) | 8-bit(Q8) | 16-bit(FP16) | 最低内存/显存 |
|---|---|---|---|---|
| E2B(2B) | ~1.5GB | ~2.5GB | ~4GB | 4GB 内存 |
| E4B(4B) | ~3GB | ~5GB | ~8GB | 6GB 内存 |
| 26B MoE | ~8GB | ~18GB | ~28GB | 8GB 显存 |
| 31B Dense | ~20GB | ~34GB | ~62GB | 20GB 显存 |
"量化"是什么意思? 简单说就是压缩模型,用更低精度的数字来存储权重。4-bit 压缩最狠(最小、最快、精度略低),16-bit 是原始精度(最大、最准、最吃内存)。大多数人用 4-bit 就够了——质量差异肉眼几乎看不出来。
KV Cache:被忽略的内存杀手
大部分教程不提的一个坑:模型权重只是内存开销的一部分。Gemma 4 在处理长对话时会构建 KV Cache(键值缓存),用来存储之前 token 的注意力信息。
31B 模型在 262K 上下文长度下,光 KV Cache 就要吃掉 ~22GB 内存——这还是在模型权重之外的。所以就算你有 24GB 显存装下了模型,长对话跑着跑着也可能爆内存。
实操建议:
- 遇到 OOM(内存不足)错误,先减小上下文长度。不是每次都需要 262K 个 token。
- Ollama 里用
num_ctx限制上下文:ollama run gemma4:31b --num-ctx 4096 - 大部分任务 4K-8K 的上下文足够用了。
我的机器能跑哪些?
逐个看具体机型:
MacBook Air M2(8GB)
| 模型 | 能跑? | 备注 |
|---|---|---|
| E2B | 能 | 流畅,速度快 |
| E4B | 能 | 性能不错,最佳选择 |
| 26B | 不能 | 统一内存不够 |
| 31B | 不能 | 差太远了 |
结论: E4B 是你的最佳选择。8GB 的机器跑 E4B 表现出乎意料地好。
MacBook Pro M3/M4(16GB)
| 模型 | 能跑? | 备注 |
|---|---|---|
| E2B | 能 | 性能过剩 |
| E4B | 能 | 体验很好 |
| 26B | 能(4-bit) | 内存比较紧张,关掉其他应用 |
| 31B | 不能 | 内存还是不够 |
结论: 16GB 可以跑 26B 的 4-bit 量化版,这在笔记本上算很能打了——具体两者的取舍可以看 26B 和 31B 详细对比。只是别同时开 Chrome 挂 50 个标签页。
MacBook Pro M3/M4(36GB/48GB)
| 模型 | 能跑? | 备注 |
|---|---|---|
| E2B | 能 | 大材小用 |
| E4B | 能 | 快且流畅 |
| 26B | 能 | 跑 8-bit 也很舒服 |
| 31B | 能(4-bit,36GB) | 紧但能跑 |
结论: 跑大模型的甜蜜点。36GB 搞定所有模型到 31B 的 4-bit。48GB 就更从容了。
Mac Studio M2 Ultra(64GB+)
| 模型 | 能跑? | 备注 |
|---|---|---|
| 全部 | 能 | 无压力 |
结论: 所有 Gemma 4 模型随便跑,包括 31B 的 8-bit 版本。M2 Ultra 的统一内存架构处理这些负载毫无压力。
游戏 PC —— RTX 3060(12GB 显存)
| 模型 | 能跑? | 备注 |
|---|---|---|
| E2B | 能 | GPU 加速,非常快 |
| E4B | 能 | 推理速度快 |
| 26B | 能(4-bit) | 12GB 显存刚好装下 |
| 31B | 不能 | 需要 20GB+ 显存 |
结论: RTX 3060 以现在的价格来说,是性价比很高的 AI 卡。12GB 显存跑 26B 的 4-bit 版本没问题。
游戏 PC —— RTX 4090(24GB 显存)
| 模型 | 能跑? | 备注 |
|---|---|---|
| E2B | 能 | 飞快 |
| E4B | 能 | 飞快 |
| 26B | 能 | 8-bit 也轻松 |
| 31B | 能(4-bit) | 装下后还有余量给 KV Cache |
结论: 消费级 GPU 里跑 AI 的王者。Gemma 4 全系列都能跑。31B 的 4-bit 版装下还有空间给合理长度的上下文。
云 GPU —— A100(80GB 显存)
| 模型 | 能跑? | 备注 |
|---|---|---|
| 全部 | 能 | 全速运行,全精度 |
结论: 需要极致性能或全精度模型的话,租一块 A100。Google Cloud、AWS、Lambda Labs、RunPod 都有。
纯 CPU:能跑,但很慢
没有 GPU?Gemma 4 照样能跑,只是用 CPU 推理。期望值:
- E2B 纯 CPU: ~5-10 tokens/秒。完全可用。
- E4B 纯 CPU: ~2-5 tokens/秒。能用但需要耐心。
- 26B 纯 CPU: ~0.5-2 tokens/秒。痛苦地慢,但技术上可以。
- 31B 纯 CPU: 别试了。大部分机器不到 1 token/秒。
CPU 推理大约比 GPU 慢 2-10 倍,取决于 CPU 型号和模型大小。苹果芯片跑 CPU 推理比 Intel/AMD 好,因为统一内存架构和 Neural Engine 的加成。
量化格式怎么选
用 Ollama 的话它自动处理量化。但如果你从 Hugging Face 下载 GGUF 文件,选择参考:
| 格式 | 大小(相对 FP16) | 质量 | 速度 | 什么时候用 |
|---|---|---|---|---|
| Q4_K_M | ~25% | 95-97% | 最快 | 推荐默认选项。 最佳平衡。 |
| Q5_K_M | ~35% | 97-98% | 快 | 质量略好,体积仍然小 |
| Q6_K | ~50% | 98-99% | 中等 | 质量优先时选 |
| Q8_0 | ~65% | 99%+ | 较慢 | 近乎无损,需要更多内存 |
| FP16 | 100% | 100% | 最慢 | 显存多到用不完时选 |
我的推荐:Q4_K_M。 社区公认的甜蜜点。质量损失极小,性能和文件大小都是最优。如果显存有富余,Q5_K_M 稍微好一点点。
榨取更多性能的技巧
各平台的完整优化方案看速度优化指南。
关掉其他应用。 尤其是浏览器。Chrome 一个人就能吃 2-4GB 内存。跑 26B 以上的模型时,每 GB 都很珍贵。
减小上下文长度。 遇到 OOM 就限制上下文窗口。大部分对话用不到 262K 个 token。把 num_ctx 设成 4096 或 8192。
确认 GPU 加速开着。 Mac 上用 Metal,NVIDIA 用 CUDA。Ollama 自动处理,但用其他工具的话要检查后端设置。
监控内存使用。 Mac 用活动监视器,Linux 用 nvidia-smi 看 GPU 内存。注意 swap 使用情况——一旦用上 swap,性能断崖式下跌。
考虑分层卸载。 llama.cpp 等工具支持把一部分层放 GPU、一部分放 CPU。这样可以跑比你显存略大的模型,只是比全 GPU 推理慢。
买什么硬件?
如果你在考虑购入 AI 硬件,不同预算的建议:
| 预算 | 推荐 | 能跑 |
|---|---|---|
| ¥0 | 用现有笔记本 + E4B | E2B、E4B |
| ¥1,500-3,000 | 二手 RTX 3060 12GB | 最高 26B(4-bit) |
| ¥3,500-6,000 | RTX 4060 Ti 16GB | 最高 26B(8-bit) |
| ¥7,000-11,000 | RTX 4090 24GB | 最高 31B(4-bit) |
| ¥15,000-30,000 | Mac Studio M2 Pro/Max 32-64GB | 全系列从容运行 |
| ¥40,000+ | Mac Studio M2 Ultra 64GB+ | 所有模型无压力 |
| 按需付费 | 云 A100(约 ¥7-15/小时) | 全速全精度 |
性价比之王: 二手 RTX 3060 12GB。现在价格很低,能跑 26B 模型。大部分人这就够了。
Mac 首选: MacBook Pro 36GB 统一内存版。31B 的 4-bit 版能跑(紧一些),日常还是一台好用的笔记本。
不需要本地跑? 那就别折腾硬件了,直接用 Gemma 4 API。Google AI Studio 免费额度 + 零硬件要求。
快速判断流程
- 有 4GB 内存? → 能跑 E2B。聊胜于无。
- 有 8GB 内存? → 跑 E4B。真心不错。
- 有 8GB+ 显存的独显? → 跑 26B 的 4-bit 版。质量跳跃。
- 有 20GB+ 显存? → 跑 31B。顶级本地 AI。
- 以上都没有? → 用云 API。这不丢人。
不确定该选哪个模型?看看我们的模型对比指南。
下一步
- 准备安装了?跟着 Ollama 安装指南 走
- 选模型?看 Gemma 4 模型选择指南
- 遇到问题?查 故障排除指南
- 想跳过本地安装?试试 API 方案



