「我這台機器能跑嗎?」——這是每個人問的第一個問題。答案取決於你想跑哪個 Gemma 4 模型,以及你手上有什麼硬體。直接上數據,不廢話。
完整硬體需求表
不同量化精度下各模型的記憶體需求:
| 模型 | 4-bit(Q4) | 8-bit(Q8) | 16-bit(FP16) | 最低記憶體/顯存 |
|---|---|---|---|---|
| E2B(2B) | ~1.5GB | ~2.5GB | ~4GB | 4GB 記憶體 |
| E4B(4B) | ~3GB | ~5GB | ~8GB | 6GB 記憶體 |
| 26B MoE | ~8GB | ~18GB | ~28GB | 8GB 顯存 |
| 31B Dense | ~20GB | ~34GB | ~62GB | 20GB 顯存 |
「量化」是什麼意思? 簡單說就是壓縮模型,用更低精度的數字來儲存權重。4-bit 壓縮最狠(最小、最快、精度略低),16-bit 是原始精度(最大、最準、最吃記憶體)。大多數人用 4-bit 就夠了——品質差異肉眼幾乎看不出來。
KV Cache:被忽略的記憶體殺手
大部分教學不提的一個坑:模型權重只是記憶體開銷的一部分。Gemma 4 在處理長對話時會建立 KV Cache(鍵值快取),用來儲存之前 token 的注意力資訊。
31B 模型在 262K 上下文長度下,光 KV Cache 就要吃掉 ~22GB 記憶體——這還是在模型權重之外的。所以就算你有 24GB 顯存裝下了模型,長對話跑著跑著也可能爆記憶體。
實際操作建議:
- 遇到 OOM(記憶體不足)錯誤,先縮小上下文長度。不是每次都需要 262K 個 token。
- Ollama 裡用
num_ctx限制上下文:ollama run gemma4:31b --num-ctx 4096 - 大部分任務 4K-8K 的上下文足夠用了。
我的機器能跑哪些?
逐個看具體機型:
MacBook Air M2(8GB)
| 模型 | 能跑? | 備註 |
|---|---|---|
| E2B | 能 | 順暢,速度快 |
| E4B | 能 | 效能不錯,最佳選擇 |
| 26B | 不能 | 統一記憶體不夠 |
| 31B | 不能 | 差太遠了 |
結論: E4B 是你的最佳選擇。8GB 的機器跑 E4B 表現出乎意料地好。
MacBook Pro M3/M4(16GB)
| 模型 | 能跑? | 備註 |
|---|---|---|
| E2B | 能 | 效能過剩 |
| E4B | 能 | 體驗很好 |
| 26B | 能(4-bit) | 記憶體比較緊,關掉其他應用程式 |
| 31B | 不能 | 記憶體還是不夠 |
結論: 16GB 可以跑 26B 的 4-bit 量化版,這在筆電上算很能打了——具體兩者的取捨可以看 26B 和 31B 詳細比較。只是別同時開 Chrome 掛 50 個分頁。
MacBook Pro M3/M4(36GB/48GB)
| 模型 | 能跑? | 備註 |
|---|---|---|
| E2B | 能 | 大材小用 |
| E4B | 能 | 快且順暢 |
| 26B | 能 | 跑 8-bit 也很舒服 |
| 31B | 能(4-bit,36GB) | 緊但能跑 |
結論: 跑大模型的甜蜜點。36GB 搞定所有模型到 31B 的 4-bit。48GB 就更從容了。
Mac Studio M2 Ultra(64GB+)
| 模型 | 能跑? | 備註 |
|---|---|---|
| 全部 | 能 | 無壓力 |
結論: 所有 Gemma 4 模型隨便跑,包括 31B 的 8-bit 版本。M2 Ultra 的統一記憶體架構處理這些負載毫無壓力。
電競 PC —— RTX 3060(12GB 顯存)
| 模型 | 能跑? | 備註 |
|---|---|---|
| E2B | 能 | GPU 加速,非常快 |
| E4B | 能 | 推論速度快 |
| 26B | 能(4-bit) | 12GB 顯存剛好裝下 |
| 31B | 不能 | 需要 20GB+ 顯存 |
結論: RTX 3060 以現在的價格來說,是性價比很高的 AI 卡。12GB 顯存跑 26B 的 4-bit 版本沒問題。
電競 PC —— RTX 4090(24GB 顯存)
| 模型 | 能跑? | 備註 |
|---|---|---|
| E2B | 能 | 飛快 |
| E4B | 能 | 飛快 |
| 26B | 能 | 8-bit 也輕鬆 |
| 31B | 能(4-bit) | 裝下後還有餘裕給 KV Cache |
結論: 消費級 GPU 裡跑 AI 的王者。Gemma 4 全系列都能跑。31B 的 4-bit 版裝下還有空間給合理長度的上下文。
雲端 GPU —— A100(80GB 顯存)
| 模型 | 能跑? | 備註 |
|---|---|---|
| 全部 | 能 | 全速執行,全精度 |
結論: 需要極致效能或全精度模型的話,租一塊 A100。Google Cloud、AWS、Lambda Labs、RunPod 都有。
純 CPU:能跑,但很慢
沒有 GPU?Gemma 4 照樣能跑,只是用 CPU 推論。預期值:
- E2B 純 CPU: ~5-10 tokens/秒。完全可用。
- E4B 純 CPU: ~2-5 tokens/秒。能用但需要耐心。
- 26B 純 CPU: ~0.5-2 tokens/秒。痛苦地慢,但技術上可以。
- 31B 純 CPU: 別試了。大部分機器不到 1 token/秒。
CPU 推論大約比 GPU 慢 2-10 倍,取決於 CPU 型號和模型大小。Apple 晶片跑 CPU 推論比 Intel/AMD 好,因為統一記憶體架構和 Neural Engine 的加成。
量化格式怎麼選
用 Ollama 的話它自動處理量化。但如果你從 Hugging Face 下載 GGUF 檔案,選擇參考:
| 格式 | 大小(相對 FP16) | 品質 | 速度 | 什麼時候用 |
|---|---|---|---|---|
| Q4_K_M | ~25% | 95-97% | 最快 | 推薦預設選項。 最佳平衡。 |
| Q5_K_M | ~35% | 97-98% | 快 | 品質略好,體積仍然小 |
| Q6_K | ~50% | 98-99% | 中等 | 品質優先時選 |
| Q8_0 | ~65% | 99%+ | 較慢 | 近乎無損,需要更多記憶體 |
| FP16 | 100% | 100% | 最慢 | 顯存多到用不完時選 |
我的推薦:Q4_K_M。 社群公認的甜蜜點。品質損失極小,效能和檔案大小都是最優。如果顯存有餘裕,Q5_K_M 稍微好一點點。
榨取更多效能的技巧
各平台的完整最佳化方案看速度最佳化指南。
關掉其他應用程式。 尤其是瀏覽器。Chrome 一個人就能吃 2-4GB 記憶體。跑 26B 以上的模型時,每 GB 都很珍貴。
縮小上下文長度。 遇到 OOM 就限制上下文視窗。大部分對話用不到 262K 個 token。把 num_ctx 設成 4096 或 8192。
確認 GPU 加速開著。 Mac 上用 Metal,NVIDIA 用 CUDA。Ollama 自動處理,但用其他工具的話要檢查後端設定。
監控記憶體使用。 Mac 用活動監視器,Linux 用 nvidia-smi 看 GPU 記憶體。注意 swap 使用情況——一旦用上 swap,效能斷崖式下跌。
考慮分層卸載。 llama.cpp 等工具支援把一部分層放 GPU、一部分放 CPU。這樣可以跑比你顯存略大的模型,只是比全 GPU 推論慢。
買什麼硬體?
如果你在考慮購入 AI 硬體,不同預算的建議:
| 預算 | 推薦 | 能跑 |
|---|---|---|
| $0 | 用現有筆電 + E4B | E2B、E4B |
| $200-400 | 二手 RTX 3060 12GB | 最高 26B(4-bit) |
| $400-700 | RTX 4060 Ti 16GB | 最高 26B(8-bit) |
| $800-1,300 | RTX 4090 24GB | 最高 31B(4-bit) |
| $1,500-3,500 | Mac Studio M2 Pro/Max 32-64GB | 全系列從容執行 |
| $5,000+ | Mac Studio M2 Ultra 64GB+ | 所有模型無壓力 |
| 依用量付費 | 雲端 A100(約 $1-2/小時) | 全速全精度 |
性價比之王: 二手 RTX 3060 12GB。現在價格很低,能跑 26B 模型。大部分人這就夠了。
Mac 首選: MacBook Pro 36GB 統一記憶體版。31B 的 4-bit 版能跑(緊一些),日常還是一台好用的筆電。
不需要本機跑? 那就別折騰硬體了,直接用 Gemma 4 API。Google AI Studio 免費額度 + 零硬體需求。
快速判斷流程
- 有 4GB 記憶體? → 能跑 E2B。聊勝於無。
- 有 8GB 記憶體? → 跑 E4B。真心不錯。
- 有 8GB+ 顯存的獨立顯示卡? → 跑 26B 的 4-bit 版。品質躍升。
- 有 20GB+ 顯存? → 跑 31B。頂級本機 AI。
- 以上都沒有? → 用雲端 API。這不丟人。
不確定該選哪個模型?看看我們的模型比較指南。
下一步
- 準備安裝了?跟著 Ollama 安裝指南 走
- 選模型?看 Gemma 4 模型選擇指南
- 遇到問題?查 疑難排解指南
- 想跳過本機安裝?試試 API 方案
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


