Gemma 4 的小模型有兩個選擇:E2B(20 億參數)和 E4B(40 億參數)。兩者都是為受限硬體設計的,但它們之間的差距遠比參數量的差異來得大。來看看怎麼比。
E2B 和 E4B 是什麼?
兩者都是針對裝置端推論最佳化的輕量 Dense 模型。沒有 MoE 路由,沒有專家——就是為了塞進有限記憶體而設計的精簡網路。
E2B 是 Gemma 4 家族中最小的模型。20 億參數,專為每一 MB 記憶體都很珍貴的場景打造——手機、Raspberry Pi、IoT 裝置和嵌入式系統。
E4B 把參數量翻倍到 40 億。依然小到能在筆電或不錯的手機上本機執行,但在推論、寫程式和多模態任務上的表現遠超預期。
Gemma 4 小模型:
┌──────────────────────────────────────┐
│ E2B(2B 參數) │
│ 超精簡 · 手機 · 邊緣裝置 │
│ ~250 MB RAM (CoreML) · 11 tok/s │
├──────────────────────────────────────┤
│ E4B(4B 參數) │
│ 精簡 · 筆電 · 日常使用 │
│ ~1.5 GB RAM (Q4) · 35 tok/s │
└──────────────────────────────────────┘直接對比
| 指標 | E2B (2B) | E4B (4B) |
|---|---|---|
| 參數量 | 2B | 4B |
| 模型大小 (FP16) | ~4 GB | ~8 GB |
| 模型大小 (Q4_K_M) | ~1.2 GB | ~2.5 GB |
| 記憶體 (Q4_K_M) | ~1.5 GB | ~3 GB |
| 記憶體 (CoreML, iPhone) | ~250 MB | ~800 MB |
| 上下文視窗 | 8K | 32K |
| 多模態 | 純文字 | 文字 + 圖片 |
檔案大小和記憶體差異大約是 2 倍,考慮到參數量的差距這很合理。但真正的重點在上下文長度和多模態支援——E4B 的上下文是 4 倍,而且能處理圖片。
速度比較
同樣的硬體上 E2B 更快,但 E4B 對互動使用來說也夠快:
| 硬體 | E2B (tok/s) | E4B (tok/s) | E2B 快多少 |
|---|---|---|---|
| iPhone 15 Pro (CoreML) | ~11 | ~5 | 2.2x |
| iPhone 16 Pro (CoreML) | ~15 | ~7 | 2.1x |
| Raspberry Pi 5 (8GB) | ~8 | ~4 | 2x |
| M3 MacBook Air (Q4) | ~65 | ~35 | 1.9x |
| RTX 3060 12GB (Q4) | ~120 | ~70 | 1.7x |
在 iPhone 上用 CoreML-LLM,E2B 的推論速度約 11 tokens/秒,記憶體佔用僅 250 MB,功耗約 2W。這在手機上做即時聊天完全夠用,而且不會耗光電池。
E4B 在手機上大約慢一半,但在筆電或桌機上你幾乎感覺不到差異。
品質比較
E4B 在這裡拉開了明顯差距:
| 基準測試 | E2B (2B) | E4B (4B) | 贏家 |
|---|---|---|---|
| MMLU | 52.1 | 61.8 | E4B (+9.7) |
| HumanEval | 38.4 | 52.6 | E4B (+14.2) |
| GSM8K | 45.2 | 62.1 | E4B (+16.9) |
| MATH | 18.3 | 28.7 | E4B (+10.4) |
| ARC-Challenge | 48.9 | 57.3 | E4B (+8.4) |
| 平均 | 40.6 | 52.5 | E4B (+11.9) |
跟 26B vs 31B 比較中只差 1-2 分不同,這裡的差距非常大——平均將近 12 分。E4B 明顯更聰明,尤其在數學和程式碼方面。
哪些地方會感受到差異
- 簡單問答和聊天:基本對話兩者都能應付。E2B 偶爾在長回覆時會不太連貫。
- 推論和數學:E4B 明顯更強。E2B 面對多步驟問題會卡住。
- 程式碼生成:E4B 能寫出可用的程式碼片段。E2B 可以做自動補全,但完整函式實作有困難。
- 多語言:E4B 在中文、日文、韓文和歐洲語言的表現好很多。E2B 基本上只能處理英文。
- 圖片理解:只有 E4B 支援。如果你需要視覺功能,選擇已經決定了。
什麼時候選 E2B
當你在硬體極限邊緣運作時,E2B 是對的選擇:
- 記憶體有限的手機 — 舊款 iPhone、平價 Android,只能擠出 250 MB 的情況
- Raspberry Pi 和 SBC — 在 4GB RAM 的 Pi 5 上跑得順
- IoT 和嵌入式 — 智慧家庭裝置、功耗預算極低的常駐助理
- 離線關鍵字擷取和分類 — 只需要基本 NLP,不需要完整推論時
- iPhone 上的 CoreML-LLM — 250 MB 記憶體、2W 功耗下跑出 11 tok/s,這對裝置端 AI 來說非常驚人
- 大規模批次處理 — 需要處理數百萬筆資料、每次推論成本很重要時
如果你的需求是「在記憶體很少的裝置上回應簡單查詢」,E2B 就夠了。
什麼時候選 E4B
對大多數想要小型本機模型的人來說,E4B 是更好的選擇:
- 日常使用的筆電 — 互動聊天夠快,做實際工作夠聰明
- 較好的手機 — iPhone 14 Pro 以上、6GB+ RAM 的 Android 旗艦
- 寫程式助手 — 在程式碼補全和生成上真的有用
- 多模態任務 — 圖片描述、視覺問答、文件理解
- 較長的對話 — 32K 上下文 vs E2B 的 8K,能處理更長的對話串
- 多語言使用 — 如果你用英文以外的語言工作,E4B 好非常多
- 邊緣伺服器 — 小到能放進迷你 PC,聰明到真的有用
想更深入了解在手機上執行這些模型,請看行動裝置部署指南。
快速決策表
| 你的情況 | 選擇 |
|---|---|
| 手機可用 RAM <1GB | E2B |
| Raspberry Pi / 嵌入式 | E2B |
| 常駐運行、超低功耗 | E2B |
| 筆電或桌機 | E4B |
| 需要圖片理解 | E4B |
| 程式碼輔助 | E4B |
| 多語言使用 | E4B |
| 長對話(超過 8K tokens) | E4B |
| 簡單文字分類 | E2B |
| 通用本機 AI | E4B |
E2B、E4B vs 更大的模型
這些小模型在完整 Gemma 4 產品線中的定位:
| 模型 | 參數 | 記憶體 (Q4) | 速度 (M3 Air) | 品質(平均) |
|---|---|---|---|---|
| E2B | 2B | ~1.5 GB | ~65 tok/s | 40.6 |
| E4B | 4B | ~3 GB | ~35 tok/s | 52.5 |
| 12B | 12B | ~7 GB | ~20 tok/s | 67.8 |
| 26B MoE | 26B | ~15 GB | ~12 tok/s | 72.4 |
品質呈現清楚的階梯狀。每往上一階,記憶體大約翻倍、速度大約減半。完整比較請看該選哪個 Gemma 4 模型?
硬體需求
詳細的硬體建議請查看硬體指南。以下是小模型的快速版:
E2B 最低硬體需求
- iPhone:iPhone 12 或更新(CoreML)
- Android:4GB+ RAM,Snapdragon 8 Gen 1+
- Raspberry Pi:4GB RAM 的 Pi 5
- PC/Mac:近 5 年內的任何機器
E4B 最低硬體需求
- iPhone:iPhone 14 Pro 或更新(CoreML)
- Android:6GB+ RAM,Snapdragon 8 Gen 2+
- Raspberry Pi:8GB RAM 的 Pi 5
- PC/Mac:8GB RAM,任何近期 CPU/GPU
下一步
- 想在手機上跑? 閱讀行動裝置部署指南了解 CoreML 和 Android 設定
- 需要在全系列中選擇? 看看該選哪個 Gemma 4 模型?
- 挑選硬體? 查看硬體指南的 GPU/CPU 建議
對大多數人來說,E4B 是最佳甜蜜點——只需要幾 GB 記憶體就能在任何地方執行,但又聰明到在寫程式、對話和多模態任務上真正實用。E2B 留給那些只有 250 MB 記憶體可用的極端受限環境。
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


