0% read

Gemma 4 E2B vs E4B:該選哪個小模型?

Apr 10, 2026

Gemma 4 的小模型有兩個選擇:E2B(20 億參數)和 E4B(40 億參數)。兩者都是為受限硬體設計的,但它們之間的差距遠比參數量的差異來得大。來看看怎麼比。

E2B 和 E4B 是什麼?

兩者都是針對裝置端推論最佳化的輕量 Dense 模型。沒有 MoE 路由,沒有專家——就是為了塞進有限記憶體而設計的精簡網路。

E2B 是 Gemma 4 家族中最小的模型。20 億參數,專為每一 MB 記憶體都很珍貴的場景打造——手機、Raspberry Pi、IoT 裝置和嵌入式系統。

E4B 把參數量翻倍到 40 億。依然小到能在筆電或不錯的手機上本機執行,但在推論、寫程式和多模態任務上的表現遠超預期。

Gemma 4 小模型:
┌──────────────────────────────────────┐
│  E2B(2B 參數)                       │
│  超精簡 · 手機 · 邊緣裝置             │
│  ~250 MB RAM (CoreML) · 11 tok/s     │
├──────────────────────────────────────┤
│  E4B(4B 參數)                       │
│  精簡 · 筆電 · 日常使用               │
│  ~1.5 GB RAM (Q4) · 35 tok/s         │
└──────────────────────────────────────┘

直接對比

指標E2B (2B)E4B (4B)
參數量2B4B
模型大小 (FP16)~4 GB~8 GB
模型大小 (Q4_K_M)~1.2 GB~2.5 GB
記憶體 (Q4_K_M)~1.5 GB~3 GB
記憶體 (CoreML, iPhone)~250 MB~800 MB
上下文視窗8K32K
多模態純文字文字 + 圖片

檔案大小和記憶體差異大約是 2 倍,考慮到參數量的差距這很合理。但真正的重點在上下文長度和多模態支援——E4B 的上下文是 4 倍,而且能處理圖片。

速度比較

同樣的硬體上 E2B 更快,但 E4B 對互動使用來說也夠快:

硬體E2B (tok/s)E4B (tok/s)E2B 快多少
iPhone 15 Pro (CoreML)~11~52.2x
iPhone 16 Pro (CoreML)~15~72.1x
Raspberry Pi 5 (8GB)~8~42x
M3 MacBook Air (Q4)~65~351.9x
RTX 3060 12GB (Q4)~120~701.7x

在 iPhone 上用 CoreML-LLM,E2B 的推論速度約 11 tokens/秒,記憶體佔用僅 250 MB,功耗約 2W。這在手機上做即時聊天完全夠用,而且不會耗光電池。

E4B 在手機上大約慢一半,但在筆電或桌機上你幾乎感覺不到差異。

品質比較

E4B 在這裡拉開了明顯差距:

基準測試E2B (2B)E4B (4B)贏家
MMLU52.161.8E4B (+9.7)
HumanEval38.452.6E4B (+14.2)
GSM8K45.262.1E4B (+16.9)
MATH18.328.7E4B (+10.4)
ARC-Challenge48.957.3E4B (+8.4)
平均40.652.5E4B (+11.9)

26B vs 31B 比較中只差 1-2 分不同,這裡的差距非常大——平均將近 12 分。E4B 明顯更聰明,尤其在數學和程式碼方面。

哪些地方會感受到差異

  • 簡單問答和聊天:基本對話兩者都能應付。E2B 偶爾在長回覆時會不太連貫。
  • 推論和數學:E4B 明顯更強。E2B 面對多步驟問題會卡住。
  • 程式碼生成:E4B 能寫出可用的程式碼片段。E2B 可以做自動補全,但完整函式實作有困難。
  • 多語言:E4B 在中文、日文、韓文和歐洲語言的表現好很多。E2B 基本上只能處理英文。
  • 圖片理解:只有 E4B 支援。如果你需要視覺功能,選擇已經決定了。

什麼時候選 E2B

當你在硬體極限邊緣運作時,E2B 是對的選擇:

  • 記憶體有限的手機 — 舊款 iPhone、平價 Android,只能擠出 250 MB 的情況
  • Raspberry Pi 和 SBC — 在 4GB RAM 的 Pi 5 上跑得順
  • IoT 和嵌入式 — 智慧家庭裝置、功耗預算極低的常駐助理
  • 離線關鍵字擷取和分類 — 只需要基本 NLP,不需要完整推論時
  • iPhone 上的 CoreML-LLM — 250 MB 記憶體、2W 功耗下跑出 11 tok/s,這對裝置端 AI 來說非常驚人
  • 大規模批次處理 — 需要處理數百萬筆資料、每次推論成本很重要時

如果你的需求是「在記憶體很少的裝置上回應簡單查詢」,E2B 就夠了。

什麼時候選 E4B

對大多數想要小型本機模型的人來說,E4B 是更好的選擇:

  • 日常使用的筆電 — 互動聊天夠快,做實際工作夠聰明
  • 較好的手機 — iPhone 14 Pro 以上、6GB+ RAM 的 Android 旗艦
  • 寫程式助手 — 在程式碼補全和生成上真的有用
  • 多模態任務 — 圖片描述、視覺問答、文件理解
  • 較長的對話 — 32K 上下文 vs E2B 的 8K,能處理更長的對話串
  • 多語言使用 — 如果你用英文以外的語言工作,E4B 好非常多
  • 邊緣伺服器 — 小到能放進迷你 PC,聰明到真的有用

想更深入了解在手機上執行這些模型,請看行動裝置部署指南

快速決策表

你的情況選擇
手機可用 RAM <1GBE2B
Raspberry Pi / 嵌入式E2B
常駐運行、超低功耗E2B
筆電或桌機E4B
需要圖片理解E4B
程式碼輔助E4B
多語言使用E4B
長對話(超過 8K tokens)E4B
簡單文字分類E2B
通用本機 AIE4B

E2B、E4B vs 更大的模型

這些小模型在完整 Gemma 4 產品線中的定位:

模型參數記憶體 (Q4)速度 (M3 Air)品質(平均)
E2B2B~1.5 GB~65 tok/s40.6
E4B4B~3 GB~35 tok/s52.5
12B12B~7 GB~20 tok/s67.8
26B MoE26B~15 GB~12 tok/s72.4

品質呈現清楚的階梯狀。每往上一階,記憶體大約翻倍、速度大約減半。完整比較請看該選哪個 Gemma 4 模型?

硬體需求

詳細的硬體建議請查看硬體指南。以下是小模型的快速版:

E2B 最低硬體需求

  • iPhone:iPhone 12 或更新(CoreML)
  • Android:4GB+ RAM,Snapdragon 8 Gen 1+
  • Raspberry Pi:4GB RAM 的 Pi 5
  • PC/Mac:近 5 年內的任何機器

E4B 最低硬體需求

  • iPhone:iPhone 14 Pro 或更新(CoreML)
  • Android:6GB+ RAM,Snapdragon 8 Gen 2+
  • Raspberry Pi:8GB RAM 的 Pi 5
  • PC/Mac:8GB RAM,任何近期 CPU/GPU

下一步

對大多數人來說,E4B 是最佳甜蜜點——只需要幾 GB 記憶體就能在任何地方執行,但又聰明到在寫程式、對話和多模態任務上真正實用。E2B 留給那些只有 250 MB 記憶體可用的極端受限環境。

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

Gemma 4 E2B vs E4B:該選哪個小模型? | 部落格