Gemma 4 E2B vs E4B：該選哪個小模型？

Gemma 4 的小模型有兩個選擇：E2B（20 億參數）和 E4B（40 億參數）。兩者都是為受限硬體設計的，但它們之間的差距遠比參數量的差異來得大。來看看怎麼比。

E2B 和 E4B 是什麼？

兩者都是針對裝置端推論最佳化的輕量 Dense 模型。沒有 MoE 路由，沒有專家——就是為了塞進有限記憶體而設計的精簡網路。

E2B 是 Gemma 4 家族中最小的模型。20 億參數，專為每一 MB 記憶體都很珍貴的場景打造——手機、Raspberry Pi、IoT 裝置和嵌入式系統。

E4B 把參數量翻倍到 40 億。依然小到能在筆電或不錯的手機上本機執行，但在推論、寫程式和多模態任務上的表現遠超預期。

Gemma 4 小模型：
┌──────────────────────────────────────┐
│  E2B（2B 參數）                       │
│  超精簡 · 手機 · 邊緣裝置             │
│  ~250 MB RAM (CoreML) · 11 tok/s     │
├──────────────────────────────────────┤
│  E4B（4B 參數）                       │
│  精簡 · 筆電 · 日常使用               │
│  ~1.5 GB RAM (Q4) · 35 tok/s         │
└──────────────────────────────────────┘

直接對比

指標	E2B (2B)	E4B (4B)
參數量	2B	4B
模型大小 (FP16)	~4 GB	~8 GB
模型大小 (Q4_K_M)	~1.2 GB	~2.5 GB
記憶體 (Q4_K_M)	~1.5 GB	~3 GB
記憶體 (CoreML, iPhone)	~250 MB	~800 MB
上下文視窗	8K	32K
多模態	純文字	文字 + 圖片

檔案大小和記憶體差異大約是 2 倍，考慮到參數量的差距這很合理。但真正的重點在上下文長度和多模態支援——E4B 的上下文是 4 倍，而且能處理圖片。

速度比較

同樣的硬體上 E2B 更快，但 E4B 對互動使用來說也夠快：

硬體	E2B (tok/s)	E4B (tok/s)	E2B 快多少
iPhone 15 Pro (CoreML)	~11	~5	2.2x
iPhone 16 Pro (CoreML)	~15	~7	2.1x
Raspberry Pi 5 (8GB)	~8	~4	2x
M3 MacBook Air (Q4)	~65	~35	1.9x
RTX 3060 12GB (Q4)	~120	~70	1.7x

在 iPhone 上用 CoreML-LLM，E2B 的推論速度約 11 tokens/秒，記憶體佔用僅 250 MB，功耗約 2W。這在手機上做即時聊天完全夠用，而且不會耗光電池。

E4B 在手機上大約慢一半，但在筆電或桌機上你幾乎感覺不到差異。

品質比較

E4B 在這裡拉開了明顯差距：

基準測試	E2B (2B)	E4B (4B)	贏家
MMLU	52.1	61.8	E4B (+9.7)
HumanEval	38.4	52.6	E4B (+14.2)
GSM8K	45.2	62.1	E4B (+16.9)
MATH	18.3	28.7	E4B (+10.4)
ARC-Challenge	48.9	57.3	E4B (+8.4)
平均	40.6	52.5	E4B (+11.9)

跟 26B vs 31B 比較中只差 1-2 分不同，這裡的差距非常大——平均將近 12 分。E4B 明顯更聰明，尤其在數學和程式碼方面。

哪些地方會感受到差異

簡單問答和聊天：基本對話兩者都能應付。E2B 偶爾在長回覆時會不太連貫。
推論和數學：E4B 明顯更強。E2B 面對多步驟問題會卡住。
程式碼生成：E4B 能寫出可用的程式碼片段。E2B 可以做自動補全，但完整函式實作有困難。
多語言：E4B 在中文、日文、韓文和歐洲語言的表現好很多。E2B 基本上只能處理英文。
圖片理解：只有 E4B 支援。如果你需要視覺功能，選擇已經決定了。

什麼時候選 E2B

當你在硬體極限邊緣運作時，E2B 是對的選擇：

記憶體有限的手機 — 舊款 iPhone、平價 Android，只能擠出 250 MB 的情況
Raspberry Pi 和 SBC — 在 4GB RAM 的 Pi 5 上跑得順
IoT 和嵌入式 — 智慧家庭裝置、功耗預算極低的常駐助理
離線關鍵字擷取和分類 — 只需要基本 NLP，不需要完整推論時
iPhone 上的 CoreML-LLM — 250 MB 記憶體、2W 功耗下跑出 11 tok/s，這對裝置端 AI 來說非常驚人
大規模批次處理 — 需要處理數百萬筆資料、每次推論成本很重要時

如果你的需求是「在記憶體很少的裝置上回應簡單查詢」，E2B 就夠了。

什麼時候選 E4B

對大多數想要小型本機模型的人來說，E4B 是更好的選擇：

日常使用的筆電 — 互動聊天夠快，做實際工作夠聰明
較好的手機 — iPhone 14 Pro 以上、6GB+ RAM 的 Android 旗艦
寫程式助手 — 在程式碼補全和生成上真的有用
多模態任務 — 圖片描述、視覺問答、文件理解
較長的對話 — 32K 上下文 vs E2B 的 8K，能處理更長的對話串
多語言使用 — 如果你用英文以外的語言工作，E4B 好非常多
邊緣伺服器 — 小到能放進迷你 PC，聰明到真的有用

想更深入了解在手機上執行這些模型，請看行動裝置部署指南。

快速決策表

你的情況	選擇
手機可用 RAM <1GB	E2B
Raspberry Pi / 嵌入式	E2B
常駐運行、超低功耗	E2B
筆電或桌機	E4B
需要圖片理解	E4B
程式碼輔助	E4B
多語言使用	E4B
長對話（超過 8K tokens）	E4B
簡單文字分類	E2B
通用本機 AI	E4B