Gemma 4 E2B 和 E4B 怎么选？小模型对比

Gemma 4 的小模型有两个：E2B（20 亿参数）和 E4B（40 亿参数）。都是给资源受限的设备用的，但实际差距比参数量暗示的要大得多。来看看怎么选。

E2B 和 E4B 是什么？

两个都是轻量级的稠密模型，专为端侧推理优化。没有 MoE 路由，没有专家机制——就是紧凑的网络，塞进有限的内存里跑。

E2B 是 Gemma 4 家族里最小的模型。20 亿参数，适合每一兆内存都要精打细算的场景——手机、树莓派、物联网设备、嵌入式系统。

E4B 参数量翻倍到 40 亿。依然能在笔记本或中高端手机上本地运行，但在推理、编程、多模态任务上的表现远超参数量给人的预期。

Gemma 4 Small Models:
┌──────────────────────────────────────┐
│  E2B (2B params)                     │
│  Ultra-compact · Phones · Edge       │
│  ~250 MB RAM (CoreML) · 11 tok/s     │
├──────────────────────────────────────┤
│  E4B (4B params)                     │
│  Compact · Laptops · Daily driver    │
│  ~1.5 GB RAM (Q4) · 35 tok/s         │
└──────────────────────────────────────┘

正面对比

指标	E2B (2B)	E4B (4B)
参数量	2B	4B
模型大小 (FP16)	~4 GB	~8 GB
模型大小 (Q4_K_M)	~1.2 GB	~2.5 GB
内存占用 (Q4_K_M)	~1.5 GB	~3 GB
内存占用 (CoreML, iPhone)	~250 MB	~800 MB
上下文窗口	8K	32K
多模态	纯文本	文本 + 图片

文件大小和内存大概差 2 倍，参数量翻倍嘛，合理。但真正的重点是上下文长度和多模态——E4B 上下文是 E2B 的 4 倍，而且支持图片输入。

速度对比

同一硬件上 E2B 更快，但 E4B 做交互也完全够用：

硬件	E2B (tok/s)	E4B (tok/s)	E2B 快多少
iPhone 15 Pro (CoreML)	~11	~5	2.2 倍
iPhone 16 Pro (CoreML)	~15	~7	2.1 倍
Raspberry Pi 5 (8GB)	~8	~4	2 倍
M3 MacBook Air (Q4)	~65	~35	1.9 倍
RTX 3060 12GB (Q4)	~120	~70	1.7 倍

用 CoreML-LLM 在 iPhone 上跑 E2B，大约 11 tok/s，只吃 250 MB 内存，功耗约 2W。这个数据放在手机端侧 AI 里算是真的能用了——聊天流畅，还不怎么费电。

E4B 在手机上速度大概砍半，但在笔记本或台式机上跑，体感差距不大。

质量对比

这里 E4B 拉开了明显差距：

测试	E2B (2B)	E4B (4B)	赢家
MMLU	52.1	61.8	E4B (+9.7)
HumanEval	38.4	52.6	E4B (+14.2)
GSM8K	45.2	62.1	E4B (+16.9)
MATH	18.3	28.7	E4B (+10.4)
ARC-Challenge	48.9	57.3	E4B (+8.4)
平均	40.6	52.5	E4B (+11.9)

跟 26B 和 31B 的对比不一样——那边质量差距只有 1-2 分，这边差距接近 12 分。E4B 明显更聪明，尤其在数学和代码方面。

实际用起来差在哪

简单问答和闲聊：都能应付。E2B 长回复偶尔会跑偏。
推理和数学：E4B 强很多。E2B 多步骤问题容易掉链子。
代码生成：E4B 能写出能用的代码片段。E2B 补全还行，但完整函数就费劲了。
多语言：E4B 中日韩和欧洲语言都处理得不错。E2B 基本只能英文。
图片理解：只有 E4B 支持。需要视觉能力的话没得选。

什么时候选 E2B

E2B 适合硬件条件极其有限的场景：

内存紧张的手机——老 iPhone、低端安卓，只能挤出 250 MB 的那种
树莓派和单板电脑——Pi 5 配 4GB 内存跑得很流畅
物联网和嵌入式——智能家居设备，功耗预算极低的常驻助手
离线文本分类和关键词提取——只需要基础 NLP，不需要深度推理
iPhone 上用 CoreML-LLM——11 tok/s、250 MB 内存、2W 功耗，这个数据在端侧 AI 里很能打
大规模批处理——需要处理百万级数据，推理成本敏感

如果需求就是「在内存很小的设备上回答简单问题」，E2B 够用。

什么时候选 E4B

对大部分想要本地小模型的人来说，E4B 是更好的选择：

笔记本日用——速度够做实时聊天，智力够做真正的工作
中高端手机——iPhone 14 Pro 及以上，6GB+ 内存的安卓旗舰
编程辅助——代码补全和生成真的能用
多模态任务——图片描述、视觉问答、文档理解
长对话——32K 上下文对比 E2B 的 8K，能撑住更长的聊天
多语言使用——中文、日文、韩文、欧洲语言，E4B 好太多
边缘服务器——迷你主机就能跑，而且质量能打

想了解手机上怎么部署，看移动端部署指南。

快速决策表

你的情况	选择
手机可用内存 <1GB	E2B
树莓派 / 嵌入式设备	E2B
常驻运行、超低功耗	E2B
笔记本或台式机	E4B
需要图片理解	E4B
编程辅助	E4B
多语言使用	E4B
长对话（>8K token）	E4B
简单文本分类	E2B
通用本地 AI	E4B