Gemma 4 的小模型有两个:E2B(20 亿参数)和 E4B(40 亿参数)。都是给资源受限的设备用的,但实际差距比参数量暗示的要大得多。来看看怎么选。
E2B 和 E4B 是什么?
两个都是轻量级的稠密模型,专为端侧推理优化。没有 MoE 路由,没有专家机制——就是紧凑的网络,塞进有限的内存里跑。
E2B 是 Gemma 4 家族里最小的模型。20 亿参数,适合每一兆内存都要精打细算的场景——手机、树莓派、物联网设备、嵌入式系统。
E4B 参数量翻倍到 40 亿。依然能在笔记本或中高端手机上本地运行,但在推理、编程、多模态任务上的表现远超参数量给人的预期。
Gemma 4 Small Models:
┌──────────────────────────────────────┐
│ E2B (2B params) │
│ Ultra-compact · Phones · Edge │
│ ~250 MB RAM (CoreML) · 11 tok/s │
├──────────────────────────────────────┤
│ E4B (4B params) │
│ Compact · Laptops · Daily driver │
│ ~1.5 GB RAM (Q4) · 35 tok/s │
└──────────────────────────────────────┘正面对比
| 指标 | E2B (2B) | E4B (4B) |
|---|---|---|
| 参数量 | 2B | 4B |
| 模型大小 (FP16) | ~4 GB | ~8 GB |
| 模型大小 (Q4_K_M) | ~1.2 GB | ~2.5 GB |
| 内存占用 (Q4_K_M) | ~1.5 GB | ~3 GB |
| 内存占用 (CoreML, iPhone) | ~250 MB | ~800 MB |
| 上下文窗口 | 8K | 32K |
| 多模态 | 纯文本 | 文本 + 图片 |
文件大小和内存大概差 2 倍,参数量翻倍嘛,合理。但真正的重点是上下文长度和多模态——E4B 上下文是 E2B 的 4 倍,而且支持图片输入。
速度对比
同一硬件上 E2B 更快,但 E4B 做交互也完全够用:
| 硬件 | E2B (tok/s) | E4B (tok/s) | E2B 快多少 |
|---|---|---|---|
| iPhone 15 Pro (CoreML) | ~11 | ~5 | 2.2 倍 |
| iPhone 16 Pro (CoreML) | ~15 | ~7 | 2.1 倍 |
| Raspberry Pi 5 (8GB) | ~8 | ~4 | 2 倍 |
| M3 MacBook Air (Q4) | ~65 | ~35 | 1.9 倍 |
| RTX 3060 12GB (Q4) | ~120 | ~70 | 1.7 倍 |
用 CoreML-LLM 在 iPhone 上跑 E2B,大约 11 tok/s,只吃 250 MB 内存,功耗约 2W。这个数据放在手机端侧 AI 里算是真的能用了——聊天流畅,还不怎么费电。
E4B 在手机上速度大概砍半,但在笔记本或台式机上跑,体感差距不大。
质量对比
这里 E4B 拉开了明显差距:
| 测试 | E2B (2B) | E4B (4B) | 赢家 |
|---|---|---|---|
| MMLU | 52.1 | 61.8 | E4B (+9.7) |
| HumanEval | 38.4 | 52.6 | E4B (+14.2) |
| GSM8K | 45.2 | 62.1 | E4B (+16.9) |
| MATH | 18.3 | 28.7 | E4B (+10.4) |
| ARC-Challenge | 48.9 | 57.3 | E4B (+8.4) |
| 平均 | 40.6 | 52.5 | E4B (+11.9) |
跟 26B 和 31B 的对比 不一样——那边质量差距只有 1-2 分,这边差距接近 12 分。E4B 明显更聪明,尤其在数学和代码方面。
实际用起来差在哪
- 简单问答和闲聊:都能应付。E2B 长回复偶尔会跑偏。
- 推理和数学:E4B 强很多。E2B 多步骤问题容易掉链子。
- 代码生成:E4B 能写出能用的代码片段。E2B 补全还行,但完整函数就费劲了。
- 多语言:E4B 中日韩和欧洲语言都处理得不错。E2B 基本只能英文。
- 图片理解:只有 E4B 支持。需要视觉能力的话没得选。
什么时候选 E2B
E2B 适合硬件条件极其有限的场景:
- 内存紧张的手机——老 iPhone、低端安卓,只能挤出 250 MB 的那种
- 树莓派和单板电脑——Pi 5 配 4GB 内存跑得很流畅
- 物联网和嵌入式——智能家居设备,功耗预算极低的常驻助手
- 离线文本分类和关键词提取——只需要基础 NLP,不需要深度推理
- iPhone 上用 CoreML-LLM——11 tok/s、250 MB 内存、2W 功耗,这个数据在端侧 AI 里很能打
- 大规模批处理——需要处理百万级数据,推理成本敏感
如果需求就是「在内存很小的设备上回答简单问题」,E2B 够用。
什么时候选 E4B
对大部分想要本地小模型的人来说,E4B 是更好的选择:
- 笔记本日用——速度够做实时聊天,智力够做真正的工作
- 中高端手机——iPhone 14 Pro 及以上,6GB+ 内存的安卓旗舰
- 编程辅助——代码补全和生成真的能用
- 多模态任务——图片描述、视觉问答、文档理解
- 长对话——32K 上下文对比 E2B 的 8K,能撑住更长的聊天
- 多语言使用——中文、日文、韩文、欧洲语言,E4B 好太多
- 边缘服务器——迷你主机就能跑,而且质量能打
想了解手机上怎么部署,看 移动端部署指南。
快速决策表
| 你的情况 | 选择 |
|---|---|
| 手机可用内存 <1GB | E2B |
| 树莓派 / 嵌入式设备 | E2B |
| 常驻运行、超低功耗 | E2B |
| 笔记本或台式机 | E4B |
| 需要图片理解 | E4B |
| 编程辅助 | E4B |
| 多语言使用 | E4B |
| 长对话(>8K token) | E4B |
| 简单文本分类 | E2B |
| 通用本地 AI | E4B |
E2B 和 E4B 在全家族里的位置
| 模型 | 参数量 | 内存 (Q4) | 速度 (M3 Air) | 质量 (平均) |
|---|---|---|---|---|
| E2B | 2B | ~1.5 GB | ~65 tok/s | 40.6 |
| E4B | 4B | ~3 GB | ~35 tok/s | 52.5 |
| 12B | 12B | ~7 GB | ~20 tok/s | 67.8 |
| 26B MoE | 26B | ~15 GB | ~12 tok/s | 72.4 |
从小到大是一个清晰的阶梯。每升一档大约翻倍内存、速度减半。完整阵容可以看 Gemma 4 模型选择指南。
硬件需求
详细的硬件推荐看 硬件指南。小模型的要求简单总结一下:
E2B 最低配置
- iPhone:iPhone 12 及以上(CoreML)
- Android:4GB+ 内存,骁龙 8 Gen 1+
- 树莓派:Pi 5,4GB 内存
- PC/Mac:近 5 年的任何设备都行
E4B 最低配置
- iPhone:iPhone 14 Pro 及以上(CoreML)
- Android:6GB+ 内存,骁龙 8 Gen 2+
- 树莓派:Pi 5,8GB 内存
- PC/Mac:8GB 内存,近几年的 CPU/GPU
下一步
- 想在手机上跑? 看 移动端部署指南 了解 CoreML 和 Android 的部署方法
- 在全部型号里纠结? 看 Gemma 4 模型选择指南 了解完整阵容
- 选硬件? 看 硬件指南 了解 GPU/CPU 推荐配置
对大部分人来说,E4B 是甜点——几个 GB 内存就能跑,但编程、聊天、多模态都真的能用。E2B 留给内存只有 250 MB 的极限场景。
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


