0% read

Gemma 4 E2B 和 E4B 怎么选?小模型对比

2026/04/10

Gemma 4 的小模型有两个:E2B(20 亿参数)和 E4B(40 亿参数)。都是给资源受限的设备用的,但实际差距比参数量暗示的要大得多。来看看怎么选。

E2B 和 E4B 是什么?

两个都是轻量级的稠密模型,专为端侧推理优化。没有 MoE 路由,没有专家机制——就是紧凑的网络,塞进有限的内存里跑。

E2B 是 Gemma 4 家族里最小的模型。20 亿参数,适合每一兆内存都要精打细算的场景——手机、树莓派、物联网设备、嵌入式系统。

E4B 参数量翻倍到 40 亿。依然能在笔记本或中高端手机上本地运行,但在推理、编程、多模态任务上的表现远超参数量给人的预期。

Gemma 4 Small Models:
┌──────────────────────────────────────┐
│  E2B (2B params)                     │
│  Ultra-compact · Phones · Edge       │
│  ~250 MB RAM (CoreML) · 11 tok/s     │
├──────────────────────────────────────┤
│  E4B (4B params)                     │
│  Compact · Laptops · Daily driver    │
│  ~1.5 GB RAM (Q4) · 35 tok/s         │
└──────────────────────────────────────┘

正面对比

指标E2B (2B)E4B (4B)
参数量2B4B
模型大小 (FP16)~4 GB~8 GB
模型大小 (Q4_K_M)~1.2 GB~2.5 GB
内存占用 (Q4_K_M)~1.5 GB~3 GB
内存占用 (CoreML, iPhone)~250 MB~800 MB
上下文窗口8K32K
多模态纯文本文本 + 图片

文件大小和内存大概差 2 倍,参数量翻倍嘛,合理。但真正的重点是上下文长度和多模态——E4B 上下文是 E2B 的 4 倍,而且支持图片输入。

速度对比

同一硬件上 E2B 更快,但 E4B 做交互也完全够用:

硬件E2B (tok/s)E4B (tok/s)E2B 快多少
iPhone 15 Pro (CoreML)~11~52.2 倍
iPhone 16 Pro (CoreML)~15~72.1 倍
Raspberry Pi 5 (8GB)~8~42 倍
M3 MacBook Air (Q4)~65~351.9 倍
RTX 3060 12GB (Q4)~120~701.7 倍

用 CoreML-LLM 在 iPhone 上跑 E2B,大约 11 tok/s,只吃 250 MB 内存,功耗约 2W。这个数据放在手机端侧 AI 里算是真的能用了——聊天流畅,还不怎么费电。

E4B 在手机上速度大概砍半,但在笔记本或台式机上跑,体感差距不大。

质量对比

这里 E4B 拉开了明显差距:

测试E2B (2B)E4B (4B)赢家
MMLU52.161.8E4B (+9.7)
HumanEval38.452.6E4B (+14.2)
GSM8K45.262.1E4B (+16.9)
MATH18.328.7E4B (+10.4)
ARC-Challenge48.957.3E4B (+8.4)
平均40.652.5E4B (+11.9)

26B 和 31B 的对比 不一样——那边质量差距只有 1-2 分,这边差距接近 12 分。E4B 明显更聪明,尤其在数学和代码方面。

实际用起来差在哪

  • 简单问答和闲聊:都能应付。E2B 长回复偶尔会跑偏。
  • 推理和数学:E4B 强很多。E2B 多步骤问题容易掉链子。
  • 代码生成:E4B 能写出能用的代码片段。E2B 补全还行,但完整函数就费劲了。
  • 多语言:E4B 中日韩和欧洲语言都处理得不错。E2B 基本只能英文。
  • 图片理解:只有 E4B 支持。需要视觉能力的话没得选。

什么时候选 E2B

E2B 适合硬件条件极其有限的场景:

  • 内存紧张的手机——老 iPhone、低端安卓,只能挤出 250 MB 的那种
  • 树莓派和单板电脑——Pi 5 配 4GB 内存跑得很流畅
  • 物联网和嵌入式——智能家居设备,功耗预算极低的常驻助手
  • 离线文本分类和关键词提取——只需要基础 NLP,不需要深度推理
  • iPhone 上用 CoreML-LLM——11 tok/s、250 MB 内存、2W 功耗,这个数据在端侧 AI 里很能打
  • 大规模批处理——需要处理百万级数据,推理成本敏感

如果需求就是「在内存很小的设备上回答简单问题」,E2B 够用。

什么时候选 E4B

对大部分想要本地小模型的人来说,E4B 是更好的选择:

  • 笔记本日用——速度够做实时聊天,智力够做真正的工作
  • 中高端手机——iPhone 14 Pro 及以上,6GB+ 内存的安卓旗舰
  • 编程辅助——代码补全和生成真的能用
  • 多模态任务——图片描述、视觉问答、文档理解
  • 长对话——32K 上下文对比 E2B 的 8K,能撑住更长的聊天
  • 多语言使用——中文、日文、韩文、欧洲语言,E4B 好太多
  • 边缘服务器——迷你主机就能跑,而且质量能打

想了解手机上怎么部署,看 移动端部署指南

快速决策表

你的情况选择
手机可用内存 <1GBE2B
树莓派 / 嵌入式设备E2B
常驻运行、超低功耗E2B
笔记本或台式机E4B
需要图片理解E4B
编程辅助E4B
多语言使用E4B
长对话(>8K token)E4B
简单文本分类E2B
通用本地 AIE4B

E2B 和 E4B 在全家族里的位置

模型参数量内存 (Q4)速度 (M3 Air)质量 (平均)
E2B2B~1.5 GB~65 tok/s40.6
E4B4B~3 GB~35 tok/s52.5
12B12B~7 GB~20 tok/s67.8
26B MoE26B~15 GB~12 tok/s72.4

从小到大是一个清晰的阶梯。每升一档大约翻倍内存、速度减半。完整阵容可以看 Gemma 4 模型选择指南

硬件需求

详细的硬件推荐看 硬件指南。小模型的要求简单总结一下:

E2B 最低配置

  • iPhone:iPhone 12 及以上(CoreML)
  • Android:4GB+ 内存,骁龙 8 Gen 1+
  • 树莓派:Pi 5,4GB 内存
  • PC/Mac:近 5 年的任何设备都行

E4B 最低配置

  • iPhone:iPhone 14 Pro 及以上(CoreML)
  • Android:6GB+ 内存,骁龙 8 Gen 2+
  • 树莓派:Pi 5,8GB 内存
  • PC/Mac:8GB 内存,近几年的 CPU/GPU

下一步

对大部分人来说,E4B 是甜点——几个 GB 内存就能跑,但编程、聊天、多模态都真的能用。E2B 留给内存只有 250 MB 的极限场景。

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

相关教程

Gemma 4 E2B 和 E4B 怎么选?小模型对比 | 博客