Gemma 4 的架构不需要博士学位也能看懂。了解这些基础知识能帮你选对模型、理解它在你的硬件上为什么快(或慢),还能让你用得更好。
废话不多说,直接讲。
Transformer 基础(30 秒版本)
所有现代大模型,包括 Gemma 4,都基于 Transformer 架构。你只需要知道:
- 文本进去,被切成 token(词块)
- 注意力层搞清楚哪些 token 之间有关系
- 前馈层处理这些关系
- 文本出来,一次一个 token
Gemma 4 把这些层堆了几十层。层数越多、越宽,模型就越聪明——但也越大、越慢。
Dense vs MoE:两种架构
Gemma 4 有两种架构,这是你理解整个模型阵容最关键的一点。
Dense 密集模型(E2B、E4B)
Dense 模型里,每个参数都参与每个 token 的计算。模型有 40 亿参数,生成每个字都要用上这 40 亿。
就像一个小团队,每个人都参与每件事:
- 性能稳定可预测
- 所有参数都在干活
- 总体积小,跑起来简单
MoE 混合专家模型(26B、31B)
MoE 全称 Mixture of Experts(混合专家)。核心思路是:不是每个 token 都需要所有参数。模型里有一堆"专家",一个路由器负责决定每个 token 激活哪几个专家。
实际运作方式:
输入 Token → 路由器 → 选中 16 个专家中的 2 个 → 输出
总参数量: 260 亿
每个 token 激活: ~38 亿(26B 模型)就像医院里有各种专科医生。你胳膊断了去看病,不需要所有大夫——你需要骨科和放射科。导诊台(路由器)把你送到对的专家那里。
为什么 26B 模型只用 3.8B 活跃参数
这是 Gemma 4 的杀手锏。26B MoE 模型总共有 260 亿参数,但每个 token 只有大约 38 亿参数在工作:
| 指标 | 26B MoE | 等效 Dense 模型 |
|---|---|---|
| 总参数量 | 26B | 26B |
| 每 token 激活 | ~3.8B | 26B |
| 速度 | 快(类似 4B 模型) | 慢(多 7 倍计算量) |
| 质量 | 接近 26B Dense | 完整 26B 质量 |
| 显存需求 | 比你想的少 | 多得多 |
260 亿的知识量,40 亿的运行速度。这就是 MoE 厉害的地方——打破了质量和速度之间的传统取舍。
想知道具体选哪个模型,看我们的模型选择指南。
路由器怎么工作
路由器是一个小型神经网络,装在每个 MoE 层的入口。对于每个输入 token:
- 看这个 token 的表征
- 给每个专家打分(这个专家跟这个 token 有多相关?)
- 选出得分最高的 K 个专家(通常是 2 个)
- 用分数作为权重,把专家们的输出合并
路由器在训练过程中学会了哪个专家擅长什么。训练久了,不同专家会形成专长——有的擅长代码,有的擅长推理,有的擅长创意写作。路由器实时判断每个 token 该用哪个组合。
负载均衡在 MoE 训练中很关键。如果所有 token 都跑到一个专家那里(路由器"坍塌"),其他专家就浪费了。Gemma 4 用辅助损失函数来保持专家之间的负载均衡。
注意力机制
Gemma 4 用的是 GQA(Grouped Query Attention,分组查询注意力),在原始多头注意力(贵但质量高)和多查询注意力(便宜但质量差一点)之间取了个平衡。
GQA 的做法是:
- 查询头分成几组
- 每组共享一套键值头
- 这样 KV 缓存的内存占用就降下来了,质量基本不受影响
跟你有什么关系?KV 缓存是处理长文本时会膨胀的东西。GQA 让它保持可控,所以 Gemma 4 能处理很长的输入而不会撑爆显存。
256K 上下文窗口
Gemma 4 最多支持 256K token 的上下文——大约 20 万字或一本 400 页的书。
RoPE(旋转位置编码): 不用固定的位置 ID(有上限),而是把位置编码成旋转角度。这种方式天然能扩展到更长的序列。
实际上下文长度参考:
| 上下文长度 | 大概等于 | 显存影响 |
|---|---|---|
| 8K token | 10-15 页文档 | 基准 |
| 32K token | 50 页文档 | 约 2 倍基准 |
| 128K token | 一整个代码仓库 | 约 4 倍基准 |
| 256K token | 一整本书 | 约 8 倍基准 |
重要提醒: 模型支持 256K 不代表你应该一直用满。KV 缓存随上下文长度线性增长,注意力计算是平方级增长。大多数任务 8K-32K 足够了。只在真正需要的时候才用长上下文——比如分析整个代码库或一份完整的法律合同。
Gemma 4 为什么效率这么高
几个架构层面的选择让 Gemma 4 表现超出参数量的预期:
- MoE 路由:每个 token 只激活 15-20% 的参数
- GQA:减少 KV 缓存内存
- SwiGLU 激活函数:前馈层信息流更好
- RMSNorm:比 LayerNorm 更快的归一化
- 优化的分词器:256K 词表高效覆盖多种语言
结果就是:26B MoE 模型在标准基准测试中经常追平甚至超过活跃参数量多 2-3 倍的 Dense 模型。
架构总结
| 特性 | E2B | E4B | 26B | 31B |
|---|---|---|---|---|
| 类型 | Dense | Dense | MoE | MoE |
| 总参数 | ~2B | ~4B | ~26B | ~31B |
| 活跃参数 | ~2B | ~4B | ~3.8B | ~4.5B |
| 专家数 | 无 | 无 | 16(选 2) | 16(选 2) |
| 注意力 | GQA | GQA | GQA | GQA |
| 最大上下文 | 256K | 256K | 256K | 256K |
| 最适合 | 边缘设备 | 笔记本 | 大多数用户 | 追求最高质量 |
这些跟你有什么关系
- 选模型:在 26B MoE 和同等总参数的 Dense 模型之间纠结?MoE 更快,质量差不多。可以看看跟 Llama 4 的对比。
- 估显存:MoE 模型所有参数都要加载到内存,但实际计算量只跟活跃参数有关。详细数据看硬件指南。
- 长上下文任务:从短上下文开始,需要时再加长。你的显存会感谢你的。
- 微调:MoE 模型可以用 LoRA 微调,可以针对注意力层或专家层。
下一步
- 用模型选择指南选对模型
- 看硬件配置确认够不够用
- 了解在 Mac Apple Silicon 上的实际表现
- 架构对比:Gemma 4 vs Llama 4



