Gemma 4 架构解析:MoE 和 Dense 到底什么意思?

2026/04/07

Gemma 4 的架构不需要博士学位也能看懂。了解这些基础知识能帮你选对模型、理解它在你的硬件上为什么快(或慢),还能让你用得更好。

废话不多说,直接讲。

Transformer 基础(30 秒版本)

所有现代大模型,包括 Gemma 4,都基于 Transformer 架构。你只需要知道:

  1. 文本进去,被切成 token(词块)
  2. 注意力层搞清楚哪些 token 之间有关系
  3. 前馈层处理这些关系
  4. 文本出来,一次一个 token

Gemma 4 把这些层堆了几十层。层数越多、越宽,模型就越聪明——但也越大、越慢。

Dense vs MoE:两种架构

Gemma 4 有两种架构,这是你理解整个模型阵容最关键的一点。

Dense 密集模型(E2B、E4B)

Dense 模型里,每个参数都参与每个 token 的计算。模型有 40 亿参数,生成每个字都要用上这 40 亿。

就像一个小团队,每个人都参与每件事:

  • 性能稳定可预测
  • 所有参数都在干活
  • 总体积小,跑起来简单

MoE 混合专家模型(26B、31B)

MoE 全称 Mixture of Experts(混合专家)。核心思路是:不是每个 token 都需要所有参数。模型里有一堆"专家",一个路由器负责决定每个 token 激活哪几个专家。

实际运作方式:

输入 Token → 路由器 → 选中 16 个专家中的 2 个 → 输出

总参数量:   260 亿
每个 token 激活:  ~38 亿(26B 模型)

就像医院里有各种专科医生。你胳膊断了去看病,不需要所有大夫——你需要骨科和放射科。导诊台(路由器)把你送到对的专家那里。

为什么 26B 模型只用 3.8B 活跃参数

这是 Gemma 4 的杀手锏。26B MoE 模型总共有 260 亿参数,但每个 token 只有大约 38 亿参数在工作:

指标26B MoE等效 Dense 模型
总参数量26B26B
每 token 激活~3.8B26B
速度快(类似 4B 模型)慢(多 7 倍计算量)
质量接近 26B Dense完整 26B 质量
显存需求比你想的少多得多

260 亿的知识量,40 亿的运行速度。这就是 MoE 厉害的地方——打破了质量和速度之间的传统取舍。

想知道具体选哪个模型,看我们的模型选择指南

路由器怎么工作

路由器是一个小型神经网络,装在每个 MoE 层的入口。对于每个输入 token:

  1. 看这个 token 的表征
  2. 给每个专家打分(这个专家跟这个 token 有多相关?)
  3. 选出得分最高的 K 个专家(通常是 2 个)
  4. 用分数作为权重,把专家们的输出合并

路由器在训练过程中学会了哪个专家擅长什么。训练久了,不同专家会形成专长——有的擅长代码,有的擅长推理,有的擅长创意写作。路由器实时判断每个 token 该用哪个组合。

负载均衡在 MoE 训练中很关键。如果所有 token 都跑到一个专家那里(路由器"坍塌"),其他专家就浪费了。Gemma 4 用辅助损失函数来保持专家之间的负载均衡。

注意力机制

Gemma 4 用的是 GQA(Grouped Query Attention,分组查询注意力),在原始多头注意力(贵但质量高)和多查询注意力(便宜但质量差一点)之间取了个平衡。

GQA 的做法是:

  • 查询头分成几组
  • 每组共享一套键值头
  • 这样 KV 缓存的内存占用就降下来了,质量基本不受影响

跟你有什么关系?KV 缓存是处理长文本时会膨胀的东西。GQA 让它保持可控,所以 Gemma 4 能处理很长的输入而不会撑爆显存。

256K 上下文窗口

Gemma 4 最多支持 256K token 的上下文——大约 20 万字或一本 400 页的书。

RoPE(旋转位置编码): 不用固定的位置 ID(有上限),而是把位置编码成旋转角度。这种方式天然能扩展到更长的序列。

实际上下文长度参考:

上下文长度大概等于显存影响
8K token10-15 页文档基准
32K token50 页文档约 2 倍基准
128K token一整个代码仓库约 4 倍基准
256K token一整本书约 8 倍基准

重要提醒: 模型支持 256K 不代表你应该一直用满。KV 缓存随上下文长度线性增长,注意力计算是平方级增长。大多数任务 8K-32K 足够了。只在真正需要的时候才用长上下文——比如分析整个代码库或一份完整的法律合同。

Gemma 4 为什么效率这么高

几个架构层面的选择让 Gemma 4 表现超出参数量的预期:

  1. MoE 路由:每个 token 只激活 15-20% 的参数
  2. GQA:减少 KV 缓存内存
  3. SwiGLU 激活函数:前馈层信息流更好
  4. RMSNorm:比 LayerNorm 更快的归一化
  5. 优化的分词器:256K 词表高效覆盖多种语言

结果就是:26B MoE 模型在标准基准测试中经常追平甚至超过活跃参数量多 2-3 倍的 Dense 模型。

架构总结

特性E2BE4B26B31B
类型DenseDenseMoEMoE
总参数~2B~4B~26B~31B
活跃参数~2B~4B~3.8B~4.5B
专家数16(选 2)16(选 2)
注意力GQAGQAGQAGQA
最大上下文256K256K256K256K
最适合边缘设备笔记本大多数用户追求最高质量

这些跟你有什么关系

  • 选模型:在 26B MoE 和同等总参数的 Dense 模型之间纠结?MoE 更快,质量差不多。可以看看跟 Llama 4 的对比
  • 估显存:MoE 模型所有参数都要加载到内存,但实际计算量只跟活跃参数有关。详细数据看硬件指南
  • 长上下文任务:从短上下文开始,需要时再加长。你的显存会感谢你的。
  • 微调:MoE 模型可以用 LoRA 微调,可以针对注意力层或专家层。

下一步

Gemma 4 AI

Gemma 4 AI

相关教程