Gemma 4 架构解析：MoE 和 Dense 到底什么意思？

Gemma 4 的架构不需要博士学位也能看懂。了解这些基础知识能帮你选对模型、理解它在你的硬件上为什么快（或慢），还能让你用得更好。

废话不多说，直接讲。

Transformer 基础（30 秒版本）

所有现代大模型，包括 Gemma 4，都基于 Transformer 架构。你只需要知道：

Gemma 4 把这些层堆了几十层。层数越多、越宽，模型就越聪明——但也越大、越慢。

Gemma 4 有两种架构，这是你理解整个模型阵容最关键的一点。

Dense 模型里，每个参数都参与每个 token 的计算。模型有 40 亿参数，生成每个字都要用上这 40 亿。

就像一个小团队，每个人都参与每件事：

MoE 全称 Mixture of Experts（混合专家）。核心思路是：不是每个 token 都需要所有参数。模型里有一堆"专家"，一个路由器负责决定每个 token 激活哪几个专家。

实际运作方式：

输入 Token → 路由器 → 选中 16 个专家中的 2 个 → 输出

总参数量：   260 亿
每个 token 激活：  ~38 亿（26B 模型）

就像医院里有各种专科医生。你胳膊断了去看病，不需要所有大夫——你需要骨科和放射科。导诊台（路由器）把你送到对的专家那里。

这是 Gemma 4 的杀手锏。26B MoE 模型总共有 260 亿参数，但每个 token 只有大约 38 亿参数在工作：

260 亿的知识量，40 亿的运行速度。这就是 MoE 厉害的地方——打破了质量和速度之间的传统取舍。

想知道具体选哪个模型，看我们的模型选择指南。

路由器是一个小型神经网络，装在每个 MoE 层的入口。对于每个输入 token：

路由器在训练过程中学会了哪个专家擅长什么。训练久了，不同专家会形成专长——有的擅长代码，有的擅长推理，有的擅长创意写作。路由器实时判断每个 token 该用哪个组合。

负载均衡在 MoE 训练中很关键。如果所有 token 都跑到一个专家那里（路由器"坍塌"），其他专家就浪费了。Gemma 4 用辅助损失函数来保持专家之间的负载均衡。

Gemma 4 用的是 GQA（Grouped Query Attention，分组查询注意力），在原始多头注意力（贵但质量高）和多查询注意力（便宜但质量差一点）之间取了个平衡。

GQA 的做法是：

跟你有什么关系？KV 缓存是处理长文本时会膨胀的东西。GQA 让它保持可控，所以 Gemma 4 能处理很长的输入而不会撑爆显存。

Gemma 4 最多支持 256K token 的上下文——大约 20 万字或一本 400 页的书。

RoPE（旋转位置编码）： 不用固定的位置 ID（有上限），而是把位置编码成旋转角度。这种方式天然能扩展到更长的序列。

实际上下文长度参考：

重要提醒： 模型支持 256K 不代表你应该一直用满。KV 缓存随上下文长度线性增长，注意力计算是平方级增长。大多数任务 8K-32K 足够了。只在真正需要的时候才用长上下文——比如分析整个代码库或一份完整的法律合同。

几个架构层面的选择让 Gemma 4 表现超出参数量的预期：

结果就是：26B MoE 模型在标准基准测试中经常追平甚至超过活跃参数量多 2-3 倍的 Dense 模型。