Gemma 4 架構解析：MoE、Dense 以及為什麼重要

你不需要博士學位就能理解 Gemma 4 的運作方式。但了解其架構的基本原理會幫助你挑選對的模型、理解它在你的硬體上為什麼快（或慢），以及從中獲得更好的結果。

讓我們用不帶學術術語的方式來拆解。

Transformer 基礎（30 秒版本）

每個現代語言模型，包括 Gemma 4，都建構在 Transformer 架構之上。你只需要知道以下幾點：

Gemma 4 將數十個這樣的層堆疊在一起。層數越多、越寬，模型越聰明——但也越大、越慢。

Gemma 4 有兩種版本，這是理解模型陣容最重要的一件事。

在 Dense 模型中，每個參數都會為每個 token 啟動。如果模型有 40 億參數，每生成一個字就會動用全部 40 億。

把它想成一個小團隊，每個人都參與每項任務：

MoE 代表混合專家（Mixture of Experts）。核心觀點是：你不需要每個 token 都用到所有參數。模型有一組專門的「專家」，一個路由器決定每個 token 啟動哪些專家。

實際上是這樣運作的：

輸入 Token → 路由器 → 選擇 16 個專家中的 2 個 → 輸出

總參數量：   260 億
每個 token 活躍：   ~38 億（26B 模型）

就像一家有專科醫生的醫院。當你手臂骨折走進去，你不需要每個醫生——你需要骨科醫師和也許一個放射科醫師。掛號台（路由器）把你送到對的專家那裡。

這是 Gemma 4 的秘密武器。26B MoE 模型有 260 億總參數，但任何給定 token 只有約 38 億是活躍的。這意味著：

你得到 26B 模型的知識量和約 4B 模型的速度。這就是 MoE 如此重要的原因——它打破了品質和速度之間的傳統取捨。

要了解挑選哪個模型的實用比較，查看我們的模型選擇指南。

路由器是一個小型神經網路，位於每個 MoE 層的開頭。對每個輸入 token，它會：

路由器在訓練過程中學習哪些專家擅長什麼。隨著時間推移，不同的專家會專門化——有些擅長程式碼，有些擅長推理，有些擅長創意寫作。路由器即時找出正確的組合。

負載平衡在 MoE 訓練中至關重要。如果一個專家收到所有 token（路由器「崩潰」），其他專家就浪費了。Gemma 4 使用輔助損失函式來保持專家之間的負載平衡。

Gemma 4 使用分組查詢注意力（Grouped Query Attention, GQA），這是原始多頭注意力（昂貴但高品質）和多查詢注意力（便宜但品質較低）之間的折中方案。

在 GQA 中：

這對你的意義是：KV 快取會隨著使用長上下文而增長。GQA 讓它保持在可管理的範圍，這就是 Gemma 4 能處理很長輸入而不爆掉你 VRAM 的原因。

Gemma 4 支援最多 256K tokens 的上下文——大約 20 萬字或一本 400 頁的書。以下是它的運作方式：

RoPE（旋轉位置嵌入）： 不使用在某個長度上限的固定位置 ID，RoPE 將位置編碼為旋轉。這自然地擴展到更長的序列，並對訓練中不常見的長度有更好的泛化能力。

實際上下文長度：

重要提醒： 模型支援 256K 不代表你該一直用那麼多。KV 快取隨上下文長度線性增長，注意力計算則呈二次增長。對大多數任務，8K-32K 就夠了。把長上下文留給你真正需要的時候——像是分析整個程式碼庫或完整的法律合約。

幾個架構選擇讓 Gemma 4 以小搏大：

結果：26B MoE 模型在標準基準測試中經常匹配或擊敗活躍參數多 2-3 倍的 Dense 模型。