0% read

Gemma 4 架構解析:MoE、Dense 以及為什麼重要

Apr 7, 2026

你不需要博士學位就能理解 Gemma 4 的運作方式。但了解其架構的基本原理會幫助你挑選對的模型、理解它在你的硬體上為什麼快(或慢),以及從中獲得更好的結果。

讓我們用不帶學術術語的方式來拆解。

Transformer 基礎(30 秒版本)

每個現代語言模型,包括 Gemma 4,都建構在 Transformer 架構之上。你只需要知道以下幾點:

  1. 文字輸入,以 token(詞片段)的形式
  2. 注意力層搞清楚哪些 token 彼此相關
  3. 前饋層處理這些關係
  4. 文字輸出,一次一個 token

Gemma 4 將數十個這樣的層堆疊在一起。層數越多、越寬,模型越聰明——但也越大、越慢。

Dense vs. MoE:兩種架構

Gemma 4 有兩種版本,這是理解模型陣容最重要的一件事。

Dense 模型(E2B、E4B)

在 Dense 模型中,每個參數都會為每個 token 啟動。如果模型有 40 億參數,每生成一個字就會動用全部 40 億。

把它想成一個小團隊,每個人都參與每項任務:

  • 簡單、可預測的效能
  • 所有參數都對每個回應有貢獻
  • 總量較小,執行起來直觀

MoE 模型(26B、31B)

MoE 代表混合專家(Mixture of Experts)。核心觀點是:你不需要每個 token 都用到所有參數。模型有一組專門的「專家」,一個路由器決定每個 token 啟動哪些專家。

實際上是這樣運作的:

輸入 Token → 路由器 → 選擇 16 個專家中的 2 個 → 輸出

總參數量:   260 億
每個 token 活躍:   ~38 億(26B 模型)

就像一家有專科醫生的醫院。當你手臂骨折走進去,你不需要每個醫生——你需要骨科醫師和也許一個放射科醫師。掛號台(路由器)把你送到對的專家那裡。

為什麼 26B 模型只使用 3.8B 活躍參數

這是 Gemma 4 的秘密武器。26B MoE 模型有 260 億總參數,但任何給定 token 只有約 38 億是活躍的。這意味著:

指標26B MoE等效 Dense
總參數量26B26B
每 token 活躍~3.8B26B
速度快(像 4B 模型)慢(7 倍更多計算)
品質接近 26B Dense 水準完整 26B 品質
所需 VRAM比你預期的少多得多

你得到 26B 模型的知識量和約 4B 模型的速度。這就是 MoE 如此重要的原因——它打破了品質和速度之間的傳統取捨。

要了解挑選哪個模型的實用比較,查看我們的模型選擇指南

路由器如何運作

路由器是一個小型神經網路,位於每個 MoE 層的開頭。對每個輸入 token,它會:

  1. 查看 token 的表示
  2. 為每個專家評分(這個專家與此 token 有多相關?)
  3. 挑選分數最高的 K 個專家(通常是 2 個)
  4. 用分數作為權重組合它們的輸出

路由器在訓練過程中學習哪些專家擅長什麼。隨著時間推移,不同的專家會專門化——有些擅長程式碼,有些擅長推理,有些擅長創意寫作。路由器即時找出正確的組合。

負載平衡在 MoE 訓練中至關重要。如果一個專家收到所有 token(路由器「崩潰」),其他專家就浪費了。Gemma 4 使用輔助損失函式來保持專家之間的負載平衡。

注意力機制

Gemma 4 使用分組查詢注意力(Grouped Query Attention, GQA),這是原始多頭注意力(昂貴但高品質)和多查詢注意力(便宜但品質較低)之間的折中方案。

在 GQA 中:

  • 查詢頭被分組在一起
  • 每組共享一組鍵值頭
  • 這在不太影響品質的情況下減少了 KV 快取的記憶體

這對你的意義是:KV 快取會隨著使用長上下文而增長。GQA 讓它保持在可管理的範圍,這就是 Gemma 4 能處理很長輸入而不爆掉你 VRAM 的原因。

256K 上下文視窗

Gemma 4 支援最多 256K tokens 的上下文——大約 20 萬字或一本 400 頁的書。以下是它的運作方式:

RoPE(旋轉位置嵌入): 不使用在某個長度上限的固定位置 ID,RoPE 將位置編碼為旋轉。這自然地擴展到更長的序列,並對訓練中不常見的長度有更好的泛化能力。

實際上下文長度:

上下文長度大約等於VRAM 影響
8K tokens10-15 頁文件基準
32K tokens50 頁文件~2 倍基準
128K tokens完整程式碼庫~4 倍基準
256K tokens一整本書~8 倍基準

重要提醒: 模型支援 256K 不代表你該一直用那麼多。KV 快取隨上下文長度線性增長,注意力計算則呈二次增長。對大多數任務,8K-32K 就夠了。把長上下文留給你真正需要的時候——像是分析整個程式碼庫或完整的法律合約。

為什麼 Gemma 4 每參數效率高

幾個架構選擇讓 Gemma 4 以小搏大:

  1. MoE 路由:每 token 只有 15-20% 的參數活躍
  2. GQA:減少 KV 快取記憶體
  3. SwiGLU 啟動函式:前饋層中更好的資訊流
  4. RMSNorm:比 LayerNorm 更快的正規化
  5. 最佳化的 tokenizer:256K 詞彙量高效覆蓋更多語言

結果:26B MoE 模型在標準基準測試中經常匹配或擊敗活躍參數多 2-3 倍的 Dense 模型。

架構摘要

特色E2BE4B26B31B
類型DenseDenseMoEMoE
總參數~2B~4B~26B~31B
活躍參數~2B~4B~3.8B~4.5B
專家數16(取前 2)16(取前 2)
注意力GQAGQAGQAGQA
最大上下文256K256K256K256K
最適合邊緣裝置筆電大多數使用者最高品質

這對你的意義

  • 選擇模型:如果你在 26B MoE 和相似總大小的 Dense 模型之間猶豫,MoE 會更快且品質相當。查看我們的與 Llama 4 的架構比較
  • 估算 VRAM:MoE 模型需要所有參數的 VRAM(全部都在記憶體中),但計算量隨活躍參數擴展。查看我們的硬體指南
  • 長上下文任務:從較短的上下文開始,只在需要時擴展。你的 VRAM 會感謝你。
  • 微調:MoE 模型可以用 LoRA 微調,針對注意力層和/或專家層。

下一步

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

Gemma 4 架構解析:MoE、Dense 以及為什麼重要 | 部落格