你不需要博士學位就能理解 Gemma 4 的運作方式。但了解其架構的基本原理會幫助你挑選對的模型、理解它在你的硬體上為什麼快(或慢),以及從中獲得更好的結果。
讓我們用不帶學術術語的方式來拆解。
Transformer 基礎(30 秒版本)
每個現代語言模型,包括 Gemma 4,都建構在 Transformer 架構之上。你只需要知道以下幾點:
- 文字輸入,以 token(詞片段)的形式
- 注意力層搞清楚哪些 token 彼此相關
- 前饋層處理這些關係
- 文字輸出,一次一個 token
Gemma 4 將數十個這樣的層堆疊在一起。層數越多、越寬,模型越聰明——但也越大、越慢。
Dense vs. MoE:兩種架構
Gemma 4 有兩種版本,這是理解模型陣容最重要的一件事。
Dense 模型(E2B、E4B)
在 Dense 模型中,每個參數都會為每個 token 啟動。如果模型有 40 億參數,每生成一個字就會動用全部 40 億。
把它想成一個小團隊,每個人都參與每項任務:
- 簡單、可預測的效能
- 所有參數都對每個回應有貢獻
- 總量較小,執行起來直觀
MoE 模型(26B、31B)
MoE 代表混合專家(Mixture of Experts)。核心觀點是:你不需要每個 token 都用到所有參數。模型有一組專門的「專家」,一個路由器決定每個 token 啟動哪些專家。
實際上是這樣運作的:
輸入 Token → 路由器 → 選擇 16 個專家中的 2 個 → 輸出
總參數量: 260 億
每個 token 活躍: ~38 億(26B 模型)就像一家有專科醫生的醫院。當你手臂骨折走進去,你不需要每個醫生——你需要骨科醫師和也許一個放射科醫師。掛號台(路由器)把你送到對的專家那裡。
為什麼 26B 模型只使用 3.8B 活躍參數
這是 Gemma 4 的秘密武器。26B MoE 模型有 260 億總參數,但任何給定 token 只有約 38 億是活躍的。這意味著:
| 指標 | 26B MoE | 等效 Dense |
|---|---|---|
| 總參數量 | 26B | 26B |
| 每 token 活躍 | ~3.8B | 26B |
| 速度 | 快(像 4B 模型) | 慢(7 倍更多計算) |
| 品質 | 接近 26B Dense 水準 | 完整 26B 品質 |
| 所需 VRAM | 比你預期的少 | 多得多 |
你得到 26B 模型的知識量和約 4B 模型的速度。這就是 MoE 如此重要的原因——它打破了品質和速度之間的傳統取捨。
要了解挑選哪個模型的實用比較,查看我們的模型選擇指南。
路由器如何運作
路由器是一個小型神經網路,位於每個 MoE 層的開頭。對每個輸入 token,它會:
- 查看 token 的表示
- 為每個專家評分(這個專家與此 token 有多相關?)
- 挑選分數最高的 K 個專家(通常是 2 個)
- 用分數作為權重組合它們的輸出
路由器在訓練過程中學習哪些專家擅長什麼。隨著時間推移,不同的專家會專門化——有些擅長程式碼,有些擅長推理,有些擅長創意寫作。路由器即時找出正確的組合。
負載平衡在 MoE 訓練中至關重要。如果一個專家收到所有 token(路由器「崩潰」),其他專家就浪費了。Gemma 4 使用輔助損失函式來保持專家之間的負載平衡。
注意力機制
Gemma 4 使用分組查詢注意力(Grouped Query Attention, GQA),這是原始多頭注意力(昂貴但高品質)和多查詢注意力(便宜但品質較低)之間的折中方案。
在 GQA 中:
- 查詢頭被分組在一起
- 每組共享一組鍵值頭
- 這在不太影響品質的情況下減少了 KV 快取的記憶體
這對你的意義是:KV 快取會隨著使用長上下文而增長。GQA 讓它保持在可管理的範圍,這就是 Gemma 4 能處理很長輸入而不爆掉你 VRAM 的原因。
256K 上下文視窗
Gemma 4 支援最多 256K tokens 的上下文——大約 20 萬字或一本 400 頁的書。以下是它的運作方式:
RoPE(旋轉位置嵌入): 不使用在某個長度上限的固定位置 ID,RoPE 將位置編碼為旋轉。這自然地擴展到更長的序列,並對訓練中不常見的長度有更好的泛化能力。
實際上下文長度:
| 上下文長度 | 大約等於 | VRAM 影響 |
|---|---|---|
| 8K tokens | 10-15 頁文件 | 基準 |
| 32K tokens | 50 頁文件 | ~2 倍基準 |
| 128K tokens | 完整程式碼庫 | ~4 倍基準 |
| 256K tokens | 一整本書 | ~8 倍基準 |
重要提醒: 模型支援 256K 不代表你該一直用那麼多。KV 快取隨上下文長度線性增長,注意力計算則呈二次增長。對大多數任務,8K-32K 就夠了。把長上下文留給你真正需要的時候——像是分析整個程式碼庫或完整的法律合約。
為什麼 Gemma 4 每參數效率高
幾個架構選擇讓 Gemma 4 以小搏大:
- MoE 路由:每 token 只有 15-20% 的參數活躍
- GQA:減少 KV 快取記憶體
- SwiGLU 啟動函式:前饋層中更好的資訊流
- RMSNorm:比 LayerNorm 更快的正規化
- 最佳化的 tokenizer:256K 詞彙量高效覆蓋更多語言
結果:26B MoE 模型在標準基準測試中經常匹配或擊敗活躍參數多 2-3 倍的 Dense 模型。
架構摘要
| 特色 | E2B | E4B | 26B | 31B |
|---|---|---|---|---|
| 類型 | Dense | Dense | MoE | MoE |
| 總參數 | ~2B | ~4B | ~26B | ~31B |
| 活躍參數 | ~2B | ~4B | ~3.8B | ~4.5B |
| 專家數 | 無 | 無 | 16(取前 2) | 16(取前 2) |
| 注意力 | GQA | GQA | GQA | GQA |
| 最大上下文 | 256K | 256K | 256K | 256K |
| 最適合 | 邊緣裝置 | 筆電 | 大多數使用者 | 最高品質 |
這對你的意義
- 選擇模型:如果你在 26B MoE 和相似總大小的 Dense 模型之間猶豫,MoE 會更快且品質相當。查看我們的與 Llama 4 的架構比較。
- 估算 VRAM:MoE 模型需要所有參數的 VRAM(全部都在記憶體中),但計算量隨活躍參數擴展。查看我們的硬體指南。
- 長上下文任務:從較短的上下文開始,只在需要時擴展。你的 VRAM 會感謝你。
- 微調:MoE 模型可以用 LoRA 微調,針對注意力層和/或專家層。
下一步
- 用我們的模型選擇指南挑選合適的模型
- 查看你選擇的架構的硬體需求
- 看看架構在 Mac Apple Silicon 上的效能表現
- 比較架構:Gemma 4 vs Llama 4
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


