Meta 在 2026 年 4 月推出了旗艦開源模型的升級版 Llama 4.1,在程式撰寫與指令跟隨上相較 Llama 4 Maverick 有明顯改進。同一時間,Google 的 Gemma 4 已經是大部分想在自己伺服器或筆電上跑模型的團隊的首選。如果你正卡在這兩個模型之間選不下手,這篇整理一份不偏袒的對比。
規格速覽
| 項目 | Gemma 4 (31B Dense) | Llama 4.1 (Maverick 400B MoE) |
|---|---|---|
| 開發方 | Google DeepMind | Meta AI |
| 參數規模 | E2B / E4B / 26B MoE / 31B Dense | 70B / 400B MoE |
| 上下文長度 | 256K tokens | 10M tokens |
| 多模態 | 文字+圖像+音訊+影片 | 文字+圖像 |
| 語言支援 | 140+ 種 | 28 種 |
| 授權 | Apache 2.0 | Llama License |
| 終端裝置部署 | 支援(E2B / E4B) | 不支援 |
| 訓練截止 | 2026 年 1 月 | 2026 年 3 月 |
懶人包:Gemma 4 在行動裝置、多語言、開放授權這三項完勝;Llama 4.1 只在純跑分和超長上下文有優勢,而且前提是你得有 GPU 跑得動。
跑分深度剖析
以下數字來自 2026 年 4 月官方公佈資料,除非特別註明皆為 FP16 精度:
| 測試項目 | Gemma 4 31B | Llama 4.1 70B | Llama 4.1 400B MoE |
|---|---|---|---|
| MMLU | 87.1% | 88.9% | 91.2% |
| HumanEval(程式) | 82.7% | 85.4% | 89.1% |
| MATH | 68.5% | 71.2% | 75.8% |
| MT-Bench | 8.7 | 8.8 | 9.0 |
| TruthfulQA | 68.9% | 70.1% | 72.3% |
帳面分數 Llama 4.1 每一項都領先。但別忽略參數差距:Gemma 4 31B 用大約 1/12 的參數量就拿下 Llama 4.1 400B 約 92–95% 的品質。如果用「每一塊錢算力能換多少品質」來看,Gemma 4 幾乎都贏。
語言任務的差距更明顯:
- 繁體中文 (TMMLU+): Gemma 4 約 83%、Llama 4.1 約 70%
- 日文 (JGLUE): Gemma 4 約 81%、Llama 4.1 約 68%
- 東南亞語系(印尼/越南/泰語): Gemma 4 與英文差距大約 5 分內;Llama 4.1 下滑 15–25 分
對台灣團隊來說,繁中那 13 分的差距幾乎就是「可以上線」與「還要人工校潤」的分水嶺。
硬體需求
跑 Gemma 4
| 版本 | FP16 記憶體 | Q4 記憶體 | 常見硬體 |
|---|---|---|---|
| E2B | 4 GB | 1.5 GB | iPhone 15 Pro、中階 Android |
| E4B | 8 GB | 2.5 GB | MacBook Air M2、Chromebook |
| 26B MoE | 54 GB | 14 GB | RTX 4090 (Q4) |
| 31B Dense | 62 GB | 16 GB | RTX 4090 (Q4)、單卡 A100 (FP16) |
跑 Llama 4.1
| 版本 | FP16 記憶體 | Q4 記憶體 | 常見硬體 |
|---|---|---|---|
| 70B | 140 GB | 39 GB | 2× RTX 4090 (Q4)、單卡 A100 80GB (FP16) |
| 400B MoE | 800+ GB(部分載入) | 220 GB | 4–8 卡 A100 80GB 叢集 |
400B MoE 版本不管怎麼量化都塞不進消費級硬體。如果你是本地部署,實際比的是 Gemma 4 31B vs Llama 4.1 70B,差距會縮小不少。在台灣如果你跟雲廠商租 A100 的話,單卡月費大約在 TWD 45,000–60,000 區間,算一算就知道自建划不划算。
推論速度
同硬體、同 4-bit 量化:
| 硬體 | Gemma 4 31B Q4 | Llama 4.1 70B Q4 |
|---|---|---|
| RTX 4090 (24 GB) | 約 35 tok/s | 塞不下 |
| 2× RTX 4090 (48 GB) | 約 45 tok/s | 約 18 tok/s |
| A100 80GB (FP16) | 約 55 tok/s | 約 28 tok/s(僅 Q4) |
在它跑得舒服的尺寸上,Gemma 4 速度約快一倍,而且可以跑在 Llama 4.1 70B 跑不動的機器上。
什麼情況選哪個
選 Gemma 4 的情境:
- 要部署在手機、筆電、邊緣裝置,手邊沒有資料中心等級 GPU
- 使用者主要講中文、日文或其他非英語語言
- 需要多模態(音訊、影片)——Llama 4.1 做不到
- 需要 Apache 2.0 的自由度(沒有使用者數上限,商用授權不用特別審核)
- 在意每一塊錢能買到多少模型品質
選 Llama 4.1 的情境:
- 要 MMLU / HumanEval 的絕對最高分
- 要處理超過 256K tokens 的超長文件(10M 上下文對大型程式碼庫分析真的有用)
- 已經建好多 GPU 叢集
- 純英文業務,多語言優勢用不到
部署方式
用 Ollama 跑 Gemma 4
ollama pull gemma4:31b
ollama run gemma4:31b行動裝置部署請見 行動裝置部署指南,裡面有 E2B/E4B 在 iPhone 與 Android 的實作流程。
用 Ollama 跑 Llama 4.1
ollama pull llama4.1:70b
ollama run llama4.1:70b400B MoE 目前只能透過雲端供應商(Meta、AWS Bedrock、Azure)使用,本地 Ollama 還跑不起來。
成本比較
自建伺服器(首年)
Gemma 4 31B:
- 硬體:RTX 4090 約 TWD 58,000
- 電費:約 TWD 1,100/月
- 首年合計:約 TWD 71,000
Llama 4.1 70B:
- 硬體:2× RTX 4090 或單卡 A100,約 TWD 135,000 / TWD 480,000
- 電費:約 TWD 2,900/月
- 首年合計:約 TWD 170,000(雙 4090 方案)
API 價格(每百萬 tokens,2026 年 4 月)
| 模型 | 輸入 | 輸出 |
|---|---|---|
| Gemma 4 31B(Google Cloud) | TWD 8 | TWD 16 |
| Llama 4.1 70B(AWS Bedrock) | TWD 24 | TWD 32 |
| Llama 4.1 400B MoE(AWS Bedrock) | TWD 72 | TWD 96 |
在同等輸出品質下,自建 Gemma 4 通常 3–6 個月就能追平 Llama 4.1 的 API 費用——只要你有持續性的使用量。
遷移注意事項
Llama 3.x / Llama 4 → Llama 4.1: 基本上直接替換就行。tokenizer 向後相容,程式撰寫與推理能力提升 10–15%。
Gemma 2 / Gemma 3 → Gemma 4: tokenizer 有更新,原生函式呼叫取代了過去的 JSON 解析方式。詳見 Gemma 4 架構變更。
跨家族遷移(Gemma ↔ Llama): 微調權重無法直接移植。如果你有上線中的 fine-tune,請預留 1–2 週重新訓練。
合規與個資保護(台港視角)
台灣團隊若要上線商用,有幾件事要注意:
- 《個人資料保護法》: 本地部署 Gemma 4 可避免使用者資料外傳第三方,相較於直接叫 ChatGPT / Claude 的 API 少了跨境傳輸問題
- 香港 PDPO: 2022 年修訂後對跨境傳輸的要求也明顯提高,本地部署同樣是較穩妥做法
- 金融業: 金管會對生成式 AI 有另行指引,外部 API 方案通常需要額外風險評估
Llama License 的月活 7 億使用者門檻對絕大多數台港團隊都不是問題,但法務盡調時仍可能被問。Apache 2.0 在這一塊沒有任何灰色地帶。
FAQ
繁中能力誰比較強?
Gemma 4,差距很明顯。繁中測試 (TMMLU+) Gemma 4 31B 約 83%、Llama 4.1 70B 約 70%。Gemma 4 原生訓練 140+ 種語言,包含台灣用語與香港粵語書面語;Llama 4.1 只有 28 種,繁中輸出常常會夾雜簡體詞彙。
消費級顯示卡能跑哪個?
RTX 4090 24GB 單卡可跑 Gemma 4 31B Q4(約 35 tok/s)與 26B MoE。Llama 4.1 70B 至少要雙 4090 或一張 A100。如果你是用 RTX 5090(32GB),Gemma 4 31B 甚至可以上 FP8 精度。
MacBook 跑得動嗎?
Gemma 4 E2B 與 E4B 在所有 Apple Silicon 上都很順。Gemma 4 26B MoE / 31B Dense 建議 M2 Max 或 M3 Pro 搭 32GB 以上統一記憶體。Llama 4.1 70B 需要 M3 Ultra 64GB 以上,速度約 8 tok/s。Llama 4.1 400B 在任何 Mac 上都不實際。
和 TAIDE、MediaTek Llama 比呢?
TAIDE 是國科會基於 Llama 微調的繁中模型,繁中表達上比原生 Llama 好,但整體能力還是輸 Gemma 4。MediaTek Llama 則偏向行動端優化。若你要求繁中表現 + 多模態 + Apache 2.0 三者兼顧,目前 Gemma 4 仍是最佳選擇。
商用授權要注意什麼?
Gemma 4 Apache 2.0,沒有任何限制。Llama 4.1 的 Llama License 在月活 7 億以上需要另行商用授權(99.9% 的團隊遇不到),但在軟體供應商盡調、A 輪以上募資法律審查時,Apache 2.0 的乾淨度還是比較受歡迎。
從 Llama 遷到 Gemma 要多少工?
若只是直接換推理模型(沒做過 fine-tune),改幾行程式就行。如果有 fine-tune 權重,無法直接移植,預計 1–2 週重跑訓練。Gemma 4 原生支援 LoRA,訓練成本比 Llama 4 低。
會有 Gemma 5 嗎?
Google 到 2026 年 4 月為止尚未公布 Gemma 5 的時程。預期在下一代大版本前,Gemma 4 會繼續推小版本更新(多模態改進、更長上下文等)。
延伸閱讀
- Gemma 4 vs Llama 4 (Maverick) 比較 — 還在用 Llama 4 時先看這篇
- Gemma 4 跑分完整解讀 — 所有測試一次看懂
- Gemma 4 26B vs 31B — Gemma 4 家族裡 MoE vs Dense 怎麼選
- Gemma 4 行動裝置部署 — E2B/E4B 跑在手機上
- Ollama 跑 Gemma 4 入門 — 新手從這篇開始
結論
對 2026 年 4 月要挑開源大模型的 90% 開發者來說,Gemma 4 就是預設答案。跑在你已有的硬體上、講你使用者的語言,授權乾淨到法務連看都懶得看。
Llama 4.1 只有在這三種情況下值得選:(1) 需要英文跑分的絕對最高值;(2) 要處理超過 256K tokens 的超長上下文;(3) 已經有多 GPU 叢集,400B MoE 能真的發揮。除此之外都是大砲打小鳥。
最後更新:2026 年 4 月 18 日。跑分資料來自官方公告與社群實測。
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


