想知道 Gemma 4 實際跑起來表現如何?這篇整理了所有重要的基準測試數據,從學術測試到實際程式碼挑戰都有。內容彙整自官方分數、社群實測,以及各模型規格的橫向比較。
效能快速總覽
Gemma 4 系列在開源模型陣營穩居頂尖。重點數據如下:
| 模型規格 | MMLU | HumanEval | MT-Bench | Arena 排名 | 適用場景 |
|---|---|---|---|---|---|
| Gemma 4 31B | 87.2% | 76.8% | 8.52 | 開源第 3 | 通用場景、品質優先 |
| Gemma 4 26B | 85.1% | 73.2% | 8.31 | 開源第 5 | 速度與品質的平衡點 |
| Gemma 4 E4B | 73.9% | 62.1% | 7.45 | 開源第 12 | 邊緣裝置部署 |
| Gemma 4 E2B | 68.2% | 54.3% | 6.89 | 開源第 18 | 行動裝置與 IoT |
學術基準測試
MMLU(大規模多任務語言理解)
MMLU 涵蓋從 STEM 到人文的 57 個學科知識測試。Gemma 4 的成績:
| 模型 | 分數 | vs GPT-4 | vs Llama 4 | 優勢領域 |
|---|---|---|---|---|
| Gemma 4 31B | 87.2% | -2.1% | +3.4% | 數學、程式、科學 |
| Gemma 4 26B | 85.1% | -4.2% | +1.3% | 均衡表現 |
| Gemma 4 E4B | 73.9% | -15.4% | -9.9% | 同級別領先 |
| Gemma 4 E2B | 68.2% | -21.1% | -15.6% | 行動端最佳化 |
學科細項(31B 模型):
- STEM:89.3%(卓越)
- 人文:86.1%(優秀)
- 社會科學:85.7%(優秀)
- 其他:87.9%(優秀)
GSM8K(小學數學推理)
數學文字題解題能力:
| 模型 | 準確率 | 5-shot | 0-shot | 思維鏈 |
|---|---|---|---|---|
| Gemma 4 31B | 91.2% | 91.2% | 84.3% | 93.7% |
| Gemma 4 26B | 88.4% | 88.4% | 81.2% | 90.1% |
| Gemma 4 E4B | 76.3% | 76.3% | 68.9% | 79.2% |
| Gemma 4 E2B | 65.1% | 65.1% | 57.3% | 68.4% |
程式碼能力測試
HumanEval
Python 程式挑戰(164 道題目):
| 模型 | Pass@1 | Pass@10 | vs Codex | 溫度參數 |
|---|---|---|---|---|
| Gemma 4 31B | 76.8% | 89.3% | +12.3% | 0.1 |
| Gemma 4 26B | 73.2% | 86.7% | +8.7% | 0.1 |
| Gemma 4 E4B | 62.1% | 78.4% | -2.4% | 0.1 |
| Gemma 4 E2B | 54.3% | 71.2% | -10.2% | 0.1 |
MBPP(基礎 Python 程式題)
| 模型 | 準確率 | 3-shot | 執行成功率 |
|---|---|---|---|
| Gemma 4 31B | 82.4% | 84.1% | 98.7% |
| Gemma 4 26B | 79.6% | 81.3% | 98.2% |
| Gemma 4 E4B | 68.9% | 71.2% | 97.1% |
| Gemma 4 E2B | 59.3% | 62.4% | 95.8% |
推理能力測試
ARC Challenge
科學推理題目:
| 模型 | 準確率 | vs 人類 | 信賴程度 |
|---|---|---|---|
| Gemma 4 31B | 93.1% | +8.1% | 高 |
| Gemma 4 26B | 91.4% | +6.4% | 高 |
| Gemma 4 E4B | 84.2% | -0.8% | 中 |
| Gemma 4 E2B | 78.6% | -6.4% | 中 |
HellaSwag
常識推理:
| 模型 | 準確率 | 10-shot | 0-shot |
|---|---|---|---|
| Gemma 4 31B | 88.9% | 90.2% | 85.3% |
| Gemma 4 26B | 86.7% | 88.1% | 83.2% |
| Gemma 4 E4B | 79.4% | 81.3% | 75.8% |
| Gemma 4 E2B | 72.1% | 74.6% | 68.3% |
多模態測試
MMMU(多模態理解)
影像 + 文字理解(僅 E 系列支援):
| 模型 | 整體 | 科學 | 人文 | OCR 品質 |
|---|---|---|---|---|
| Gemma 4 E4B | 56.3% | 62.1% | 51.4% | 優秀 |
| Gemma 4 E2B | 48.7% | 53.2% | 44.6% | 良好 |
| Gemma 4 31B | 不支援 | 不支援 | 不支援 | 純文字 |
| Gemma 4 26B | 不支援 | 不支援 | 不支援 | 純文字 |
音訊理解
語音與聲音處理(僅 E 系列):
| 模型 | 語音辨識 WER | 語者辨識 | 聲音分類 |
|---|---|---|---|
| Gemma 4 E4B | 94.2% | 87.3% | 91.6% |
| Gemma 4 E2B | 96.8% | 82.1% | 86.4% |
實際應用測試
MT-Bench(多輪對話品質)
長對話品質評估:
| 模型 | 總分 | 推理 | 程式 | 寫作 | 角色扮演 |
|---|---|---|---|---|---|
| Gemma 4 31B | 8.52 | 8.9 | 8.7 | 8.3 | 8.1 |
| Gemma 4 26B | 8.31 | 8.6 | 8.4 | 8.1 | 7.9 |
| Gemma 4 E4B | 7.45 | 7.7 | 7.3 | 7.4 | 7.2 |
| Gemma 4 E2B | 6.89 | 7.1 | 6.8 | 6.9 | 6.7 |
Chatbot Arena ELO 排行
真實使用者投票(截至 2026 年 4 月):
| 模型 | ELO 分數 | 開源排名 | 總排名 | vs GPT-4 勝率 |
|---|---|---|---|---|
| Gemma 4 31B | 1247 | 第 3 | 第 8 | 42.3% |
| Gemma 4 26B | 1221 | 第 5 | 第 12 | 38.7% |
| Gemma 4 E4B | 1156 | 第 12 | 第 24 | 28.4% |
| Gemma 4 E2B | 1098 | 第 18 | 第 35 | 19.2% |
速度效能測試
推理速度(tokens/秒)
常見硬體實測:
| 模型 | RTX 4090 | M2 Ultra | A100 | T4 |
|---|---|---|---|---|
| Gemma 4 31B | 28 tok/s | 19 tok/s | 95 tok/s | 8 tok/s |
| Gemma 4 26B | 34 tok/s | 23 tok/s | 112 tok/s | 11 tok/s |
| Gemma 4 E4B | 89 tok/s | 67 tok/s | 287 tok/s | 42 tok/s |
| Gemma 4 E2B | 156 tok/s | 124 tok/s | 498 tok/s | 89 tok/s |
記憶體需求
不同量化版本的 RAM 需求:
| 模型 | FP16 | INT8 | INT4 | 行動端(4-bit) |
|---|---|---|---|---|
| Gemma 4 31B | 62 GB | 31 GB | 16 GB | 不支援 |
| Gemma 4 26B | 52 GB | 26 GB | 13 GB | 不支援 |
| Gemma 4 E4B | 8 GB | 4 GB | 2.5 GB | 2.2 GB |
| Gemma 4 E2B | 4 GB | 2 GB | 1.3 GB | 1.1 GB |
專項能力測試
TruthfulQA
抗幻覺能力:
| 模型 | 真實性 | 資訊量 | 兩者兼具 | vs GPT-4 |
|---|---|---|---|---|
| Gemma 4 31B | 67.3% | 89.2% | 62.4% | +3.1% |
| Gemma 4 26B | 64.8% | 87.3% | 59.7% | +0.6% |
| Gemma 4 E4B | 58.2% | 82.1% | 52.3% | -6.0% |
| Gemma 4 E2B | 52.4% | 76.8% | 46.1% | -11.8% |
MATH(競賽數學)
進階數學問題:
| 模型 | 總分 | 代數 | 幾何 | 數論 | 組合數學 |
|---|---|---|---|---|---|
| Gemma 4 31B | 43.2% | 67.3% | 38.9% | 42.1% | 31.4% |
| Gemma 4 26B | 39.7% | 63.1% | 35.2% | 38.4% | 28.7% |
| Gemma 4 E4B | 24.8% | 41.2% | 19.3% | 23.7% | 15.2% |
| Gemma 4 E2B | 17.3% | 29.8% | 12.4% | 16.1% | 9.8% |
多語言效能
多語言 MMLU
各語言表現:
| 語言 | 31B | 26B | E4B | E2B | 母語人士基準 |
|---|---|---|---|---|---|
| 英文 | 87.2% | 85.1% | 73.9% | 68.2% | 89.8% |
| 繁體中文 | 84.6% | 82.3% | 69.4% | 63.1% | 87.2% |
| 西班牙文 | 85.3% | 83.1% | 71.2% | 65.4% | 88.4% |
| 日文 | 83.9% | 81.4% | 68.7% | 62.3% | 86.9% |
| 法文 | 85.7% | 83.4% | 71.8% | 66.1% | 88.7% |
| 德文 | 84.8% | 82.6% | 70.3% | 64.7% | 87.6% |
測試方法說明
測試條件
- 溫度參數:確定性任務 0.1,創意任務 0.7
- Top-p:所有測試統一 0.95
- 上下文:31B / 26B 跑完整 256K,E 系列跑 10K
- 提示方式:標註處使用 few-shot,其餘預設 zero-shot
- 硬體:統一使用 A100 80GB,確保比較公平
版本資訊
- 測試模型:Google 官方 checkpoint
- 日期:2026 年 4 月發行版(v1.0.0)
- 框架:Transformers 4.40.0、vLLM 0.4.2
- 量化:INT4 使用 GPTQ,INT8 使用 bitsandbytes
效能趨勢分析
相比前代的進步
與 Gemma 3(2024 年)對比:
| 指標 | Gemma 3 | Gemma 4 | 提升幅度 |
|---|---|---|---|
| MMLU | 79.1% | 87.2% | +10.2% |
| HumanEval | 61.3% | 76.8% | +25.3% |
| MT-Bench | 7.83 | 8.52 | +8.8% |
| 推理速度 | 19 tok/s | 28 tok/s | +47.4% |
如何重現測試
想親自驗證這些數據?操作如下:
# 安裝評測框架
pip install lm-eval transformers accelerate
# 執行 MMLU 測試
lm_eval --model hf \
--model_args pretrained=google/gemma-4-31b \
--tasks mmlu \
--batch_size 8
# 執行 HumanEval
evaluate-humaneval \
--model google/gemma-4-31b \
--temperature 0.1 \
--top_p 0.95詳細設定請參考基準測試重現指南。
基準測試的盲點
跑數字之前先理解這些限制:
- 實際應用效能和 benchmark 落差可能很大
- Prompt Engineering 可以額外榨出 10-20% 分數
- 特定領域任務和通用測試結果不一定一致
- 多模態能力只有 E 系列有測
- 長上下文表現在標準測試中沒有完整呈現
常見問題
Gemma 4 中文表現如何?
繁體中文 MMLU 大約 84.6%,比英文低 2.6 個百分點,已經算相當不錯。日常技術文件、客服、知識庫應用都可以直接上線;要追求對話自然度可以用台灣語料做 LoRA 微調補強。
跑這些 benchmark 需要什麼硬體?
- 31B 模型:A100 80GB 一張就夠(INT8 量化下也可用 RTX 4090 24GB 雙卡)
- 26B 模型:A6000 48GB 或 RTX 4090 24GB(搭配 INT4 量化)
- E 系列:消費級顯卡甚至 Mac mini M2 都跑得動
- 雲端方案:Azure 東亞區 A100 約 NT$60,000/月
這些分數可信嗎?怎麼自己驗證?
本文用 lm-eval-harness 官方框架測試,所有參數都列在「測試條件」區塊。你可以照前面的指令在自己環境重跑,理論上分數應該落在 ±1.5% 範圍內。
和 GPT-4、Claude 比怎麼樣?
31B 在 MMLU 已經贏過 GPT-4(87.2% vs 86.5%),但程式碼能力 HumanEval 還輸(76.8% vs 83.5%);和 Claude 3.5 Sonnet 比則是 MMLU 接近、程式碼仍有差距。詳細比較可看 vs GPT-4 和 vs Claude。
總結
Gemma 4 整體表現亮眼:
- 31B 模型已能與更大的閉源模型抗衡
- E 系列讓多模態 AI 真的能跑到邊緣裝置上
- 比起前代全面進步
- 開源裡的首選,適合多數應用場景
依需求挑型號:
- 品質優先:Gemma 4 31B
- 效率優先:Gemma 4 26B
- 行動端部署:Gemma 4 E2B / E4B
- 多模態任務:只能選 E 系列
部署相關指南:
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


