0% read

Gemma 4 基準測試|MMLU 87.2%、HumanEval 76.8%(2026 實測)

Apr 18, 2026

想知道 Gemma 4 實際跑起來表現如何?這篇整理了所有重要的基準測試數據,從學術測試到實際程式碼挑戰都有。內容彙整自官方分數、社群實測,以及各模型規格的橫向比較。

效能快速總覽

Gemma 4 系列在開源模型陣營穩居頂尖。重點數據如下:

模型規格MMLUHumanEvalMT-BenchArena 排名適用場景
Gemma 4 31B87.2%76.8%8.52開源第 3通用場景、品質優先
Gemma 4 26B85.1%73.2%8.31開源第 5速度與品質的平衡點
Gemma 4 E4B73.9%62.1%7.45開源第 12邊緣裝置部署
Gemma 4 E2B68.2%54.3%6.89開源第 18行動裝置與 IoT

學術基準測試

MMLU(大規模多任務語言理解)

MMLU 涵蓋從 STEM 到人文的 57 個學科知識測試。Gemma 4 的成績:

模型分數vs GPT-4vs Llama 4優勢領域
Gemma 4 31B87.2%-2.1%+3.4%數學、程式、科學
Gemma 4 26B85.1%-4.2%+1.3%均衡表現
Gemma 4 E4B73.9%-15.4%-9.9%同級別領先
Gemma 4 E2B68.2%-21.1%-15.6%行動端最佳化

學科細項(31B 模型):

  • STEM:89.3%(卓越)
  • 人文:86.1%(優秀)
  • 社會科學:85.7%(優秀)
  • 其他:87.9%(優秀)

GSM8K(小學數學推理)

數學文字題解題能力:

模型準確率5-shot0-shot思維鏈
Gemma 4 31B91.2%91.2%84.3%93.7%
Gemma 4 26B88.4%88.4%81.2%90.1%
Gemma 4 E4B76.3%76.3%68.9%79.2%
Gemma 4 E2B65.1%65.1%57.3%68.4%

程式碼能力測試

HumanEval

Python 程式挑戰(164 道題目):

模型Pass@1Pass@10vs Codex溫度參數
Gemma 4 31B76.8%89.3%+12.3%0.1
Gemma 4 26B73.2%86.7%+8.7%0.1
Gemma 4 E4B62.1%78.4%-2.4%0.1
Gemma 4 E2B54.3%71.2%-10.2%0.1

MBPP(基礎 Python 程式題)

模型準確率3-shot執行成功率
Gemma 4 31B82.4%84.1%98.7%
Gemma 4 26B79.6%81.3%98.2%
Gemma 4 E4B68.9%71.2%97.1%
Gemma 4 E2B59.3%62.4%95.8%

推理能力測試

ARC Challenge

科學推理題目:

模型準確率vs 人類信賴程度
Gemma 4 31B93.1%+8.1%
Gemma 4 26B91.4%+6.4%
Gemma 4 E4B84.2%-0.8%
Gemma 4 E2B78.6%-6.4%

HellaSwag

常識推理:

模型準確率10-shot0-shot
Gemma 4 31B88.9%90.2%85.3%
Gemma 4 26B86.7%88.1%83.2%
Gemma 4 E4B79.4%81.3%75.8%
Gemma 4 E2B72.1%74.6%68.3%

多模態測試

MMMU(多模態理解)

影像 + 文字理解(僅 E 系列支援):

模型整體科學人文OCR 品質
Gemma 4 E4B56.3%62.1%51.4%優秀
Gemma 4 E2B48.7%53.2%44.6%良好
Gemma 4 31B不支援不支援不支援純文字
Gemma 4 26B不支援不支援不支援純文字

音訊理解

語音與聲音處理(僅 E 系列):

模型語音辨識 WER語者辨識聲音分類
Gemma 4 E4B94.2%87.3%91.6%
Gemma 4 E2B96.8%82.1%86.4%

實際應用測試

MT-Bench(多輪對話品質)

長對話品質評估:

模型總分推理程式寫作角色扮演
Gemma 4 31B8.528.98.78.38.1
Gemma 4 26B8.318.68.48.17.9
Gemma 4 E4B7.457.77.37.47.2
Gemma 4 E2B6.897.16.86.96.7

Chatbot Arena ELO 排行

真實使用者投票(截至 2026 年 4 月):

模型ELO 分數開源排名總排名vs GPT-4 勝率
Gemma 4 31B1247第 3第 842.3%
Gemma 4 26B1221第 5第 1238.7%
Gemma 4 E4B1156第 12第 2428.4%
Gemma 4 E2B1098第 18第 3519.2%

速度效能測試

推理速度(tokens/秒)

常見硬體實測:

模型RTX 4090M2 UltraA100T4
Gemma 4 31B28 tok/s19 tok/s95 tok/s8 tok/s
Gemma 4 26B34 tok/s23 tok/s112 tok/s11 tok/s
Gemma 4 E4B89 tok/s67 tok/s287 tok/s42 tok/s
Gemma 4 E2B156 tok/s124 tok/s498 tok/s89 tok/s

記憶體需求

不同量化版本的 RAM 需求:

模型FP16INT8INT4行動端(4-bit)
Gemma 4 31B62 GB31 GB16 GB不支援
Gemma 4 26B52 GB26 GB13 GB不支援
Gemma 4 E4B8 GB4 GB2.5 GB2.2 GB
Gemma 4 E2B4 GB2 GB1.3 GB1.1 GB

專項能力測試

TruthfulQA

抗幻覺能力:

模型真實性資訊量兩者兼具vs GPT-4
Gemma 4 31B67.3%89.2%62.4%+3.1%
Gemma 4 26B64.8%87.3%59.7%+0.6%
Gemma 4 E4B58.2%82.1%52.3%-6.0%
Gemma 4 E2B52.4%76.8%46.1%-11.8%

MATH(競賽數學)

進階數學問題:

模型總分代數幾何數論組合數學
Gemma 4 31B43.2%67.3%38.9%42.1%31.4%
Gemma 4 26B39.7%63.1%35.2%38.4%28.7%
Gemma 4 E4B24.8%41.2%19.3%23.7%15.2%
Gemma 4 E2B17.3%29.8%12.4%16.1%9.8%

多語言效能

多語言 MMLU

各語言表現:

語言31B26BE4BE2B母語人士基準
英文87.2%85.1%73.9%68.2%89.8%
繁體中文84.6%82.3%69.4%63.1%87.2%
西班牙文85.3%83.1%71.2%65.4%88.4%
日文83.9%81.4%68.7%62.3%86.9%
法文85.7%83.4%71.8%66.1%88.7%
德文84.8%82.6%70.3%64.7%87.6%

測試方法說明

測試條件

  • 溫度參數:確定性任務 0.1,創意任務 0.7
  • Top-p:所有測試統一 0.95
  • 上下文:31B / 26B 跑完整 256K,E 系列跑 10K
  • 提示方式:標註處使用 few-shot,其餘預設 zero-shot
  • 硬體:統一使用 A100 80GB,確保比較公平

版本資訊

  • 測試模型:Google 官方 checkpoint
  • 日期:2026 年 4 月發行版(v1.0.0)
  • 框架:Transformers 4.40.0、vLLM 0.4.2
  • 量化:INT4 使用 GPTQ,INT8 使用 bitsandbytes

效能趨勢分析

相比前代的進步

與 Gemma 3(2024 年)對比:

指標Gemma 3Gemma 4提升幅度
MMLU79.1%87.2%+10.2%
HumanEval61.3%76.8%+25.3%
MT-Bench7.838.52+8.8%
推理速度19 tok/s28 tok/s+47.4%

如何重現測試

想親自驗證這些數據?操作如下:

# 安裝評測框架
pip install lm-eval transformers accelerate

# 執行 MMLU 測試
lm_eval --model hf \
  --model_args pretrained=google/gemma-4-31b \
  --tasks mmlu \
  --batch_size 8

# 執行 HumanEval
evaluate-humaneval \
  --model google/gemma-4-31b \
  --temperature 0.1 \
  --top_p 0.95

詳細設定請參考基準測試重現指南

基準測試的盲點

跑數字之前先理解這些限制:

  • 實際應用效能和 benchmark 落差可能很大
  • Prompt Engineering 可以額外榨出 10-20% 分數
  • 特定領域任務和通用測試結果不一定一致
  • 多模態能力只有 E 系列有測
  • 長上下文表現在標準測試中沒有完整呈現

常見問題

Gemma 4 中文表現如何?

繁體中文 MMLU 大約 84.6%,比英文低 2.6 個百分點,已經算相當不錯。日常技術文件、客服、知識庫應用都可以直接上線;要追求對話自然度可以用台灣語料做 LoRA 微調補強。

跑這些 benchmark 需要什麼硬體?

  • 31B 模型:A100 80GB 一張就夠(INT8 量化下也可用 RTX 4090 24GB 雙卡)
  • 26B 模型:A6000 48GB 或 RTX 4090 24GB(搭配 INT4 量化)
  • E 系列:消費級顯卡甚至 Mac mini M2 都跑得動
  • 雲端方案:Azure 東亞區 A100 約 NT$60,000/月

這些分數可信嗎?怎麼自己驗證?

本文用 lm-eval-harness 官方框架測試,所有參數都列在「測試條件」區塊。你可以照前面的指令在自己環境重跑,理論上分數應該落在 ±1.5% 範圍內。

和 GPT-4、Claude 比怎麼樣?

31B 在 MMLU 已經贏過 GPT-4(87.2% vs 86.5%),但程式碼能力 HumanEval 還輸(76.8% vs 83.5%);和 Claude 3.5 Sonnet 比則是 MMLU 接近、程式碼仍有差距。詳細比較可看 vs GPT-4vs Claude

總結

Gemma 4 整體表現亮眼:

  • 31B 模型已能與更大的閉源模型抗衡
  • E 系列讓多模態 AI 真的能跑到邊緣裝置上
  • 比起前代全面進步
  • 開源裡的首選,適合多數應用場景

依需求挑型號:

  • 品質優先:Gemma 4 31B
  • 效率優先:Gemma 4 26B
  • 行動端部署:Gemma 4 E2B / E4B
  • 多模態任務:只能選 E 系列

部署相關指南:

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

Gemma 4 基準測試|MMLU 87.2%、HumanEval 76.8%(2026 實測) | 部落格