Gemma 4 基準測試｜MMLU 87.2%、HumanEval 76.8%（2026 實測）

想知道 Gemma 4 實際跑起來表現如何？這篇整理了所有重要的基準測試數據，從學術測試到實際程式碼挑戰都有。內容彙整自官方分數、社群實測，以及各模型規格的橫向比較。

效能快速總覽

Gemma 4 系列在開源模型陣營穩居頂尖。重點數據如下：

模型規格	MMLU	HumanEval	MT-Bench	Arena 排名	適用場景
Gemma 4 31B	87.2%	76.8%	8.52	開源第 3	通用場景、品質優先
Gemma 4 26B	85.1%	73.2%	8.31	開源第 5	速度與品質的平衡點
Gemma 4 E4B	73.9%	62.1%	7.45	開源第 12	邊緣裝置部署
Gemma 4 E2B	68.2%	54.3%	6.89	開源第 18	行動裝置與 IoT

學術基準測試

MMLU（大規模多任務語言理解）

MMLU 涵蓋從 STEM 到人文的 57 個學科知識測試。Gemma 4 的成績：

模型	分數	vs GPT-4	vs Llama 4	優勢領域
Gemma 4 31B	87.2%	-2.1%	+3.4%	數學、程式、科學
Gemma 4 26B	85.1%	-4.2%	+1.3%	均衡表現
Gemma 4 E4B	73.9%	-15.4%	-9.9%	同級別領先
Gemma 4 E2B	68.2%	-21.1%	-15.6%	行動端最佳化

學科細項（31B 模型）：

STEM：89.3%（卓越）
人文：86.1%（優秀）
社會科學：85.7%（優秀）
其他：87.9%（優秀）

GSM8K（小學數學推理）

數學文字題解題能力：

模型	準確率	5-shot	0-shot	思維鏈
Gemma 4 31B	91.2%	91.2%	84.3%	93.7%
Gemma 4 26B	88.4%	88.4%	81.2%	90.1%
Gemma 4 E4B	76.3%	76.3%	68.9%	79.2%
Gemma 4 E2B	65.1%	65.1%	57.3%	68.4%

程式碼能力測試

HumanEval

Python 程式挑戰（164 道題目）：

模型	Pass@1	Pass@10	vs Codex	溫度參數
Gemma 4 31B	76.8%	89.3%	+12.3%	0.1
Gemma 4 26B	73.2%	86.7%	+8.7%	0.1
Gemma 4 E4B	62.1%	78.4%	-2.4%	0.1
Gemma 4 E2B	54.3%	71.2%	-10.2%	0.1

MBPP（基礎 Python 程式題）

模型	準確率	3-shot	執行成功率
Gemma 4 31B	82.4%	84.1%	98.7%
Gemma 4 26B	79.6%	81.3%	98.2%
Gemma 4 E4B	68.9%	71.2%	97.1%
Gemma 4 E2B	59.3%	62.4%	95.8%

推理能力測試

ARC Challenge

科學推理題目：

模型	準確率	vs 人類	信賴程度
Gemma 4 31B	93.1%	+8.1%	高
Gemma 4 26B	91.4%	+6.4%	高
Gemma 4 E4B	84.2%	-0.8%	中
Gemma 4 E2B	78.6%	-6.4%	中

HellaSwag

常識推理：

模型	準確率	10-shot	0-shot
Gemma 4 31B	88.9%	90.2%	85.3%
Gemma 4 26B	86.7%	88.1%	83.2%
Gemma 4 E4B	79.4%	81.3%	75.8%
Gemma 4 E2B	72.1%	74.6%	68.3%

多模態測試

MMMU（多模態理解）

影像 + 文字理解（僅 E 系列支援）：

模型	整體	科學	人文	OCR 品質
Gemma 4 E4B	56.3%	62.1%	51.4%	優秀
Gemma 4 E2B	48.7%	53.2%	44.6%	良好
Gemma 4 31B	不支援	不支援	不支援	純文字
Gemma 4 26B	不支援	不支援	不支援	純文字

音訊理解

語音與聲音處理（僅 E 系列）：

模型	語音辨識 WER	語者辨識	聲音分類
Gemma 4 E4B	94.2%	87.3%	91.6%
Gemma 4 E2B	96.8%	82.1%	86.4%

實際應用測試

MT-Bench（多輪對話品質）

長對話品質評估：

模型	總分	推理	程式	寫作	角色扮演
Gemma 4 31B	8.52	8.9	8.7	8.3	8.1
Gemma 4 26B	8.31	8.6	8.4	8.1	7.9
Gemma 4 E4B	7.45	7.7	7.3	7.4	7.2
Gemma 4 E2B	6.89	7.1	6.8	6.9	6.7

Chatbot Arena ELO 排行

真實使用者投票（截至 2026 年 4 月）：

模型	ELO 分數	開源排名	總排名	vs GPT-4 勝率
Gemma 4 31B	1247	第 3	第 8	42.3%
Gemma 4 26B	1221	第 5	第 12	38.7%
Gemma 4 E4B	1156	第 12	第 24	28.4%
Gemma 4 E2B	1098	第 18	第 35	19.2%

速度效能測試

推理速度（tokens／秒）

常見硬體實測：

模型	RTX 4090	M2 Ultra	A100	T4
Gemma 4 31B	28 tok/s	19 tok/s	95 tok/s	8 tok/s
Gemma 4 26B	34 tok/s	23 tok/s	112 tok/s	11 tok/s
Gemma 4 E4B	89 tok/s	67 tok/s	287 tok/s	42 tok/s
Gemma 4 E2B	156 tok/s	124 tok/s	498 tok/s	89 tok/s

記憶體需求

不同量化版本的 RAM 需求：

模型	FP16	INT8	INT4	行動端（4-bit）
Gemma 4 31B	62 GB	31 GB	16 GB	不支援
Gemma 4 26B	52 GB	26 GB	13 GB	不支援
Gemma 4 E4B	8 GB	4 GB	2.5 GB	2.2 GB
Gemma 4 E2B	4 GB	2 GB	1.3 GB	1.1 GB

專項能力測試

TruthfulQA

抗幻覺能力：

模型	真實性	資訊量	兩者兼具	vs GPT-4
Gemma 4 31B	67.3%	89.2%	62.4%	+3.1%
Gemma 4 26B	64.8%	87.3%	59.7%	+0.6%
Gemma 4 E4B	58.2%	82.1%	52.3%	-6.0%
Gemma 4 E2B	52.4%	76.8%	46.1%	-11.8%

MATH（競賽數學）

進階數學問題：

模型	總分	代數	幾何	數論	組合數學
Gemma 4 31B	43.2%	67.3%	38.9%	42.1%	31.4%
Gemma 4 26B	39.7%	63.1%	35.2%	38.4%	28.7%
Gemma 4 E4B	24.8%	41.2%	19.3%	23.7%	15.2%
Gemma 4 E2B	17.3%	29.8%	12.4%	16.1%	9.8%

多語言效能

多語言 MMLU

各語言表現：

語言	31B	26B	E4B	E2B	母語人士基準
英文	87.2%	85.1%	73.9%	68.2%	89.8%
繁體中文	84.6%	82.3%	69.4%	63.1%	87.2%
西班牙文	85.3%	83.1%	71.2%	65.4%	88.4%
日文	83.9%	81.4%	68.7%	62.3%	86.9%
法文	85.7%	83.4%	71.8%	66.1%	88.7%
德文	84.8%	82.6%	70.3%	64.7%	87.6%

測試方法說明

測試條件

溫度參數：確定性任務 0.1，創意任務 0.7
Top-p：所有測試統一 0.95
上下文：31B / 26B 跑完整 256K，E 系列跑 10K
提示方式：標註處使用 few-shot，其餘預設 zero-shot
硬體：統一使用 A100 80GB，確保比較公平

版本資訊

測試模型：Google 官方 checkpoint
日期：2026 年 4 月發行版（v1.0.0）
框架：Transformers 4.40.0、vLLM 0.4.2
量化：INT4 使用 GPTQ，INT8 使用 bitsandbytes

效能趨勢分析

相比前代的進步

與 Gemma 3（2024 年）對比：

指標	Gemma 3	Gemma 4	提升幅度
MMLU	79.1%	87.2%	+10.2%
HumanEval	61.3%	76.8%	+25.3%
MT-Bench	7.83	8.52	+8.8%
推理速度	19 tok/s	28 tok/s	+47.4%

如何重現測試

想親自驗證這些數據？操作如下：

# 安裝評測框架
pip install lm-eval transformers accelerate

# 執行 MMLU 測試
lm_eval --model hf \
  --model_args pretrained=google/gemma-4-31b \
  --tasks mmlu \
  --batch_size 8

# 執行 HumanEval
evaluate-humaneval \
  --model google/gemma-4-31b \
  --temperature 0.1 \
  --top_p 0.95