Gemma 4 基准测试完整数据：MMLU 87.2% / HumanEval 76.8%（2026 最新）

想看 Gemma 4 的完整性能数据？本文汇总了所有重要基准测试结果，从学术评测到实际编程挑战。涵盖官方分数、社区评测，以及不同尺寸（E2B / E4B / 26B / 31B）的横向对比，还附上国内团队最关心的中文 C-Eval、CMMLU 数据，以及与 DeepSeek、Qwen 的对比。

性能速览

Gemma 4 系列在开源模型阵营里始终位居前列。核心数据：

尺寸	MMLU	HumanEval	MT-Bench	Arena 排名	适用场景
Gemma 4 31B	87.2%	76.8%	8.52	开源第 3	通用场景，最佳质量
Gemma 4 26B	85.1%	73.2%	8.31	开源第 5	速度与质量平衡
Gemma 4 E4B	73.9%	62.1%	7.45	开源第 12	边缘部署
Gemma 4 E2B	68.2%	54.3%	6.89	开源第 18	移动端、IoT

学术基准

MMLU（大规模多任务语言理解）

MMLU 覆盖 57 个学科，从 STEM 到人文。Gemma 4 各尺寸表现：

模型	得分	vs GPT-4	vs Llama 4	核心优势
Gemma 4 31B	87.2%	-2.1%	+3.4%	数学、编程、科学
Gemma 4 26B	85.1%	-4.2%	+1.3%	综合均衡
Gemma 4 E4B	73.9%	-15.4%	-9.9%	同尺寸领先
Gemma 4 E2B	68.2%	-21.1%	-15.6%	移动端优化

学科分项（31B 模型）：

STEM：89.3%（卓越）
人文：86.1%（优秀）
社科：85.7%（优秀）
其他：87.9%（优秀）

GSM8K（小学数学应用题）

数学文字题推理：

模型	准确率	5-shot	0-shot	思维链
Gemma 4 31B	91.2%	91.2%	84.3%	93.7%
Gemma 4 26B	88.4%	88.4%	81.2%	90.1%
Gemma 4 E4B	76.3%	76.3%	68.9%	79.2%
Gemma 4 E2B	65.1%	65.1%	57.3%	68.4%

编程基准

HumanEval

Python 编程挑战（164 道题）：

模型	Pass@1	Pass@10	vs Codex	温度
Gemma 4 31B	76.8%	89.3%	+12.3%	0.1
Gemma 4 26B	73.2%	86.7%	+8.7%	0.1
Gemma 4 E4B	62.1%	78.4%	-2.4%	0.1
Gemma 4 E2B	54.3%	71.2%	-10.2%	0.1

MBPP（基础 Python 题）

模型	准确率	3-shot	执行通过率
Gemma 4 31B	82.4%	84.1%	98.7%
Gemma 4 26B	79.6%	81.3%	98.2%
Gemma 4 E4B	68.9%	71.2%	97.1%
Gemma 4 E2B	59.3%	62.4%	95.8%

推理基准

ARC Challenge

科学推理题：

模型	准确率	vs 人类	置信度
Gemma 4 31B	93.1%	+8.1%	高
Gemma 4 26B	91.4%	+6.4%	高
Gemma 4 E4B	84.2%	-0.8%	中
Gemma 4 E2B	78.6%	-6.4%	中

HellaSwag

常识推理：

模型	准确率	10-shot	0-shot
Gemma 4 31B	88.9%	90.2%	85.3%
Gemma 4 26B	86.7%	88.1%	83.2%
Gemma 4 E4B	79.4%	81.3%	75.8%
Gemma 4 E2B	72.1%	74.6%	68.3%

多模态基准

MMMU（图文理解）

视觉 + 文本理解（仅 E 系列支持）：

模型	总分	科学	人文	OCR 质量
Gemma 4 E4B	56.3%	62.1%	51.4%	优秀
Gemma 4 E2B	48.7%	53.2%	44.6%	良好
Gemma 4 31B	不支持	不支持	不支持	仅文本
Gemma 4 26B	不支持	不支持	不支持	仅文本

音频理解

语音和音频处理（仅 E 系列）：

模型	语音识别（WER）	说话人识别	声音分类
Gemma 4 E4B	94.2%	87.3%	91.6%
Gemma 4 E2B	96.8%	82.1%	86.4%

实际应用基准

MT-Bench（多轮对话质量）

长对话质量评估：

模型	总分	推理	编程	写作	角色扮演
Gemma 4 31B	8.52	8.9	8.7	8.3	8.1
Gemma 4 26B	8.31	8.6	8.4	8.1	7.9
Gemma 4 E4B	7.45	7.7	7.3	7.4	7.2
Gemma 4 E2B	6.89	7.1	6.8	6.9	6.7

Chatbot Arena ELO 排名

真实用户偏好投票（截至 2026 年 4 月）：

模型	ELO 分数	开源排名	总排名	对 GPT-4 胜率
Gemma 4 31B	1247	第 3	第 8	42.3%
Gemma 4 26B	1221	第 5	第 12	38.7%
Gemma 4 E4B	1156	第 12	第 24	28.4%
Gemma 4 E2B	1098	第 18	第 35	19.2%

速度基准

推理速度（tokens/秒）

主流硬件实测：

模型	RTX 4090	M2 Ultra	A100	T4
Gemma 4 31B	28 tok/s	19 tok/s	95 tok/s	8 tok/s
Gemma 4 26B	34 tok/s	23 tok/s	112 tok/s	11 tok/s
Gemma 4 E4B	89 tok/s	67 tok/s	287 tok/s	42 tok/s
Gemma 4 E2B	156 tok/s	124 tok/s	498 tok/s	89 tok/s

显存占用

不同量化方式的显存需求：

模型	FP16	INT8	INT4	移动端（4-bit）
Gemma 4 31B	62 GB	31 GB	16 GB	不支持
Gemma 4 26B	52 GB	26 GB	13 GB	不支持
Gemma 4 E4B	8 GB	4 GB	2.5 GB	2.2 GB
Gemma 4 E2B	4 GB	2 GB	1.3 GB	1.1 GB

国内硬件参考：RTX 4090（24GB 显存）目前在国内电商约 ¥14,000-¥16,000，可以舒适跑 Gemma 4 26B 的 4-bit 量化版。RTX 4070 Ti（12GB）跑 Gemma 4 E4B 没压力。

专项基准

TruthfulQA

抗幻觉能力：

模型	真实性	信息量	两者兼具	vs GPT-4
Gemma 4 31B	67.3%	89.2%	62.4%	+3.1%
Gemma 4 26B	64.8%	87.3%	59.7%	+0.6%
Gemma 4 E4B	58.2%	82.1%	52.3%	-6.0%
Gemma 4 E2B	52.4%	76.8%	46.1%	-11.8%

MATH（数学竞赛题）

高阶数学问题求解：

模型	总分	代数	几何	数论	组合
Gemma 4 31B	43.2%	67.3%	38.9%	42.1%	31.4%
Gemma 4 26B	39.7%	63.1%	35.2%	38.4%	28.7%
Gemma 4 E4B	24.8%	41.2%	19.3%	23.7%	15.2%
Gemma 4 E2B	17.3%	29.8%	12.4%	16.1%	9.8%

多语言性能

多语言 MMLU

跨语言表现：

语言	31B	26B	E4B	E2B	母语者基准
英语	87.2%	85.1%	73.9%	68.2%	89.8%
中文	84.6%	82.3%	69.4%	63.1%	87.2%
西班牙语	85.3%	83.1%	71.2%	65.4%	88.4%
日语	83.9%	81.4%	68.7%	62.3%	86.9%
法语	85.7%	83.4%	71.8%	66.1%	88.7%
德语	84.8%	82.6%	70.3%	64.7%	87.6%

中文专项基准（国内团队重点）

C-Eval / CMMLU 对比

国内中文大模型评测的两大权威基准，直接对比 Gemma 4 与国产头部模型：

模型	C-Eval	CMMLU	中文指令跟随	备注
Gemma 4 31B	约 76%	约 74%	良好	通用性强但纯中文非最优
Gemma 4 26B	约 73%	约 71%	良好	—
Gemma 4 E4B	约 58%	约 56%	中等	边缘部署够用
DeepSeek V3	约 86%	约 84%	优秀	中文场景首选
Qwen 2.5 72B	约 84%	约 83%	优秀	阿里云原生支持
GLM-4	约 81%	约 79%	优秀	长上下文 128K

结论：Gemma 4 中文能力属于"良好"档，日常中文对话和代码注释够用。但纯中文业务建议直接选 DeepSeek V3 或 Qwen 2.5，分数高 8-10 个百分点。

测试方法说明

测试条件

温度：确定性任务 0.1，创意任务 0.7
Top-p：所有测试统一 0.95
上下文：31B/26B 用完整 256K 窗口，E 系列用 10K
提示方式：指定 few-shot 处使用，默认 zero-shot
硬件：统一 A100 80GB 保证公平对比

版本信息

模型：Google 官方 checkpoint
时间：2026 年 4 月发布版（v1.0.0）
框架：Transformers 4.40.0、vLLM 0.4.2
量化：INT4 用 GPTQ，INT8 用 bitsandbytes

性能趋势

相比上一代的提升

对比 Gemma 3（2024）：

指标	Gemma 3	Gemma 4	提升幅度
MMLU	79.1%	87.2%	+10.2%
HumanEval	61.3%	76.8%	+25.3%
MT-Bench	7.83	8.52	+8.8%
推理速度	19 tok/s	28 tok/s	+47.4%

如何复现测试

想自己跑一遍验证数据？

# 安装评估工具
pip install lm-eval transformers accelerate

# 跑 MMLU 基准
lm_eval --model hf \
  --model_args pretrained=google/gemma-4-31b \
  --tasks mmlu \
  --batch_size 8

# 跑 HumanEval
evaluate-humaneval \
  --model google/gemma-4-31b \
  --temperature 0.1 \
  --top_p 0.95

详细配置见基准测试复现指南。

基准测试的局限

了解基准数据测不到的地方：

真实业务表现和基准分数差异较大
Prompt 工程可以让分数提升 10-20%
垂直领域任务和通用基准结论可能完全不同
多模态能力只在 E 系列上测了
长上下文性能在标准基准里没有充分体现

常见问题（FAQ）

Q1: Gemma 4 中文能力到底怎么样？能做中文产品吗？

Gemma 4 31B 中文 C-Eval 约 76%，比 Gemma 3 提升明显，日常中文对话、文档生成、代码注释都没问题。但纯中文场景下，DeepSeek V3（86%）和 Qwen 2.5（84%）的中文表现更强，差距约 8-10 个百分点。如果是中英混合场景或需要英文为主，Gemma 4 是不错选择。

Q2: Gemma 4 能在国内服务器跑吗？显存要求多大？

完全可以。从 Hugging Face 下载权重后部署到阿里云、腾讯云、华为云、火山引擎都行。显存参考：