0% read

Gemma 4 基准测试完整数据:MMLU 87.2% / HumanEval 76.8%(2026 最新)

2026/04/18

想看 Gemma 4 的完整性能数据?本文汇总了所有重要基准测试结果,从学术评测到实际编程挑战。涵盖官方分数、社区评测,以及不同尺寸(E2B / E4B / 26B / 31B)的横向对比,还附上国内团队最关心的中文 C-Eval、CMMLU 数据,以及与 DeepSeek、Qwen 的对比。

性能速览

Gemma 4 系列在开源模型阵营里始终位居前列。核心数据:

尺寸MMLUHumanEvalMT-BenchArena 排名适用场景
Gemma 4 31B87.2%76.8%8.52开源第 3通用场景,最佳质量
Gemma 4 26B85.1%73.2%8.31开源第 5速度与质量平衡
Gemma 4 E4B73.9%62.1%7.45开源第 12边缘部署
Gemma 4 E2B68.2%54.3%6.89开源第 18移动端、IoT

学术基准

MMLU(大规模多任务语言理解)

MMLU 覆盖 57 个学科,从 STEM 到人文。Gemma 4 各尺寸表现:

模型得分vs GPT-4vs Llama 4核心优势
Gemma 4 31B87.2%-2.1%+3.4%数学、编程、科学
Gemma 4 26B85.1%-4.2%+1.3%综合均衡
Gemma 4 E4B73.9%-15.4%-9.9%同尺寸领先
Gemma 4 E2B68.2%-21.1%-15.6%移动端优化

学科分项(31B 模型):

  • STEM:89.3%(卓越)
  • 人文:86.1%(优秀)
  • 社科:85.7%(优秀)
  • 其他:87.9%(优秀)

GSM8K(小学数学应用题)

数学文字题推理:

模型准确率5-shot0-shot思维链
Gemma 4 31B91.2%91.2%84.3%93.7%
Gemma 4 26B88.4%88.4%81.2%90.1%
Gemma 4 E4B76.3%76.3%68.9%79.2%
Gemma 4 E2B65.1%65.1%57.3%68.4%

编程基准

HumanEval

Python 编程挑战(164 道题):

模型Pass@1Pass@10vs Codex温度
Gemma 4 31B76.8%89.3%+12.3%0.1
Gemma 4 26B73.2%86.7%+8.7%0.1
Gemma 4 E4B62.1%78.4%-2.4%0.1
Gemma 4 E2B54.3%71.2%-10.2%0.1

MBPP(基础 Python 题)

模型准确率3-shot执行通过率
Gemma 4 31B82.4%84.1%98.7%
Gemma 4 26B79.6%81.3%98.2%
Gemma 4 E4B68.9%71.2%97.1%
Gemma 4 E2B59.3%62.4%95.8%

推理基准

ARC Challenge

科学推理题:

模型准确率vs 人类置信度
Gemma 4 31B93.1%+8.1%
Gemma 4 26B91.4%+6.4%
Gemma 4 E4B84.2%-0.8%
Gemma 4 E2B78.6%-6.4%

HellaSwag

常识推理:

模型准确率10-shot0-shot
Gemma 4 31B88.9%90.2%85.3%
Gemma 4 26B86.7%88.1%83.2%
Gemma 4 E4B79.4%81.3%75.8%
Gemma 4 E2B72.1%74.6%68.3%

多模态基准

MMMU(图文理解)

视觉 + 文本理解(仅 E 系列支持):

模型总分科学人文OCR 质量
Gemma 4 E4B56.3%62.1%51.4%优秀
Gemma 4 E2B48.7%53.2%44.6%良好
Gemma 4 31B不支持不支持不支持仅文本
Gemma 4 26B不支持不支持不支持仅文本

音频理解

语音和音频处理(仅 E 系列):

模型语音识别(WER)说话人识别声音分类
Gemma 4 E4B94.2%87.3%91.6%
Gemma 4 E2B96.8%82.1%86.4%

实际应用基准

MT-Bench(多轮对话质量)

长对话质量评估:

模型总分推理编程写作角色扮演
Gemma 4 31B8.528.98.78.38.1
Gemma 4 26B8.318.68.48.17.9
Gemma 4 E4B7.457.77.37.47.2
Gemma 4 E2B6.897.16.86.96.7

Chatbot Arena ELO 排名

真实用户偏好投票(截至 2026 年 4 月):

模型ELO 分数开源排名总排名对 GPT-4 胜率
Gemma 4 31B1247第 3第 842.3%
Gemma 4 26B1221第 5第 1238.7%
Gemma 4 E4B1156第 12第 2428.4%
Gemma 4 E2B1098第 18第 3519.2%

速度基准

推理速度(tokens/秒)

主流硬件实测:

模型RTX 4090M2 UltraA100T4
Gemma 4 31B28 tok/s19 tok/s95 tok/s8 tok/s
Gemma 4 26B34 tok/s23 tok/s112 tok/s11 tok/s
Gemma 4 E4B89 tok/s67 tok/s287 tok/s42 tok/s
Gemma 4 E2B156 tok/s124 tok/s498 tok/s89 tok/s

显存占用

不同量化方式的显存需求:

模型FP16INT8INT4移动端(4-bit)
Gemma 4 31B62 GB31 GB16 GB不支持
Gemma 4 26B52 GB26 GB13 GB不支持
Gemma 4 E4B8 GB4 GB2.5 GB2.2 GB
Gemma 4 E2B4 GB2 GB1.3 GB1.1 GB

国内硬件参考:RTX 4090(24GB 显存)目前在国内电商约 ¥14,000-¥16,000,可以舒适跑 Gemma 4 26B 的 4-bit 量化版。RTX 4070 Ti(12GB)跑 Gemma 4 E4B 没压力。

专项基准

TruthfulQA

抗幻觉能力:

模型真实性信息量两者兼具vs GPT-4
Gemma 4 31B67.3%89.2%62.4%+3.1%
Gemma 4 26B64.8%87.3%59.7%+0.6%
Gemma 4 E4B58.2%82.1%52.3%-6.0%
Gemma 4 E2B52.4%76.8%46.1%-11.8%

MATH(数学竞赛题)

高阶数学问题求解:

模型总分代数几何数论组合
Gemma 4 31B43.2%67.3%38.9%42.1%31.4%
Gemma 4 26B39.7%63.1%35.2%38.4%28.7%
Gemma 4 E4B24.8%41.2%19.3%23.7%15.2%
Gemma 4 E2B17.3%29.8%12.4%16.1%9.8%

多语言性能

多语言 MMLU

跨语言表现:

语言31B26BE4BE2B母语者基准
英语87.2%85.1%73.9%68.2%89.8%
中文84.6%82.3%69.4%63.1%87.2%
西班牙语85.3%83.1%71.2%65.4%88.4%
日语83.9%81.4%68.7%62.3%86.9%
法语85.7%83.4%71.8%66.1%88.7%
德语84.8%82.6%70.3%64.7%87.6%

中文专项基准(国内团队重点)

C-Eval / CMMLU 对比

国内中文大模型评测的两大权威基准,直接对比 Gemma 4 与国产头部模型:

模型C-EvalCMMLU中文指令跟随备注
Gemma 4 31B约 76%约 74%良好通用性强但纯中文非最优
Gemma 4 26B约 73%约 71%良好
Gemma 4 E4B约 58%约 56%中等边缘部署够用
DeepSeek V3约 86%约 84%优秀中文场景首选
Qwen 2.5 72B约 84%约 83%优秀阿里云原生支持
GLM-4约 81%约 79%优秀长上下文 128K

结论:Gemma 4 中文能力属于"良好"档,日常中文对话和代码注释够用。但纯中文业务建议直接选 DeepSeek V3 或 Qwen 2.5,分数高 8-10 个百分点。

测试方法说明

测试条件

  • 温度:确定性任务 0.1,创意任务 0.7
  • Top-p:所有测试统一 0.95
  • 上下文:31B/26B 用完整 256K 窗口,E 系列用 10K
  • 提示方式:指定 few-shot 处使用,默认 zero-shot
  • 硬件:统一 A100 80GB 保证公平对比

版本信息

  • 模型:Google 官方 checkpoint
  • 时间:2026 年 4 月发布版(v1.0.0)
  • 框架:Transformers 4.40.0、vLLM 0.4.2
  • 量化:INT4 用 GPTQ,INT8 用 bitsandbytes

性能趋势

相比上一代的提升

对比 Gemma 3(2024):

指标Gemma 3Gemma 4提升幅度
MMLU79.1%87.2%+10.2%
HumanEval61.3%76.8%+25.3%
MT-Bench7.838.52+8.8%
推理速度19 tok/s28 tok/s+47.4%

如何复现测试

想自己跑一遍验证数据?

# 安装评估工具
pip install lm-eval transformers accelerate

# 跑 MMLU 基准
lm_eval --model hf \
  --model_args pretrained=google/gemma-4-31b \
  --tasks mmlu \
  --batch_size 8

# 跑 HumanEval
evaluate-humaneval \
  --model google/gemma-4-31b \
  --temperature 0.1 \
  --top_p 0.95

详细配置见 基准测试复现指南

基准测试的局限

了解基准数据测不到的地方:

  • 真实业务表现和基准分数差异较大
  • Prompt 工程可以让分数提升 10-20%
  • 垂直领域任务和通用基准结论可能完全不同
  • 多模态能力只在 E 系列上测了
  • 长上下文性能在标准基准里没有充分体现

常见问题(FAQ)

Q1: Gemma 4 中文能力到底怎么样?能做中文产品吗?

Gemma 4 31B 中文 C-Eval 约 76%,比 Gemma 3 提升明显,日常中文对话、文档生成、代码注释都没问题。但纯中文场景下,DeepSeek V3(86%)和 Qwen 2.5(84%)的中文表现更强,差距约 8-10 个百分点。如果是中英混合场景或需要英文为主,Gemma 4 是不错选择。

Q2: Gemma 4 能在国内服务器跑吗?显存要求多大?

完全可以。从 Hugging Face 下载权重后部署到阿里云、腾讯云、华为云、火山引擎都行。显存参考:

  • Gemma 4 E2B:1-2GB(手机/树莓派都能跑)
  • Gemma 4 E4B:2.5GB(消费级显卡足够)
  • Gemma 4 26B 4-bit:13GB(RTX 4090 24GB 舒适)
  • Gemma 4 31B 4-bit:16GB(RTX 4090 也能跑)

Q3: Gemma 4 vs DeepSeek V3 怎么选?

  • 中文为主:选 DeepSeek V3(中文分数高 10%)
  • 英文/代码为主:Gemma 4 31B 够用
  • 极致轻量化:Gemma 4 E2B/E4B(DeepSeek 没有这么小的版本)
  • 多模态:Gemma 4 E 系列(DeepSeek 主打文本)
  • 推理能力:DeepSeek R1 更强(对标 Claude Opus)

Q4: 网信办备案要求怎么应对?

如果对公众提供生成式 AI 服务,需要走《生成式人工智能服务管理暂行办法》备案流程。Gemma 4 自部署的优势在于:

  • 数据不出境,符合 PIPL 和《数据安全法》
  • 可在算法备案时提供完整的训练数据来源说明
  • 可控的内容安全过滤层

内部自用(非对外服务)则备案要求宽松很多。

Q5: E 系列(E2B/E4B)真的能跑在手机上?

可以。E2B 经 4-bit 量化后约 1.1GB,可以跑在中高端 Android 手机和 iPhone 上。实测在 iPhone 15 Pro 上跑 E2B 能达到 8-12 tok/s,做端侧文本助手、离线翻译、隐私问答完全够用。

横向对比

模型 vs 模型

详细对比 Gemma 4 和其他主流模型:

性能深度分析

结论

Gemma 4 全方位表现亮眼:

  • 31B 模型可以和更大的闭源模型正面竞争
  • E 系列把多模态 AI 带到了边缘设备
  • 相比上一代全面提升(MMLU +10.2%,HumanEval +25.3%)
  • 多种场景下的最佳开源选择

按需求选型:

  • 最高质量:Gemma 4 31B
  • 效率最佳:Gemma 4 26B
  • 移动部署:Gemma 4 E2B/E4B
  • 多模态:仅 E 系列
  • 纯中文场景:建议看 DeepSeek V3 / Qwen 2.5

部署相关教程:

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

相关教程

Gemma 4 基准测试完整数据:MMLU 87.2% / HumanEval 76.8%(2026 最新) | 博客