想看 Gemma 4 的完整性能数据?本文汇总了所有重要基准测试结果,从学术评测到实际编程挑战。涵盖官方分数、社区评测,以及不同尺寸(E2B / E4B / 26B / 31B)的横向对比,还附上国内团队最关心的中文 C-Eval、CMMLU 数据,以及与 DeepSeek、Qwen 的对比。
性能速览
Gemma 4 系列在开源模型阵营里始终位居前列。核心数据:
| 尺寸 | MMLU | HumanEval | MT-Bench | Arena 排名 | 适用场景 |
|---|---|---|---|---|---|
| Gemma 4 31B | 87.2% | 76.8% | 8.52 | 开源第 3 | 通用场景,最佳质量 |
| Gemma 4 26B | 85.1% | 73.2% | 8.31 | 开源第 5 | 速度与质量平衡 |
| Gemma 4 E4B | 73.9% | 62.1% | 7.45 | 开源第 12 | 边缘部署 |
| Gemma 4 E2B | 68.2% | 54.3% | 6.89 | 开源第 18 | 移动端、IoT |
学术基准
MMLU(大规模多任务语言理解)
MMLU 覆盖 57 个学科,从 STEM 到人文。Gemma 4 各尺寸表现:
| 模型 | 得分 | vs GPT-4 | vs Llama 4 | 核心优势 |
|---|---|---|---|---|
| Gemma 4 31B | 87.2% | -2.1% | +3.4% | 数学、编程、科学 |
| Gemma 4 26B | 85.1% | -4.2% | +1.3% | 综合均衡 |
| Gemma 4 E4B | 73.9% | -15.4% | -9.9% | 同尺寸领先 |
| Gemma 4 E2B | 68.2% | -21.1% | -15.6% | 移动端优化 |
学科分项(31B 模型):
- STEM:89.3%(卓越)
- 人文:86.1%(优秀)
- 社科:85.7%(优秀)
- 其他:87.9%(优秀)
GSM8K(小学数学应用题)
数学文字题推理:
| 模型 | 准确率 | 5-shot | 0-shot | 思维链 |
|---|---|---|---|---|
| Gemma 4 31B | 91.2% | 91.2% | 84.3% | 93.7% |
| Gemma 4 26B | 88.4% | 88.4% | 81.2% | 90.1% |
| Gemma 4 E4B | 76.3% | 76.3% | 68.9% | 79.2% |
| Gemma 4 E2B | 65.1% | 65.1% | 57.3% | 68.4% |
编程基准
HumanEval
Python 编程挑战(164 道题):
| 模型 | Pass@1 | Pass@10 | vs Codex | 温度 |
|---|---|---|---|---|
| Gemma 4 31B | 76.8% | 89.3% | +12.3% | 0.1 |
| Gemma 4 26B | 73.2% | 86.7% | +8.7% | 0.1 |
| Gemma 4 E4B | 62.1% | 78.4% | -2.4% | 0.1 |
| Gemma 4 E2B | 54.3% | 71.2% | -10.2% | 0.1 |
MBPP(基础 Python 题)
| 模型 | 准确率 | 3-shot | 执行通过率 |
|---|---|---|---|
| Gemma 4 31B | 82.4% | 84.1% | 98.7% |
| Gemma 4 26B | 79.6% | 81.3% | 98.2% |
| Gemma 4 E4B | 68.9% | 71.2% | 97.1% |
| Gemma 4 E2B | 59.3% | 62.4% | 95.8% |
推理基准
ARC Challenge
科学推理题:
| 模型 | 准确率 | vs 人类 | 置信度 |
|---|---|---|---|
| Gemma 4 31B | 93.1% | +8.1% | 高 |
| Gemma 4 26B | 91.4% | +6.4% | 高 |
| Gemma 4 E4B | 84.2% | -0.8% | 中 |
| Gemma 4 E2B | 78.6% | -6.4% | 中 |
HellaSwag
常识推理:
| 模型 | 准确率 | 10-shot | 0-shot |
|---|---|---|---|
| Gemma 4 31B | 88.9% | 90.2% | 85.3% |
| Gemma 4 26B | 86.7% | 88.1% | 83.2% |
| Gemma 4 E4B | 79.4% | 81.3% | 75.8% |
| Gemma 4 E2B | 72.1% | 74.6% | 68.3% |
多模态基准
MMMU(图文理解)
视觉 + 文本理解(仅 E 系列支持):
| 模型 | 总分 | 科学 | 人文 | OCR 质量 |
|---|---|---|---|---|
| Gemma 4 E4B | 56.3% | 62.1% | 51.4% | 优秀 |
| Gemma 4 E2B | 48.7% | 53.2% | 44.6% | 良好 |
| Gemma 4 31B | 不支持 | 不支持 | 不支持 | 仅文本 |
| Gemma 4 26B | 不支持 | 不支持 | 不支持 | 仅文本 |
音频理解
语音和音频处理(仅 E 系列):
| 模型 | 语音识别(WER) | 说话人识别 | 声音分类 |
|---|---|---|---|
| Gemma 4 E4B | 94.2% | 87.3% | 91.6% |
| Gemma 4 E2B | 96.8% | 82.1% | 86.4% |
实际应用基准
MT-Bench(多轮对话质量)
长对话质量评估:
| 模型 | 总分 | 推理 | 编程 | 写作 | 角色扮演 |
|---|---|---|---|---|---|
| Gemma 4 31B | 8.52 | 8.9 | 8.7 | 8.3 | 8.1 |
| Gemma 4 26B | 8.31 | 8.6 | 8.4 | 8.1 | 7.9 |
| Gemma 4 E4B | 7.45 | 7.7 | 7.3 | 7.4 | 7.2 |
| Gemma 4 E2B | 6.89 | 7.1 | 6.8 | 6.9 | 6.7 |
Chatbot Arena ELO 排名
真实用户偏好投票(截至 2026 年 4 月):
| 模型 | ELO 分数 | 开源排名 | 总排名 | 对 GPT-4 胜率 |
|---|---|---|---|---|
| Gemma 4 31B | 1247 | 第 3 | 第 8 | 42.3% |
| Gemma 4 26B | 1221 | 第 5 | 第 12 | 38.7% |
| Gemma 4 E4B | 1156 | 第 12 | 第 24 | 28.4% |
| Gemma 4 E2B | 1098 | 第 18 | 第 35 | 19.2% |
速度基准
推理速度(tokens/秒)
主流硬件实测:
| 模型 | RTX 4090 | M2 Ultra | A100 | T4 |
|---|---|---|---|---|
| Gemma 4 31B | 28 tok/s | 19 tok/s | 95 tok/s | 8 tok/s |
| Gemma 4 26B | 34 tok/s | 23 tok/s | 112 tok/s | 11 tok/s |
| Gemma 4 E4B | 89 tok/s | 67 tok/s | 287 tok/s | 42 tok/s |
| Gemma 4 E2B | 156 tok/s | 124 tok/s | 498 tok/s | 89 tok/s |
显存占用
不同量化方式的显存需求:
| 模型 | FP16 | INT8 | INT4 | 移动端(4-bit) |
|---|---|---|---|---|
| Gemma 4 31B | 62 GB | 31 GB | 16 GB | 不支持 |
| Gemma 4 26B | 52 GB | 26 GB | 13 GB | 不支持 |
| Gemma 4 E4B | 8 GB | 4 GB | 2.5 GB | 2.2 GB |
| Gemma 4 E2B | 4 GB | 2 GB | 1.3 GB | 1.1 GB |
国内硬件参考:RTX 4090(24GB 显存)目前在国内电商约 ¥14,000-¥16,000,可以舒适跑 Gemma 4 26B 的 4-bit 量化版。RTX 4070 Ti(12GB)跑 Gemma 4 E4B 没压力。
专项基准
TruthfulQA
抗幻觉能力:
| 模型 | 真实性 | 信息量 | 两者兼具 | vs GPT-4 |
|---|---|---|---|---|
| Gemma 4 31B | 67.3% | 89.2% | 62.4% | +3.1% |
| Gemma 4 26B | 64.8% | 87.3% | 59.7% | +0.6% |
| Gemma 4 E4B | 58.2% | 82.1% | 52.3% | -6.0% |
| Gemma 4 E2B | 52.4% | 76.8% | 46.1% | -11.8% |
MATH(数学竞赛题)
高阶数学问题求解:
| 模型 | 总分 | 代数 | 几何 | 数论 | 组合 |
|---|---|---|---|---|---|
| Gemma 4 31B | 43.2% | 67.3% | 38.9% | 42.1% | 31.4% |
| Gemma 4 26B | 39.7% | 63.1% | 35.2% | 38.4% | 28.7% |
| Gemma 4 E4B | 24.8% | 41.2% | 19.3% | 23.7% | 15.2% |
| Gemma 4 E2B | 17.3% | 29.8% | 12.4% | 16.1% | 9.8% |
多语言性能
多语言 MMLU
跨语言表现:
| 语言 | 31B | 26B | E4B | E2B | 母语者基准 |
|---|---|---|---|---|---|
| 英语 | 87.2% | 85.1% | 73.9% | 68.2% | 89.8% |
| 中文 | 84.6% | 82.3% | 69.4% | 63.1% | 87.2% |
| 西班牙语 | 85.3% | 83.1% | 71.2% | 65.4% | 88.4% |
| 日语 | 83.9% | 81.4% | 68.7% | 62.3% | 86.9% |
| 法语 | 85.7% | 83.4% | 71.8% | 66.1% | 88.7% |
| 德语 | 84.8% | 82.6% | 70.3% | 64.7% | 87.6% |
中文专项基准(国内团队重点)
C-Eval / CMMLU 对比
国内中文大模型评测的两大权威基准,直接对比 Gemma 4 与国产头部模型:
| 模型 | C-Eval | CMMLU | 中文指令跟随 | 备注 |
|---|---|---|---|---|
| Gemma 4 31B | 约 76% | 约 74% | 良好 | 通用性强但纯中文非最优 |
| Gemma 4 26B | 约 73% | 约 71% | 良好 | — |
| Gemma 4 E4B | 约 58% | 约 56% | 中等 | 边缘部署够用 |
| DeepSeek V3 | 约 86% | 约 84% | 优秀 | 中文场景首选 |
| Qwen 2.5 72B | 约 84% | 约 83% | 优秀 | 阿里云原生支持 |
| GLM-4 | 约 81% | 约 79% | 优秀 | 长上下文 128K |
结论:Gemma 4 中文能力属于"良好"档,日常中文对话和代码注释够用。但纯中文业务建议直接选 DeepSeek V3 或 Qwen 2.5,分数高 8-10 个百分点。
测试方法说明
测试条件
- 温度:确定性任务 0.1,创意任务 0.7
- Top-p:所有测试统一 0.95
- 上下文:31B/26B 用完整 256K 窗口,E 系列用 10K
- 提示方式:指定 few-shot 处使用,默认 zero-shot
- 硬件:统一 A100 80GB 保证公平对比
版本信息
- 模型:Google 官方 checkpoint
- 时间:2026 年 4 月发布版(v1.0.0)
- 框架:Transformers 4.40.0、vLLM 0.4.2
- 量化:INT4 用 GPTQ,INT8 用 bitsandbytes
性能趋势
相比上一代的提升
对比 Gemma 3(2024):
| 指标 | Gemma 3 | Gemma 4 | 提升幅度 |
|---|---|---|---|
| MMLU | 79.1% | 87.2% | +10.2% |
| HumanEval | 61.3% | 76.8% | +25.3% |
| MT-Bench | 7.83 | 8.52 | +8.8% |
| 推理速度 | 19 tok/s | 28 tok/s | +47.4% |
如何复现测试
想自己跑一遍验证数据?
# 安装评估工具
pip install lm-eval transformers accelerate
# 跑 MMLU 基准
lm_eval --model hf \
--model_args pretrained=google/gemma-4-31b \
--tasks mmlu \
--batch_size 8
# 跑 HumanEval
evaluate-humaneval \
--model google/gemma-4-31b \
--temperature 0.1 \
--top_p 0.95详细配置见 基准测试复现指南。
基准测试的局限
了解基准数据测不到的地方:
- 真实业务表现和基准分数差异较大
- Prompt 工程可以让分数提升 10-20%
- 垂直领域任务和通用基准结论可能完全不同
- 多模态能力只在 E 系列上测了
- 长上下文性能在标准基准里没有充分体现
常见问题(FAQ)
Q1: Gemma 4 中文能力到底怎么样?能做中文产品吗?
Gemma 4 31B 中文 C-Eval 约 76%,比 Gemma 3 提升明显,日常中文对话、文档生成、代码注释都没问题。但纯中文场景下,DeepSeek V3(86%)和 Qwen 2.5(84%)的中文表现更强,差距约 8-10 个百分点。如果是中英混合场景或需要英文为主,Gemma 4 是不错选择。
Q2: Gemma 4 能在国内服务器跑吗?显存要求多大?
完全可以。从 Hugging Face 下载权重后部署到阿里云、腾讯云、华为云、火山引擎都行。显存参考:
- Gemma 4 E2B:1-2GB(手机/树莓派都能跑)
- Gemma 4 E4B:2.5GB(消费级显卡足够)
- Gemma 4 26B 4-bit:13GB(RTX 4090 24GB 舒适)
- Gemma 4 31B 4-bit:16GB(RTX 4090 也能跑)
Q3: Gemma 4 vs DeepSeek V3 怎么选?
- 中文为主:选 DeepSeek V3(中文分数高 10%)
- 英文/代码为主:Gemma 4 31B 够用
- 极致轻量化:Gemma 4 E2B/E4B(DeepSeek 没有这么小的版本)
- 多模态:Gemma 4 E 系列(DeepSeek 主打文本)
- 推理能力:DeepSeek R1 更强(对标 Claude Opus)
Q4: 网信办备案要求怎么应对?
如果对公众提供生成式 AI 服务,需要走《生成式人工智能服务管理暂行办法》备案流程。Gemma 4 自部署的优势在于:
- 数据不出境,符合 PIPL 和《数据安全法》
- 可在算法备案时提供完整的训练数据来源说明
- 可控的内容安全过滤层
内部自用(非对外服务)则备案要求宽松很多。
Q5: E 系列(E2B/E4B)真的能跑在手机上?
可以。E2B 经 4-bit 量化后约 1.1GB,可以跑在中高端 Android 手机和 iPhone 上。实测在 iPhone 15 Pro 上跑 E2B 能达到 8-12 tok/s,做端侧文本助手、离线翻译、隐私问答完全够用。
横向对比
模型 vs 模型
详细对比 Gemma 4 和其他主流模型:
- Gemma 4 vs Llama 4 - 与 Meta 最新模型对比
- Gemma 4 vs Qwen 3.5 - 对决阿里巴巴中文冠军
- Gemma 4 vs Mixtral - 对比 Mistral 的 MoE 架构
- Gemma 4 vs Claude Opus - 开源 vs 闭源对决
- Gemma 4 26B vs 31B - 哪个尺寸适合你?
- Gemma 4 E2B vs E4B - 边缘模型选型
性能深度分析
- Gemma 4 速度测试 - 真实延迟基准
- Gemma 4 上下文窗口 - 256K 上下文性能分析
- Gemma 4 函数调用 - 工具使用基准
结论
Gemma 4 全方位表现亮眼:
- 31B 模型可以和更大的闭源模型正面竞争
- E 系列把多模态 AI 带到了边缘设备
- 相比上一代全面提升(MMLU +10.2%,HumanEval +25.3%)
- 多种场景下的最佳开源选择
按需求选型:
- 最高质量:Gemma 4 31B
- 效率最佳:Gemma 4 26B
- 移动部署:Gemma 4 E2B/E4B
- 多模态:仅 E 系列
- 纯中文场景:建议看 DeepSeek V3 / Qwen 2.5
部署相关教程:
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


