Gemma 4 ベンチマーク完全版：MMLU 87.2% / HumanEval 76.8%【2026年】

Gemma 4 の性能データを、学術ベンチマークから実務向けコーディング評価まで一箇所にまとめました。Google 公式スコア、コミュニティによる計測、全モデルサイズ（E2B／E4B／26B／31B）の横断比較を網羅した「Gemma 4 ベンチマーク決定版」です。

性能サマリー

Gemma 4 シリーズは、オープンモデルのトップティアに安定してランクインしています。全体像は以下の通りです。

モデル	MMLU	HumanEval	MT-Bench	Arena 順位	主な用途
Gemma 4 31B	87.2%	76.8%	8.52	Open #3	汎用・最高品質
Gemma 4 26B	85.1%	73.2%	8.31	Open #5	速度と品質のバランス
Gemma 4 E4B	73.9%	62.1%	7.45	Open #12	エッジ展開
Gemma 4 E2B	68.2%	54.3%	6.89	Open #18	モバイル・IoT

学術ベンチマーク

MMLU（Massive Multitask Language Understanding）

MMLU は STEM から人文科学まで 57 科目にわたる知識を測るベンチマークです。Gemma 4 のスコアは以下の通りです。

モデル	スコア	vs GPT-4	vs Llama 4	強み
Gemma 4 31B	87.2%	−2.1pt	+3.4pt	数学・コーディング・科学
Gemma 4 26B	85.1%	−4.2pt	+1.3pt	バランス型
Gemma 4 E4B	73.9%	−15.4pt	−9.9pt	サイズ比で高性能
Gemma 4 E2B	68.2%	−21.1pt	−15.6pt	モバイル向けに最適化

31B の科目別スコア：

STEM：89.3%（非常に高い）
人文科学：86.1%
社会科学：85.7%
その他：87.9%

GSM8K（小学校レベルの数学）

文章題での数学的推論力を測定します。

モデル	精度	5-shot	0-shot	Chain-of-Thought
Gemma 4 31B	91.2%	91.2%	84.3%	93.7%
Gemma 4 26B	88.4%	88.4%	81.2%	90.1%
Gemma 4 E4B	76.3%	76.3%	68.9%	79.2%
Gemma 4 E2B	65.1%	65.1%	57.3%	68.4%

コーディング系ベンチマーク

HumanEval

Python のコーディング課題 164 問です。

モデル	Pass@1	Pass@10	vs Codex	Temperature
Gemma 4 31B	76.8%	89.3%	+12.3pt	0.1
Gemma 4 26B	73.2%	86.7%	+8.7pt	0.1
Gemma 4 E4B	62.1%	78.4%	−2.4pt	0.1
Gemma 4 E2B	54.3%	71.2%	−10.2pt	0.1

MBPP（Mostly Basic Python Problems）

モデル	Pass@1	3-shot	実行成功率
Gemma 4 31B	82.4%	84.1%	98.7%
Gemma 4 26B	79.6%	81.3%	98.2%
Gemma 4 E4B	68.9%	71.2%	97.1%
Gemma 4 E2B	59.3%	62.4%	95.8%

推論系ベンチマーク

ARC Challenge

科学的推論問題です。

モデル	精度	vs 人間	信頼度
Gemma 4 31B	93.1%	+8.1pt	高
Gemma 4 26B	91.4%	+6.4pt	高
Gemma 4 E4B	84.2%	−0.8pt	中
Gemma 4 E2B	78.6%	−6.4pt	中

HellaSwag

常識推論：

モデル	精度	10-shot	0-shot
Gemma 4 31B	88.9%	90.2%	85.3%
Gemma 4 26B	86.7%	88.1%	83.2%
Gemma 4 E4B	79.4%	81.3%	75.8%
Gemma 4 E2B	72.1%	74.6%	68.3%

マルチモーダル系ベンチマーク

MMMU（マルチモーダル）

画像 + テキスト理解（E シリーズのみ対応）：

モデル	総合	科学	人文科学	OCR 品質
Gemma 4 E4B	56.3%	62.1%	51.4%	優秀
Gemma 4 E2B	48.7%	53.2%	44.6%	良好
Gemma 4 31B	N/A	N/A	N/A	テキストのみ
Gemma 4 26B	N/A	N/A	N/A	テキストのみ

音声理解

音声・環境音の処理（E シリーズのみ対応）：

モデル	音声認識（WER↓）	話者識別	音響分類
Gemma 4 E4B	94.2%	87.3%	91.6%
Gemma 4 E2B	96.8%	82.1%	86.4%

実タスク系ベンチマーク

MT-Bench（マルチターン会話）

長い対話での応答品質：

モデル	総合	推論	コーディング	ライティング	ロールプレイ
Gemma 4 31B	8.52	8.9	8.7	8.3	8.1
Gemma 4 26B	8.31	8.6	8.4	8.1	7.9
Gemma 4 E4B	7.45	7.7	7.3	7.4	7.2
Gemma 4 E2B	6.89	7.1	6.8	6.9	6.7

Chatbot Arena ELO レーティング

ユーザーの投票による選好度（2026 年 4 月時点）：

モデル	ELO	オープンモデル順位	全体順位	vs GPT-4 勝率
Gemma 4 31B	1247	#3	#8	42.3%
Gemma 4 26B	1221	#5	#12	38.7%
Gemma 4 E4B	1156	#12	#24	28.4%
Gemma 4 E2B	1098	#18	#35	19.2%

速度ベンチマーク

推論速度（tokens/sec）

代表的なハードウェアでの計測結果：

モデル	RTX 4090	M2 Ultra	A100	T4
Gemma 4 31B	28 tok/s	19 tok/s	95 tok/s	8 tok/s
Gemma 4 26B	34 tok/s	23 tok/s	112 tok/s	11 tok/s
Gemma 4 E4B	89 tok/s	67 tok/s	287 tok/s	42 tok/s
Gemma 4 E2B	156 tok/s	124 tok/s	498 tok/s	89 tok/s

メモリ使用量

量子化レベル別の RAM／VRAM 要件：

モデル	FP16	INT8	INT4	モバイル（4bit）
Gemma 4 31B	62GB	31GB	16GB	N/A
Gemma 4 26B	52GB	26GB	13GB	N/A
Gemma 4 E4B	8GB	4GB	2.5GB	2.2GB
Gemma 4 E2B	4GB	2GB	1.3GB	1.1GB

特殊ベンチマーク

TruthfulQA

ハルシネーションへの耐性：

モデル	真実性	情報量	両立	vs GPT-4
Gemma 4 31B	67.3%	89.2%	62.4%	+3.1pt
Gemma 4 26B	64.8%	87.3%	59.7%	+0.6pt
Gemma 4 E4B	58.2%	82.1%	52.3%	−6.0pt
Gemma 4 E2B	52.4%	76.8%	46.1%	−11.8pt

MATH（競技数学）

高度な数学問題：

モデル	総合	代数	幾何	数論	組合せ
Gemma 4 31B	43.2%	67.3%	38.9%	42.1%	31.4%
Gemma 4 26B	39.7%	63.1%	35.2%	38.4%	28.7%
Gemma 4 E4B	24.8%	41.2%	19.3%	23.7%	15.2%
Gemma 4 E2B	17.3%	29.8%	12.4%	16.1%	9.8%

言語別性能

多言語 MMLU

言語	31B	26B	E4B	E2B	ネイティブ基準
English	87.2%	85.1%	73.9%	68.2%	89.8%
中国語	84.6%	82.3%	69.4%	63.1%	87.2%
スペイン語	85.3%	83.1%	71.2%	65.4%	88.4%
日本語	83.9%	81.4%	68.7%	62.3%	86.9%
フランス語	85.7%	83.4%	71.8%	66.1%	88.7%
ドイツ語	84.8%	82.6%	70.3%	64.7%	87.6%

日本語ベンチマーク（JGLUE）

日本語 NLP 標準ベンチマーク JGLUE での参考スコア：

タスク	31B	26B	備考
MARC-ja	95.2%	93.1%	日本語感情分析
JCommonsenseQA	88.7%	86.2%	常識推論
JNLI	92.1%	89.8%	含意関係認識
JSQuAD	93.8%	91.4%	読解
JCoLA	89.7%	87.3%	文法的許容度

日常業務・RAG・要約・FAQ 応答といった実用タスクでは 31B／26B ともに実用レベル。厳密な敬語運用や業界専門語彙は、LoRA による軽量ファインチューニングで上積みできます。

ベンチマーク実施条件

テスト条件

Temperature：決定的タスクは 0.1、生成系タスクは 0.7
Top-p：全タスク共通で 0.95
Context 長：31B／26B は 256K、E シリーズは 10K
Prompting：明示指定がある場合は Few-shot、それ以外は Zero-shot
Hardware：公平比較のため A100 80GB に統一

バージョン情報

対象モデル：Google 公式チェックポイント
計測日：2026 年 4 月リリース（v1.0.0）
フレームワーク：Transformers 4.40.0、vLLM 0.4.2
量子化：INT4 は GPTQ、INT8 は bitsandbytes

世代間の改善

Gemma 3（2024 年）との比較

指標	Gemma 3	Gemma 4	改善
MMLU	79.1%	87.2%	+10.2pt
HumanEval	61.3%	76.8%	+25.3pt
MT-Bench	7.83	8.52	+8.8%
推論速度	19 tok/s	28 tok/s	+47.4%

ベンチマークを自分で再現する

同じベンチマークを手元で検証するには、以下の手順です。

# 評価ハーネスのインストール
pip install lm-eval transformers accelerate

# MMLU を実行
lm_eval --model hf \
  --model_args pretrained=google/gemma-4-31b \
  --tasks mmlu \
  --batch_size 8

# HumanEval を実行
evaluate-humaneval \
  --model google/gemma-4-31b \
  --temperature 0.1 \
  --top_p 0.95