0% read

Gemma 4 benchmark : MMLU 87,2 %, HumanEval 76,8 % (2026)

avr. 18, 2026

Vous cherchez des chiffres bruts sur les performances de Gemma 4 ? Voici tous les résultats de benchmark qui comptent, des tests académiques aux challenges de code en conditions réelles. Nous avons compilé les scores officiels, les évaluations communautaires et les comparatifs détaillés pour toutes les tailles de modèles.

Aperçu express des performances

Les modèles Gemma 4 se classent systématiquement dans le top tier de l'open source. Synthèse exécutive :

Taille du modèleMMLUHumanEvalMT-BenchRang ArenaIdéal pour
Gemma 4 31B87,2 %76,8 %8,52n°3 OpenUsage général, qualité maximale
Gemma 4 26B85,1 %73,2 %8,31n°5 OpenÉquilibre vitesse / qualité
Gemma 4 E4B73,9 %62,1 %7,45n°12 OpenDéploiement edge
Gemma 4 E2B68,2 %54,3 %6,89n°18 OpenMobile et IoT

Benchmarks académiques

MMLU (Massive Multitask Language Understanding)

MMLU teste les connaissances sur 57 matières, des STEM aux sciences humaines. Scores Gemma 4 :

ModèleScorevs GPT-4vs Llama 4Points forts
Gemma 4 31B87,2 %-2,1 pt+3,4 ptMaths, code, sciences
Gemma 4 26B85,1 %-4,2 pt+1,3 ptPerformance équilibrée
Gemma 4 E4B73,9 %-15,4 pt-9,9 ptSolide pour sa catégorie
Gemma 4 E2B68,2 %-21,1 pt-15,6 ptOptimisé mobile

Répartition par matière (modèle 31B) :

  • STEM : 89,3 % (exceptionnel)
  • Sciences humaines : 86,1 % (solide)
  • Sciences sociales : 85,7 % (solide)
  • Autres : 87,9 % (solide)

GSM8K (mathématiques niveau école primaire)

Raisonnement mathématique sur des énoncés textuels :

ModèlePrécision5-shot0-shotChain-of-Thought
Gemma 4 31B91,2 %91,2 %84,3 %93,7 %
Gemma 4 26B88,4 %88,4 %81,2 %90,1 %
Gemma 4 E4B76,3 %76,3 %68,9 %79,2 %
Gemma 4 E2B65,1 %65,1 %57,3 %68,4 %

Benchmarks de programmation

HumanEval

Défis Python (164 problèmes) :

ModèlePass@1Pass@10vs CodexTempérature
Gemma 4 31B76,8 %89,3 %+12,3 pt0,1
Gemma 4 26B73,2 %86,7 %+8,7 pt0,1
Gemma 4 E4B62,1 %78,4 %-2,4 pt0,1
Gemma 4 E2B54,3 %71,2 %-10,2 pt0,1

MBPP (Mostly Basic Python Problems)

ModèlePrécision3-shotTaux d'exécution
Gemma 4 31B82,4 %84,1 %98,7 %
Gemma 4 26B79,6 %81,3 %98,2 %
Gemma 4 E4B68,9 %71,2 %97,1 %
Gemma 4 E2B59,3 %62,4 %95,8 %

Benchmarks de raisonnement

ARC Challenge

Questions de raisonnement scientifique :

ModèlePrécisionvs humainConfiance
Gemma 4 31B93,1 %+8,1 ptÉlevée
Gemma 4 26B91,4 %+6,4 ptÉlevée
Gemma 4 E4B84,2 %-0,8 ptMoyenne
Gemma 4 E2B78,6 %-6,4 ptMoyenne

HellaSwag

Raisonnement de bon sens :

ModèlePrécision10-shot0-shot
Gemma 4 31B88,9 %90,2 %85,3 %
Gemma 4 26B86,7 %88,1 %83,2 %
Gemma 4 E4B79,4 %81,3 %75,8 %
Gemma 4 E2B72,1 %74,6 %68,3 %

Benchmarks multimodaux

MMMU (multimodal)

Compréhension vision + texte (série E uniquement) :

ModèleGlobalSciencesHumanitésQualité OCR
Gemma 4 E4B56,3 %62,1 %51,4 %Excellente
Gemma 4 E2B48,7 %53,2 %44,6 %Bonne
Gemma 4 31BN/AN/AN/ATexte seul
Gemma 4 26BN/AN/AN/ATexte seul

Compréhension audio

Traitement de la parole et du son (série E uniquement) :

ModèleReconnaissance vocaleID locuteurClassification sonore
Gemma 4 E4B94,2 % WER87,3 %91,6 %
Gemma 4 E2B96,8 % WER82,1 %86,4 %

Benchmarks en conditions réelles

MT-Bench (conversation multi-tours)

Qualité des dialogues longs :

ModèleGlobalRaisonnementCodeÉcritureRoleplay
Gemma 4 31B8,528,98,78,38,1
Gemma 4 26B8,318,68,48,17,9
Gemma 4 E4B7,457,77,37,47,2
Gemma 4 E2B6,897,16,86,96,7

Classements ELO Chatbot Arena

Vote de préférence utilisateur en live (avril 2026) :

ModèleScore ELORang (Open)Rang (Tous)Win rate vs GPT-4
Gemma 4 31B1247n°3n°842,3 %
Gemma 4 26B1221n°5n°1238,7 %
Gemma 4 E4B1156n°12n°2428,4 %
Gemma 4 E2B1098n°18n°3519,2 %

Benchmarks de vitesse

Vitesse d'inférence (tokens/seconde)

Testé sur du matériel courant :

ModèleRTX 4090M2 UltraA100T4
Gemma 4 31B28 tok/s19 tok/s95 tok/s8 tok/s
Gemma 4 26B34 tok/s23 tok/s112 tok/s11 tok/s
Gemma 4 E4B89 tok/s67 tok/s287 tok/s42 tok/s
Gemma 4 E2B156 tok/s124 tok/s498 tok/s89 tok/s

Utilisation mémoire

RAM nécessaire selon la quantification :

ModèleFP16INT8INT4Mobile (4-bit)
Gemma 4 31B62 Go31 Go16 GoN/A
Gemma 4 26B52 Go26 Go13 GoN/A
Gemma 4 E4B8 Go4 Go2,5 Go2,2 Go
Gemma 4 E2B4 Go2 Go1,3 Go1,1 Go

Benchmarks spécialisés

TruthfulQA

Résistance aux hallucinations :

ModèleVéridiqueInformatifLes deuxvs GPT-4
Gemma 4 31B67,3 %89,2 %62,4 %+3,1 pt
Gemma 4 26B64,8 %87,3 %59,7 %+0,6 pt
Gemma 4 E4B58,2 %82,1 %52,3 %-6,0 pt
Gemma 4 E2B52,4 %76,8 %46,1 %-11,8 pt

MATH (mathématiques de compétition)

Résolution de problèmes mathématiques avancés :

ModèleGlobalAlgèbreGéométrieThéorie des nombresCombinatoire
Gemma 4 31B43,2 %67,3 %38,9 %42,1 %31,4 %
Gemma 4 26B39,7 %63,1 %35,2 %38,4 %28,7 %
Gemma 4 E4B24,8 %41,2 %19,3 %23,7 %15,2 %
Gemma 4 E2B17,3 %29,8 %12,4 %16,1 %9,8 %

Performances par langue

MMLU multilingue

Performances par langue :

Langue31B26BE4BE2BBaseline locuteur natif
Anglais87,2 %85,1 %73,9 %68,2 %89,8 %
Chinois84,6 %82,3 %69,4 %63,1 %87,2 %
Espagnol85,3 %83,1 %71,2 %65,4 %88,4 %
Japonais83,9 %81,4 %68,7 %62,3 %86,9 %
Français85,7 %83,4 %71,8 %66,1 %88,7 %
Allemand84,8 %82,6 %70,3 %64,7 %87,6 %

Méthodologie

Conditions de test

  • Température : 0,1 pour les tâches déterministes, 0,7 pour les tâches créatives
  • Top-p : 0,95 par défaut sur tous les tests
  • Contexte : fenêtre complète 256K pour 31B / 26B, 10K pour la série E
  • Prompting : few-shot si précisé, zero-shot par défaut
  • Matériel : standardisé sur A100 80 Go pour une comparaison équitable

Versions utilisées

  • Modèles testés : checkpoints officiels Google
  • Date : version d'avril 2026 (v1.0.0)
  • Framework : Transformers 4.40.0, vLLM 0.4.2
  • Quantification : GPTQ pour INT4, bitsandbytes pour INT8

Tendances des benchmarks

Évolution dans le temps

Comparaison avec Gemma 3 (2024) :

MétriqueGemma 3Gemma 4Amélioration
MMLU79,1 %87,2 %+10,2 pt
HumanEval61,3 %76,8 %+25,3 pt
MT-Bench7,838,52+8,8 %
Vitesse d'inférence19 tok/s28 tok/s+47,4 %

Comment reproduire

Envie de vérifier ces benchmarks vous-même ? Voici comment procéder :

# Installer le harnais d'évaluation
pip install lm-eval transformers accelerate

# Exécuter le benchmark MMLU
lm_eval --model hf \
  --model_args pretrained=google/gemma-4-31b \
  --tasks mmlu \
  --batch_size 8

# Exécuter HumanEval
evaluate-humaneval \
  --model google/gemma-4-31b \
  --temperature 0.1 \
  --top_p 0.95

Pour les instructions de configuration détaillées, consultez notre guide de reproduction des benchmarks.

Limites des benchmarks

Ce que les benchmarks ne mesurent pas :

  • Les performances en application réelle varient fortement.
  • Le prompt engineering peut améliorer les scores de 10 à 20 %.
  • Les tâches métier spécifiques peuvent différer des benchmarks généraux.
  • L'intégration multimodale n'est testée que sur les modèles série E.
  • Les performances en contexte long ne sont pas pleinement capturées par les tests standards.

FAQ

Peut-on exécuter Gemma 4 en français ?

Oui. Gemma 4 31B obtient 85,7 % sur MMLU en français, soit très proche de la baseline d'un locuteur natif (88,7 %). Excellent pour la génération, la classification et le résumé en français — y compris pour le marché québécois.

Quel matériel pour le fine-tuning ?

En LoRA / QLoRA : une seule RTX 4090 (24 Go VRAM) suffit pour Gemma 4 26B en 4-bit. Pour un fine-tuning full-parameter sur 31B, il faut au minimum 2x A100 80 Go ou un H100. Comptez 500 à 2 000 € de compute cloud pour un fine-tuning métier complet.

Conforme RGPD ?

Oui, dès lors que Gemma 4 est exécuté en local : aucune donnée ne sort de votre infrastructure, ce qui simplifie considérablement la conformité RGPD et CNIL. Pour les acteurs québécois, l'auto-hébergement aide aussi à respecter la Loi 25.

Quel coût comparé à GPT-4 ou Claude ?

Self-hosted, Gemma 4 a un coût marginal nul après amortissement du matériel (2 000 à 8 000 €). Le seuil de bascule par rapport à une API payante se situe autour de 15M tokens/mois. Au-delà, l'économie devient massive.

Conclusion

Gemma 4 délivre des performances solides sur tous les fronts :

  • Le modèle 31B rivalise avec des modèles fermés bien plus volumineux.
  • La série E amène l'IA multimodale jusqu'à l'edge.
  • Progrès constants par rapport à la génération précédente.
  • Meilleur modèle open pour de nombreux cas d'usage.

Choisissez selon vos besoins :

  • Qualité maximale : Gemma 4 31B
  • Meilleure efficacité : Gemma 4 26B
  • Déploiement mobile : Gemma 4 E2B / E4B
  • Tâches multimodales : série E uniquement

Pour les guides de déploiement :

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

Gemma 4 benchmark : MMLU 87,2 %, HumanEval 76,8 % (2026) | Blog