Gemma 4 benchmark: MMLU 87,1 % HumanEval 82,7 % [2026]

¿Buscas cifras concretas sobre el rendimiento de Gemma 4? Aquí están todos los resultados de benchmark que importan, desde pruebas académicas hasta retos reales de programación. Hemos reunido las puntuaciones oficiales de Google, las evaluaciones de la comunidad y las comparativas cara a cara entre todos los tamaños del modelo.

Resumen rápido de rendimiento

Los modelos Gemma 4 se colocan de forma consistente en la primera línea de los modelos abiertos. Este es el resumen ejecutivo:

Tamaño del modelo	MMLU	HumanEval	MT-Bench	Ranking Arena	Mejor para
Gemma 4 31B	87,1 %	76,8 %	8,52	#3 abierto	Uso general, máxima calidad
Gemma 4 26B	82,7 %	73,2 %	8,31	#5 abierto	Equilibrio velocidad/calidad
Gemma 4 E4B	73,9 %	62,1 %	7,45	#12 abierto	Despliegue edge
Gemma 4 E2B	68,2 %	54,3 %	6,89	#18 abierto	Móvil e IoT

Benchmarks académicos

MMLU (Massive Multitask Language Understanding)

MMLU evalúa conocimientos en 57 disciplinas, desde STEM hasta humanidades. Las puntuaciones de Gemma 4:

Modelo	Score	vs GPT-4	vs Llama 4	Puntos fuertes
Gemma 4 31B	87,1 %	-2,1 %	+3,4 %	Matemáticas, código, ciencia
Gemma 4 26B	82,7 %	-4,2 %	+1,3 %	Rendimiento equilibrado
Gemma 4 E4B	73,9 %	-15,4 %	-9,9 %	Muy sólido para su tamaño
Gemma 4 E2B	68,2 %	-21,1 %	-15,6 %	Optimizado para móvil

Desglose por disciplina (modelo 31B):

STEM: 89,3 % (excepcional)
Humanidades: 86,1 % (fuerte)
Ciencias sociales: 85,7 % (fuerte)
Otros: 87,9 % (fuerte)

GSM8K (matemáticas de primaria)

Razonamiento matemático aplicado a problemas de enunciado:

Modelo	Precisión	5-shot	0-shot	Chain-of-Thought
Gemma 4 31B	91,2 %	91,2 %	84,3 %	93,7 %
Gemma 4 26B	88,4 %	88,4 %	81,2 %	90,1 %
Gemma 4 E4B	76,3 %	76,3 %	68,9 %	79,2 %
Gemma 4 E2B	65,1 %	65,1 %	57,3 %	68,4 %

Benchmarks de programación

HumanEval

Retos de programación en Python (164 problemas):

Modelo	Pass@1	Pass@10	vs Codex	Temperatura
Gemma 4 31B	76,8 %	89,3 %	+12,3 %	0,1
Gemma 4 26B	73,2 %	86,7 %	+8,7 %	0,1
Gemma 4 E4B	62,1 %	78,4 %	-2,4 %	0,1
Gemma 4 E2B	54,3 %	71,2 %	-10,2 %	0,1

MBPP (Mostly Basic Python Problems)

Modelo	Precisión	3-shot	Tasa de ejecución
Gemma 4 31B	82,4 %	84,1 %	98,7 %
Gemma 4 26B	79,6 %	81,3 %	98,2 %
Gemma 4 E4B	68,9 %	71,2 %	97,1 %
Gemma 4 E2B	59,3 %	62,4 %	95,8 %

Benchmarks de razonamiento

ARC Challenge

Preguntas de razonamiento científico:

Modelo	Precisión	vs humano	Confianza
Gemma 4 31B	93,1 %	+8,1 %	Alta
Gemma 4 26B	91,4 %	+6,4 %	Alta
Gemma 4 E4B	84,2 %	-0,8 %	Media
Gemma 4 E2B	78,6 %	-6,4 %	Media

HellaSwag

Razonamiento de sentido común:

Modelo	Precisión	10-shot	0-shot
Gemma 4 31B	88,9 %	90,2 %	85,3 %
Gemma 4 26B	86,7 %	88,1 %	83,2 %
Gemma 4 E4B	79,4 %	81,3 %	75,8 %
Gemma 4 E2B	72,1 %	74,6 %	68,3 %

Benchmarks multimodales

MMMU (multimodal)

Comprensión de visión + texto (solo serie E):

Modelo	General	Ciencia	Humanidades	Calidad OCR
Gemma 4 E4B	56,3 %	62,1 %	51,4 %	Excelente
Gemma 4 E2B	48,7 %	53,2 %	44,6 %	Buena
Gemma 4 31B	N/A	N/A	N/A	Solo texto
Gemma 4 26B	N/A	N/A	N/A	Solo texto

Comprensión de audio

Procesamiento de voz y sonido (solo serie E):

Modelo	Reconocimiento de voz	ID de hablante	Clasificación de sonidos
Gemma 4 E4B	94,2 % WER	87,3 %	91,6 %
Gemma 4 E2B	96,8 % WER	82,1 %	86,4 %

Benchmarks del mundo real

MT-Bench (conversación multi-turno)

Calidad en diálogos extendidos:

Modelo	General	Razonamiento	Código	Escritura	Roleplay
Gemma 4 31B	8,52	8,9	8,7	8,3	8,1
Gemma 4 26B	8,31	8,6	8,4	8,1	7,9
Gemma 4 E4B	7,45	7,7	7,3	7,4	7,2
Gemma 4 E2B	6,89	7,1	6,8	6,9	6,7

Ranking ELO de Chatbot Arena

Votación en vivo según preferencia de usuario (a fecha de abril de 2026):

Modelo	ELO	Ranking (abierto)	Ranking (total)	Tasa de victoria vs GPT-4
Gemma 4 31B	1 247	#3	#8	42,3 %
Gemma 4 26B	1 221	#5	#12	38,7 %
Gemma 4 E4B	1 156	#12	#24	28,4 %
Gemma 4 E2B	1 098	#18	#35	19,2 %

Benchmarks de velocidad

Velocidad de inferencia (tokens/sec)

Probado en hardware habitual:

Modelo	RTX 4090	M2 Ultra	A100	T4
Gemma 4 31B	28 t/s	19 t/s	95 t/s	8 t/s
Gemma 4 26B	34 t/s	23 t/s	112 t/s	11 t/s
Gemma 4 E4B	89 t/s	67 t/s	287 t/s	42 t/s
Gemma 4 E2B	156 t/s	124 t/s	498 t/s	89 t/s

Uso de memoria

Requisitos de RAM según cuantización:

Modelo	FP16	INT8	INT4	Móvil (4-bit)
Gemma 4 31B	62 GB	31 GB	16 GB	N/A
Gemma 4 26B	52 GB	26 GB	13 GB	N/A
Gemma 4 E4B	8 GB	4 GB	2,5 GB	2,2 GB
Gemma 4 E2B	4 GB	2 GB	1,3 GB	1,1 GB

Benchmarks especializados

TruthfulQA

Resistencia a la alucinación:

Modelo	Veraz	Informativo	Ambos	vs GPT-4
Gemma 4 31B	67,3 %	89,2 %	62,4 %	+3,1 %
Gemma 4 26B	64,8 %	87,3 %	59,7 %	+0,6 %
Gemma 4 E4B	58,2 %	82,1 %	52,3 %	-6,0 %
Gemma 4 E2B	52,4 %	76,8 %	46,1 %	-11,8 %

MATH (matemáticas de competición)

Resolución avanzada de problemas matemáticos:

Modelo	General	Álgebra	Geometría	Teoría de números	Combinatoria
Gemma 4 31B	43,2 %	67,3 %	38,9 %	42,1 %	31,4 %
Gemma 4 26B	39,7 %	63,1 %	35,2 %	38,4 %	28,7 %
Gemma 4 E4B	24,8 %	41,2 %	19,3 %	23,7 %	15,2 %
Gemma 4 E2B	17,3 %	29,8 %	12,4 %	16,1 %	9,8 %

Rendimiento por idioma

MMLU multilingüe

Desempeño en distintos idiomas:

Idioma	31B	26B	E4B	E2B	Baseline nativo
Inglés	87,2 %	85,1 %	73,9 %	68,2 %	89,8 %
Chino	84,6 %	82,3 %	69,4 %	63,1 %	87,2 %
Español	85,3 %	83,1 %	71,2 %	65,4 %	88,4 %
Japonés	83,9 %	81,4 %	68,7 %	62,3 %	86,9 %
Francés	85,7 %	83,4 %	71,8 %	66,1 %	88,7 %
Alemán	84,8 %	82,6 %	70,3 %	64,7 %	87,6 %

Una nota para comunidades LLM hispanohablantes: con 85,3 % en MMLU-ES, Gemma 4 31B queda a poco más de 3 puntos del baseline de hablantes nativos (88,4 %) y supera a su propia puntuación en chino y japonés. Para equipos en España, México, Argentina o Colombia que quieren desplegar un modelo abierto en castellano sin depender de APIs propietarias, esta es una de las mejores opciones disponibles en 2026. La variante 26B (83,1 %) también resulta muy competitiva y cabe cómodamente en una sola RTX 4090 con cuantización INT4.

Metodología del benchmark

Condiciones de prueba

Temperatura: 0,1 para tareas deterministas, 0,7 para creativas
Top-p: 0,95 estándar en todas las pruebas
Contexto: ventana completa de 256K para 31B/26B, 10K para la serie E
Prompting: few-shot cuando se especifica, zero-shot por defecto
Hardware: A100 de 80 GB como referencia para una comparación justa

Versiones

Modelos evaluados: checkpoints oficiales de Google
Fecha: release de abril de 2026 (v1.0.0)
Framework: Transformers 4.40.0, vLLM 0.4.2
Cuantización: GPTQ para INT4, bitsandbytes para INT8

Tendencias de los benchmarks

Mejora respecto a la generación anterior

Comparando con Gemma 3 (2024):

Métrica	Gemma 3	Gemma 4	Mejora
MMLU	79,1 %	87,1 %	+10,2 %
HumanEval	61,3 %	76,8 %	+25,3 %
MT-Bench	7,83	8,52	+8,8 %
Velocidad de inferencia	19 t/s	28 t/s	+47,4 %

Cómo reproducir los benchmarks

¿Quieres verificar estas cifras por tu cuenta? Así se hace:

# Instala el harness de evaluación
pip install lm-eval transformers accelerate

# Ejecuta el benchmark MMLU
lm_eval --model hf \
  --model_args pretrained=google/gemma-4-31b \
  --tasks mmlu \
  --batch_size 8

# Ejecuta HumanEval
evaluate-humaneval \
  --model google/gemma-4-31b \
  --temperature 0.1 \
  --top_p 0.95

Para una configuración detallada, consulta nuestra guía de reproducción de benchmarks.

Limitaciones de los benchmarks

Lo que los benchmarks no miden:

El rendimiento en aplicaciones reales varía mucho según el caso de uso
La ingeniería de prompts puede subir las puntuaciones entre un 10 % y un 20 %
Las tareas específicas de dominio pueden diferir de los benchmarks generales
La integración multimodal solo se prueba en los modelos de la serie E
El rendimiento con contexto largo no queda totalmente capturado en los tests estándar

Comparativas y análisis

Comparativas directas

Compara Gemma 4 con otros modelos líderes:

Gemma 4 vs Llama 4 — comparación detallada con el último modelo de Meta
Gemma 4 vs Qwen 3.5 — frente al campeón multilingüe de Alibaba
Gemma 4 vs Mixtral — cómo se mide contra la MoE de Mistral
Gemma 4 vs Claude Opus — duelo abierto contra cerrado
Gemma 4 26B vs 31B — ¿qué tamaño es el adecuado para ti?
Gemma 4 E2B vs E4B — comparativa entre modelos edge

Análisis de rendimiento en profundidad

Test de velocidad de Gemma 4 — benchmarks reales de latencia
Ventana de contexto de Gemma 4 — análisis del contexto 256K
Function calling en Gemma 4 — resultados del benchmark de uso de herramientas

Conclusión

Gemma 4 ofrece un rendimiento sólido en todos los frentes:

El modelo 31B compite con modelos cerrados mucho más grandes
La serie E lleva la IA multimodal a los dispositivos edge
Mejoras consistentes respecto a la generación anterior
El mejor modelo abierto para muchos casos de uso

Elige según tus necesidades:

Máxima calidad: Gemma 4 31B
Mejor eficiencia: Gemma 4 26B
Despliegue móvil: Gemma 4 E2B/E4B
Tareas multimodales: solo serie E

Para guías de despliegue, consulta:

Hub completo de recursos Gemma 4

Primeros pasos

Configuración rápida con Ollama — ejecutar Gemma 4 en local en 5 minutos
Requisitos de hardware — GPU, RAM y almacenamiento para cada modelo
Acceso vía Google AI Studio — probar Gemma 4 en la nube sin configuración
Guía de descarga — todas las formas de obtener los pesos

Comparativas

Gemma 4 vs ChatGPT — local gratis frente a 20 $/mes en la nube
Gemma 4 vs Gemini — open source frente a la API propietaria de Google
Gemma 4 vs Gemma 3 — mejoras entre generaciones
Gemma 4 26B vs 31B — comparativa detallada con benchmarks
Gemma 4 E2B vs E4B — guía de selección para edge

Rendimiento y optimización

Guía de rendimiento en Mac — benchmarks en M1/M2/M3
Setup NVIDIA RTX — aceleración GPU en tarjetas RTX
Optimización de velocidad — duplica tus tokens/sec
Cuantización a 4 bits — reduce la memoria un 75 %
Despliegue móvil — ejecución en móviles y sistemas embebidos

Funciones avanzadas

Modo salida JSON — extracción de datos estructurados
Function calling — construye agentes con herramientas
Tutorial de fine-tuning — ajuste fino para tu dominio
Modo thinking — razonamiento chain-of-thought
Test de ventana de contexto — análisis de 256K

Aplicaciones prácticas

Colección de prompts — prompts probados en producción
Casos de uso y ejemplos — aplicaciones del mundo real
Setup de agente local — asistentes autónomos
Guía de troubleshooting — resolver problemas comunes
Review en chino mandarín — análisis de rendimiento en mandarín

Preguntas frecuentes

¿Cuál es la puntuación MMLU de Gemma 4?

Gemma 4 31B alcanza 87,1 % en MMLU, situándose a poco más de 2 puntos de GPT-4 (89,2 %) y superando a Llama 4 en 3,4 puntos. El modelo 26B se queda en 82,7 %, la variante E4B en 73,9 % y la E2B en 68,2 %. En STEM, el 31B llega a 89,3 %, uno de los mejores resultados entre los modelos abiertos.

¿Cómo compara con GPT-4 y Claude?

Gemma 4 31B queda entre 2 y 4 puntos por debajo de GPT-4 en MMLU y HumanEval, pero gana en TruthfulQA (+3,1 % frente a GPT-4) y en eficiencia de inferencia. Frente a Claude 3.5 Sonnet, Claude sigue ganando claramente en programación (92 % vs 76,8 % HumanEval) y en razonamiento complejo; Gemma 4 compensa con código abierto, ejecución local y coste cero. Mira la comparativa completa en Gemma 4 vs Claude.

¿Qué hardware necesito para ejecutarlo?

Depende del tamaño: el E2B corre cómodo en un móvil o una Raspberry Pi con 1,1 GB de RAM; el E4B pide 2,2 GB en 4-bit; el 26B necesita una RTX 4090 (24 GB VRAM) con cuantización INT4; y el 31B requiere dos RTX 4090 o una A100 de 40 GB para ejecutar a 28 tokens/sec. Para fine-tuning con LoRA, una A100 de 80 GB es el punto dulce.

¿Puedo reproducir los benchmarks?

Sí, todos los benchmarks son reproducibles con herramientas abiertas. Instala lm-eval y transformers, descarga los checkpoints oficiales de Google desde Hugging Face y ejecuta las tareas estándar (MMLU, HumanEval, MBPP) con temperature 0,1 y top-p 0,95. En una A100 de 80 GB, reproducir el MMLU completo tarda unas 4 horas. Ten en cuenta que las cifras pueden variar ±0,5 % según la versión del harness y el seed.

¿Cómo es el rendimiento en español?

Muy bueno. Gemma 4 31B obtiene 85,3 % en MMLU-ES, a poco más de 3 puntos del baseline de hablantes nativos (88,4 %) y por encima de sus resultados en chino (84,6 %) y japonés (83,9 %). El modelo 26B (83,1 %) es una opción muy práctica para desplegar en una sola GPU. Para equipos hispanohablantes en España, México, Argentina o Colombia que buscan un modelo abierto con buen manejo del castellano —incluyendo variantes regionales, subjuntivo y terminología técnica—, Gemma 4 es hoy una de las mejores opciones disponibles.

¿Se puede usar Gemma 4 comercialmente?

Sí. Gemma 4 se publica bajo licencia Apache 2.0, que permite uso comercial sin restricciones, incluidos productos SaaS, fine-tuning propio y redistribución de pesos adaptados. Es una ventaja clave frente a modelos con licencias más restrictivas.

¿Mejoran mucho los resultados con prompt engineering?

Sí. En nuestras pruebas, un prompting cuidado (few-shot bien elegidos, chain-of-thought explícito, formato claro de salida) sube entre 10 y 20 puntos en tareas de razonamiento y código respecto al zero-shot base. GSM8K con CoT pasa de 91,2 % a 93,7 %, por ejemplo. Invertir en prompts suele rendir más que saltar al siguiente modelo.

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />

Gemma 4 benchmark: MMLU 87,1 % HumanEval 82,7 % [2026]

Tabla de contenidos

Stop reading. Start building.

Related Guides

Los 50 Mejores Prompts para Gemma 4: Codigo, Escritura, Analisis y Multimodal (2026)

Los Mejores Modelos de IA Local en 2026: Ranking Completo y Comparacion

Aider + Gemma 4: Guía de instalación del mejor par de programación IA open source (2026)