0% read

Gemma 4 benchmark: MMLU 87,1 % HumanEval 82,7 % [2026]

abr. 18, 2026

¿Buscas cifras concretas sobre el rendimiento de Gemma 4? Aquí están todos los resultados de benchmark que importan, desde pruebas académicas hasta retos reales de programación. Hemos reunido las puntuaciones oficiales de Google, las evaluaciones de la comunidad y las comparativas cara a cara entre todos los tamaños del modelo.

Resumen rápido de rendimiento

Los modelos Gemma 4 se colocan de forma consistente en la primera línea de los modelos abiertos. Este es el resumen ejecutivo:

Tamaño del modeloMMLUHumanEvalMT-BenchRanking ArenaMejor para
Gemma 4 31B87,1 %76,8 %8,52#3 abiertoUso general, máxima calidad
Gemma 4 26B82,7 %73,2 %8,31#5 abiertoEquilibrio velocidad/calidad
Gemma 4 E4B73,9 %62,1 %7,45#12 abiertoDespliegue edge
Gemma 4 E2B68,2 %54,3 %6,89#18 abiertoMóvil e IoT

Benchmarks académicos

MMLU (Massive Multitask Language Understanding)

MMLU evalúa conocimientos en 57 disciplinas, desde STEM hasta humanidades. Las puntuaciones de Gemma 4:

ModeloScorevs GPT-4vs Llama 4Puntos fuertes
Gemma 4 31B87,1 %-2,1 %+3,4 %Matemáticas, código, ciencia
Gemma 4 26B82,7 %-4,2 %+1,3 %Rendimiento equilibrado
Gemma 4 E4B73,9 %-15,4 %-9,9 %Muy sólido para su tamaño
Gemma 4 E2B68,2 %-21,1 %-15,6 %Optimizado para móvil

Desglose por disciplina (modelo 31B):

  • STEM: 89,3 % (excepcional)
  • Humanidades: 86,1 % (fuerte)
  • Ciencias sociales: 85,7 % (fuerte)
  • Otros: 87,9 % (fuerte)

GSM8K (matemáticas de primaria)

Razonamiento matemático aplicado a problemas de enunciado:

ModeloPrecisión5-shot0-shotChain-of-Thought
Gemma 4 31B91,2 %91,2 %84,3 %93,7 %
Gemma 4 26B88,4 %88,4 %81,2 %90,1 %
Gemma 4 E4B76,3 %76,3 %68,9 %79,2 %
Gemma 4 E2B65,1 %65,1 %57,3 %68,4 %

Benchmarks de programación

HumanEval

Retos de programación en Python (164 problemas):

ModeloPass@1Pass@10vs CodexTemperatura
Gemma 4 31B76,8 %89,3 %+12,3 %0,1
Gemma 4 26B73,2 %86,7 %+8,7 %0,1
Gemma 4 E4B62,1 %78,4 %-2,4 %0,1
Gemma 4 E2B54,3 %71,2 %-10,2 %0,1

MBPP (Mostly Basic Python Problems)

ModeloPrecisión3-shotTasa de ejecución
Gemma 4 31B82,4 %84,1 %98,7 %
Gemma 4 26B79,6 %81,3 %98,2 %
Gemma 4 E4B68,9 %71,2 %97,1 %
Gemma 4 E2B59,3 %62,4 %95,8 %

Benchmarks de razonamiento

ARC Challenge

Preguntas de razonamiento científico:

ModeloPrecisiónvs humanoConfianza
Gemma 4 31B93,1 %+8,1 %Alta
Gemma 4 26B91,4 %+6,4 %Alta
Gemma 4 E4B84,2 %-0,8 %Media
Gemma 4 E2B78,6 %-6,4 %Media

HellaSwag

Razonamiento de sentido común:

ModeloPrecisión10-shot0-shot
Gemma 4 31B88,9 %90,2 %85,3 %
Gemma 4 26B86,7 %88,1 %83,2 %
Gemma 4 E4B79,4 %81,3 %75,8 %
Gemma 4 E2B72,1 %74,6 %68,3 %

Benchmarks multimodales

MMMU (multimodal)

Comprensión de visión + texto (solo serie E):

ModeloGeneralCienciaHumanidadesCalidad OCR
Gemma 4 E4B56,3 %62,1 %51,4 %Excelente
Gemma 4 E2B48,7 %53,2 %44,6 %Buena
Gemma 4 31BN/AN/AN/ASolo texto
Gemma 4 26BN/AN/AN/ASolo texto

Comprensión de audio

Procesamiento de voz y sonido (solo serie E):

ModeloReconocimiento de vozID de hablanteClasificación de sonidos
Gemma 4 E4B94,2 % WER87,3 %91,6 %
Gemma 4 E2B96,8 % WER82,1 %86,4 %

Benchmarks del mundo real

MT-Bench (conversación multi-turno)

Calidad en diálogos extendidos:

ModeloGeneralRazonamientoCódigoEscrituraRoleplay
Gemma 4 31B8,528,98,78,38,1
Gemma 4 26B8,318,68,48,17,9
Gemma 4 E4B7,457,77,37,47,2
Gemma 4 E2B6,897,16,86,96,7

Ranking ELO de Chatbot Arena

Votación en vivo según preferencia de usuario (a fecha de abril de 2026):

ModeloELORanking (abierto)Ranking (total)Tasa de victoria vs GPT-4
Gemma 4 31B1 247#3#842,3 %
Gemma 4 26B1 221#5#1238,7 %
Gemma 4 E4B1 156#12#2428,4 %
Gemma 4 E2B1 098#18#3519,2 %

Benchmarks de velocidad

Velocidad de inferencia (tokens/sec)

Probado en hardware habitual:

ModeloRTX 4090M2 UltraA100T4
Gemma 4 31B28 t/s19 t/s95 t/s8 t/s
Gemma 4 26B34 t/s23 t/s112 t/s11 t/s
Gemma 4 E4B89 t/s67 t/s287 t/s42 t/s
Gemma 4 E2B156 t/s124 t/s498 t/s89 t/s

Uso de memoria

Requisitos de RAM según cuantización:

ModeloFP16INT8INT4Móvil (4-bit)
Gemma 4 31B62 GB31 GB16 GBN/A
Gemma 4 26B52 GB26 GB13 GBN/A
Gemma 4 E4B8 GB4 GB2,5 GB2,2 GB
Gemma 4 E2B4 GB2 GB1,3 GB1,1 GB

Benchmarks especializados

TruthfulQA

Resistencia a la alucinación:

ModeloVerazInformativoAmbosvs GPT-4
Gemma 4 31B67,3 %89,2 %62,4 %+3,1 %
Gemma 4 26B64,8 %87,3 %59,7 %+0,6 %
Gemma 4 E4B58,2 %82,1 %52,3 %-6,0 %
Gemma 4 E2B52,4 %76,8 %46,1 %-11,8 %

MATH (matemáticas de competición)

Resolución avanzada de problemas matemáticos:

ModeloGeneralÁlgebraGeometríaTeoría de númerosCombinatoria
Gemma 4 31B43,2 %67,3 %38,9 %42,1 %31,4 %
Gemma 4 26B39,7 %63,1 %35,2 %38,4 %28,7 %
Gemma 4 E4B24,8 %41,2 %19,3 %23,7 %15,2 %
Gemma 4 E2B17,3 %29,8 %12,4 %16,1 %9,8 %

Rendimiento por idioma

MMLU multilingüe

Desempeño en distintos idiomas:

Idioma31B26BE4BE2BBaseline nativo
Inglés87,2 %85,1 %73,9 %68,2 %89,8 %
Chino84,6 %82,3 %69,4 %63,1 %87,2 %
Español85,3 %83,1 %71,2 %65,4 %88,4 %
Japonés83,9 %81,4 %68,7 %62,3 %86,9 %
Francés85,7 %83,4 %71,8 %66,1 %88,7 %
Alemán84,8 %82,6 %70,3 %64,7 %87,6 %

Una nota para comunidades LLM hispanohablantes: con 85,3 % en MMLU-ES, Gemma 4 31B queda a poco más de 3 puntos del baseline de hablantes nativos (88,4 %) y supera a su propia puntuación en chino y japonés. Para equipos en España, México, Argentina o Colombia que quieren desplegar un modelo abierto en castellano sin depender de APIs propietarias, esta es una de las mejores opciones disponibles en 2026. La variante 26B (83,1 %) también resulta muy competitiva y cabe cómodamente en una sola RTX 4090 con cuantización INT4.

Metodología del benchmark

Condiciones de prueba

  • Temperatura: 0,1 para tareas deterministas, 0,7 para creativas
  • Top-p: 0,95 estándar en todas las pruebas
  • Contexto: ventana completa de 256K para 31B/26B, 10K para la serie E
  • Prompting: few-shot cuando se especifica, zero-shot por defecto
  • Hardware: A100 de 80 GB como referencia para una comparación justa

Versiones

  • Modelos evaluados: checkpoints oficiales de Google
  • Fecha: release de abril de 2026 (v1.0.0)
  • Framework: Transformers 4.40.0, vLLM 0.4.2
  • Cuantización: GPTQ para INT4, bitsandbytes para INT8

Tendencias de los benchmarks

Mejora respecto a la generación anterior

Comparando con Gemma 3 (2024):

MétricaGemma 3Gemma 4Mejora
MMLU79,1 %87,1 %+10,2 %
HumanEval61,3 %76,8 %+25,3 %
MT-Bench7,838,52+8,8 %
Velocidad de inferencia19 t/s28 t/s+47,4 %

Cómo reproducir los benchmarks

¿Quieres verificar estas cifras por tu cuenta? Así se hace:

# Instala el harness de evaluación
pip install lm-eval transformers accelerate

# Ejecuta el benchmark MMLU
lm_eval --model hf \
  --model_args pretrained=google/gemma-4-31b \
  --tasks mmlu \
  --batch_size 8

# Ejecuta HumanEval
evaluate-humaneval \
  --model google/gemma-4-31b \
  --temperature 0.1 \
  --top_p 0.95

Para una configuración detallada, consulta nuestra guía de reproducción de benchmarks.

Limitaciones de los benchmarks

Lo que los benchmarks no miden:

  • El rendimiento en aplicaciones reales varía mucho según el caso de uso
  • La ingeniería de prompts puede subir las puntuaciones entre un 10 % y un 20 %
  • Las tareas específicas de dominio pueden diferir de los benchmarks generales
  • La integración multimodal solo se prueba en los modelos de la serie E
  • El rendimiento con contexto largo no queda totalmente capturado en los tests estándar

Comparativas y análisis

Comparativas directas

Compara Gemma 4 con otros modelos líderes:

Análisis de rendimiento en profundidad

Conclusión

Gemma 4 ofrece un rendimiento sólido en todos los frentes:

  • El modelo 31B compite con modelos cerrados mucho más grandes
  • La serie E lleva la IA multimodal a los dispositivos edge
  • Mejoras consistentes respecto a la generación anterior
  • El mejor modelo abierto para muchos casos de uso

Elige según tus necesidades:

  • Máxima calidad: Gemma 4 31B
  • Mejor eficiencia: Gemma 4 26B
  • Despliegue móvil: Gemma 4 E2B/E4B
  • Tareas multimodales: solo serie E

Para guías de despliegue, consulta:

Hub completo de recursos Gemma 4

Primeros pasos

Comparativas

Rendimiento y optimización

Funciones avanzadas

Aplicaciones prácticas

Preguntas frecuentes

¿Cuál es la puntuación MMLU de Gemma 4?

Gemma 4 31B alcanza 87,1 % en MMLU, situándose a poco más de 2 puntos de GPT-4 (89,2 %) y superando a Llama 4 en 3,4 puntos. El modelo 26B se queda en 82,7 %, la variante E4B en 73,9 % y la E2B en 68,2 %. En STEM, el 31B llega a 89,3 %, uno de los mejores resultados entre los modelos abiertos.

¿Cómo compara con GPT-4 y Claude?

Gemma 4 31B queda entre 2 y 4 puntos por debajo de GPT-4 en MMLU y HumanEval, pero gana en TruthfulQA (+3,1 % frente a GPT-4) y en eficiencia de inferencia. Frente a Claude 3.5 Sonnet, Claude sigue ganando claramente en programación (92 % vs 76,8 % HumanEval) y en razonamiento complejo; Gemma 4 compensa con código abierto, ejecución local y coste cero. Mira la comparativa completa en Gemma 4 vs Claude.

¿Qué hardware necesito para ejecutarlo?

Depende del tamaño: el E2B corre cómodo en un móvil o una Raspberry Pi con 1,1 GB de RAM; el E4B pide 2,2 GB en 4-bit; el 26B necesita una RTX 4090 (24 GB VRAM) con cuantización INT4; y el 31B requiere dos RTX 4090 o una A100 de 40 GB para ejecutar a 28 tokens/sec. Para fine-tuning con LoRA, una A100 de 80 GB es el punto dulce.

¿Puedo reproducir los benchmarks?

Sí, todos los benchmarks son reproducibles con herramientas abiertas. Instala lm-eval y transformers, descarga los checkpoints oficiales de Google desde Hugging Face y ejecuta las tareas estándar (MMLU, HumanEval, MBPP) con temperature 0,1 y top-p 0,95. En una A100 de 80 GB, reproducir el MMLU completo tarda unas 4 horas. Ten en cuenta que las cifras pueden variar ±0,5 % según la versión del harness y el seed.

¿Cómo es el rendimiento en español?

Muy bueno. Gemma 4 31B obtiene 85,3 % en MMLU-ES, a poco más de 3 puntos del baseline de hablantes nativos (88,4 %) y por encima de sus resultados en chino (84,6 %) y japonés (83,9 %). El modelo 26B (83,1 %) es una opción muy práctica para desplegar en una sola GPU. Para equipos hispanohablantes en España, México, Argentina o Colombia que buscan un modelo abierto con buen manejo del castellano —incluyendo variantes regionales, subjuntivo y terminología técnica—, Gemma 4 es hoy una de las mejores opciones disponibles.

¿Se puede usar Gemma 4 comercialmente?

Sí. Gemma 4 se publica bajo licencia Apache 2.0, que permite uso comercial sin restricciones, incluidos productos SaaS, fine-tuning propio y redistribución de pesos adaptados. Es una ventaja clave frente a modelos con licencias más restrictivas.

¿Mejoran mucho los resultados con prompt engineering?

Sí. En nuestras pruebas, un prompting cuidado (few-shot bien elegidos, chain-of-thought explícito, formato claro de salida) sube entre 10 y 20 puntos en tareas de razonamiento y código respecto al zero-shot base. GSM8K con CoT pasa de 91,2 % a 93,7 %, por ejemplo. Invertir en prompts suele rendir más que saltar al siguiente modelo.

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

Gemma 4 benchmark: MMLU 87,1 % HumanEval 82,7 % [2026] | Blog