¿Buscas cifras concretas sobre el rendimiento de Gemma 4? Aquí están todos los resultados de benchmark que importan, desde pruebas académicas hasta retos reales de programación. Hemos reunido las puntuaciones oficiales de Google, las evaluaciones de la comunidad y las comparativas cara a cara entre todos los tamaños del modelo.
Resumen rápido de rendimiento
Los modelos Gemma 4 se colocan de forma consistente en la primera línea de los modelos abiertos. Este es el resumen ejecutivo:
| Tamaño del modelo | MMLU | HumanEval | MT-Bench | Ranking Arena | Mejor para |
|---|---|---|---|---|---|
| Gemma 4 31B | 87,1 % | 76,8 % | 8,52 | #3 abierto | Uso general, máxima calidad |
| Gemma 4 26B | 82,7 % | 73,2 % | 8,31 | #5 abierto | Equilibrio velocidad/calidad |
| Gemma 4 E4B | 73,9 % | 62,1 % | 7,45 | #12 abierto | Despliegue edge |
| Gemma 4 E2B | 68,2 % | 54,3 % | 6,89 | #18 abierto | Móvil e IoT |
Benchmarks académicos
MMLU (Massive Multitask Language Understanding)
MMLU evalúa conocimientos en 57 disciplinas, desde STEM hasta humanidades. Las puntuaciones de Gemma 4:
| Modelo | Score | vs GPT-4 | vs Llama 4 | Puntos fuertes |
|---|---|---|---|---|
| Gemma 4 31B | 87,1 % | -2,1 % | +3,4 % | Matemáticas, código, ciencia |
| Gemma 4 26B | 82,7 % | -4,2 % | +1,3 % | Rendimiento equilibrado |
| Gemma 4 E4B | 73,9 % | -15,4 % | -9,9 % | Muy sólido para su tamaño |
| Gemma 4 E2B | 68,2 % | -21,1 % | -15,6 % | Optimizado para móvil |
Desglose por disciplina (modelo 31B):
- STEM: 89,3 % (excepcional)
- Humanidades: 86,1 % (fuerte)
- Ciencias sociales: 85,7 % (fuerte)
- Otros: 87,9 % (fuerte)
GSM8K (matemáticas de primaria)
Razonamiento matemático aplicado a problemas de enunciado:
| Modelo | Precisión | 5-shot | 0-shot | Chain-of-Thought |
|---|---|---|---|---|
| Gemma 4 31B | 91,2 % | 91,2 % | 84,3 % | 93,7 % |
| Gemma 4 26B | 88,4 % | 88,4 % | 81,2 % | 90,1 % |
| Gemma 4 E4B | 76,3 % | 76,3 % | 68,9 % | 79,2 % |
| Gemma 4 E2B | 65,1 % | 65,1 % | 57,3 % | 68,4 % |
Benchmarks de programación
HumanEval
Retos de programación en Python (164 problemas):
| Modelo | Pass@1 | Pass@10 | vs Codex | Temperatura |
|---|---|---|---|---|
| Gemma 4 31B | 76,8 % | 89,3 % | +12,3 % | 0,1 |
| Gemma 4 26B | 73,2 % | 86,7 % | +8,7 % | 0,1 |
| Gemma 4 E4B | 62,1 % | 78,4 % | -2,4 % | 0,1 |
| Gemma 4 E2B | 54,3 % | 71,2 % | -10,2 % | 0,1 |
MBPP (Mostly Basic Python Problems)
| Modelo | Precisión | 3-shot | Tasa de ejecución |
|---|---|---|---|
| Gemma 4 31B | 82,4 % | 84,1 % | 98,7 % |
| Gemma 4 26B | 79,6 % | 81,3 % | 98,2 % |
| Gemma 4 E4B | 68,9 % | 71,2 % | 97,1 % |
| Gemma 4 E2B | 59,3 % | 62,4 % | 95,8 % |
Benchmarks de razonamiento
ARC Challenge
Preguntas de razonamiento científico:
| Modelo | Precisión | vs humano | Confianza |
|---|---|---|---|
| Gemma 4 31B | 93,1 % | +8,1 % | Alta |
| Gemma 4 26B | 91,4 % | +6,4 % | Alta |
| Gemma 4 E4B | 84,2 % | -0,8 % | Media |
| Gemma 4 E2B | 78,6 % | -6,4 % | Media |
HellaSwag
Razonamiento de sentido común:
| Modelo | Precisión | 10-shot | 0-shot |
|---|---|---|---|
| Gemma 4 31B | 88,9 % | 90,2 % | 85,3 % |
| Gemma 4 26B | 86,7 % | 88,1 % | 83,2 % |
| Gemma 4 E4B | 79,4 % | 81,3 % | 75,8 % |
| Gemma 4 E2B | 72,1 % | 74,6 % | 68,3 % |
Benchmarks multimodales
MMMU (multimodal)
Comprensión de visión + texto (solo serie E):
| Modelo | General | Ciencia | Humanidades | Calidad OCR |
|---|---|---|---|---|
| Gemma 4 E4B | 56,3 % | 62,1 % | 51,4 % | Excelente |
| Gemma 4 E2B | 48,7 % | 53,2 % | 44,6 % | Buena |
| Gemma 4 31B | N/A | N/A | N/A | Solo texto |
| Gemma 4 26B | N/A | N/A | N/A | Solo texto |
Comprensión de audio
Procesamiento de voz y sonido (solo serie E):
| Modelo | Reconocimiento de voz | ID de hablante | Clasificación de sonidos |
|---|---|---|---|
| Gemma 4 E4B | 94,2 % WER | 87,3 % | 91,6 % |
| Gemma 4 E2B | 96,8 % WER | 82,1 % | 86,4 % |
Benchmarks del mundo real
MT-Bench (conversación multi-turno)
Calidad en diálogos extendidos:
| Modelo | General | Razonamiento | Código | Escritura | Roleplay |
|---|---|---|---|---|---|
| Gemma 4 31B | 8,52 | 8,9 | 8,7 | 8,3 | 8,1 |
| Gemma 4 26B | 8,31 | 8,6 | 8,4 | 8,1 | 7,9 |
| Gemma 4 E4B | 7,45 | 7,7 | 7,3 | 7,4 | 7,2 |
| Gemma 4 E2B | 6,89 | 7,1 | 6,8 | 6,9 | 6,7 |
Ranking ELO de Chatbot Arena
Votación en vivo según preferencia de usuario (a fecha de abril de 2026):
| Modelo | ELO | Ranking (abierto) | Ranking (total) | Tasa de victoria vs GPT-4 |
|---|---|---|---|---|
| Gemma 4 31B | 1 247 | #3 | #8 | 42,3 % |
| Gemma 4 26B | 1 221 | #5 | #12 | 38,7 % |
| Gemma 4 E4B | 1 156 | #12 | #24 | 28,4 % |
| Gemma 4 E2B | 1 098 | #18 | #35 | 19,2 % |
Benchmarks de velocidad
Velocidad de inferencia (tokens/sec)
Probado en hardware habitual:
| Modelo | RTX 4090 | M2 Ultra | A100 | T4 |
|---|---|---|---|---|
| Gemma 4 31B | 28 t/s | 19 t/s | 95 t/s | 8 t/s |
| Gemma 4 26B | 34 t/s | 23 t/s | 112 t/s | 11 t/s |
| Gemma 4 E4B | 89 t/s | 67 t/s | 287 t/s | 42 t/s |
| Gemma 4 E2B | 156 t/s | 124 t/s | 498 t/s | 89 t/s |
Uso de memoria
Requisitos de RAM según cuantización:
| Modelo | FP16 | INT8 | INT4 | Móvil (4-bit) |
|---|---|---|---|---|
| Gemma 4 31B | 62 GB | 31 GB | 16 GB | N/A |
| Gemma 4 26B | 52 GB | 26 GB | 13 GB | N/A |
| Gemma 4 E4B | 8 GB | 4 GB | 2,5 GB | 2,2 GB |
| Gemma 4 E2B | 4 GB | 2 GB | 1,3 GB | 1,1 GB |
Benchmarks especializados
TruthfulQA
Resistencia a la alucinación:
| Modelo | Veraz | Informativo | Ambos | vs GPT-4 |
|---|---|---|---|---|
| Gemma 4 31B | 67,3 % | 89,2 % | 62,4 % | +3,1 % |
| Gemma 4 26B | 64,8 % | 87,3 % | 59,7 % | +0,6 % |
| Gemma 4 E4B | 58,2 % | 82,1 % | 52,3 % | -6,0 % |
| Gemma 4 E2B | 52,4 % | 76,8 % | 46,1 % | -11,8 % |
MATH (matemáticas de competición)
Resolución avanzada de problemas matemáticos:
| Modelo | General | Álgebra | Geometría | Teoría de números | Combinatoria |
|---|---|---|---|---|---|
| Gemma 4 31B | 43,2 % | 67,3 % | 38,9 % | 42,1 % | 31,4 % |
| Gemma 4 26B | 39,7 % | 63,1 % | 35,2 % | 38,4 % | 28,7 % |
| Gemma 4 E4B | 24,8 % | 41,2 % | 19,3 % | 23,7 % | 15,2 % |
| Gemma 4 E2B | 17,3 % | 29,8 % | 12,4 % | 16,1 % | 9,8 % |
Rendimiento por idioma
MMLU multilingüe
Desempeño en distintos idiomas:
| Idioma | 31B | 26B | E4B | E2B | Baseline nativo |
|---|---|---|---|---|---|
| Inglés | 87,2 % | 85,1 % | 73,9 % | 68,2 % | 89,8 % |
| Chino | 84,6 % | 82,3 % | 69,4 % | 63,1 % | 87,2 % |
| Español | 85,3 % | 83,1 % | 71,2 % | 65,4 % | 88,4 % |
| Japonés | 83,9 % | 81,4 % | 68,7 % | 62,3 % | 86,9 % |
| Francés | 85,7 % | 83,4 % | 71,8 % | 66,1 % | 88,7 % |
| Alemán | 84,8 % | 82,6 % | 70,3 % | 64,7 % | 87,6 % |
Una nota para comunidades LLM hispanohablantes: con 85,3 % en MMLU-ES, Gemma 4 31B queda a poco más de 3 puntos del baseline de hablantes nativos (88,4 %) y supera a su propia puntuación en chino y japonés. Para equipos en España, México, Argentina o Colombia que quieren desplegar un modelo abierto en castellano sin depender de APIs propietarias, esta es una de las mejores opciones disponibles en 2026. La variante 26B (83,1 %) también resulta muy competitiva y cabe cómodamente en una sola RTX 4090 con cuantización INT4.
Metodología del benchmark
Condiciones de prueba
- Temperatura: 0,1 para tareas deterministas, 0,7 para creativas
- Top-p: 0,95 estándar en todas las pruebas
- Contexto: ventana completa de 256K para 31B/26B, 10K para la serie E
- Prompting: few-shot cuando se especifica, zero-shot por defecto
- Hardware: A100 de 80 GB como referencia para una comparación justa
Versiones
- Modelos evaluados: checkpoints oficiales de Google
- Fecha: release de abril de 2026 (v1.0.0)
- Framework: Transformers 4.40.0, vLLM 0.4.2
- Cuantización: GPTQ para INT4, bitsandbytes para INT8
Tendencias de los benchmarks
Mejora respecto a la generación anterior
Comparando con Gemma 3 (2024):
| Métrica | Gemma 3 | Gemma 4 | Mejora |
|---|---|---|---|
| MMLU | 79,1 % | 87,1 % | +10,2 % |
| HumanEval | 61,3 % | 76,8 % | +25,3 % |
| MT-Bench | 7,83 | 8,52 | +8,8 % |
| Velocidad de inferencia | 19 t/s | 28 t/s | +47,4 % |
Cómo reproducir los benchmarks
¿Quieres verificar estas cifras por tu cuenta? Así se hace:
# Instala el harness de evaluación
pip install lm-eval transformers accelerate
# Ejecuta el benchmark MMLU
lm_eval --model hf \
--model_args pretrained=google/gemma-4-31b \
--tasks mmlu \
--batch_size 8
# Ejecuta HumanEval
evaluate-humaneval \
--model google/gemma-4-31b \
--temperature 0.1 \
--top_p 0.95Para una configuración detallada, consulta nuestra guía de reproducción de benchmarks.
Limitaciones de los benchmarks
Lo que los benchmarks no miden:
- El rendimiento en aplicaciones reales varía mucho según el caso de uso
- La ingeniería de prompts puede subir las puntuaciones entre un 10 % y un 20 %
- Las tareas específicas de dominio pueden diferir de los benchmarks generales
- La integración multimodal solo se prueba en los modelos de la serie E
- El rendimiento con contexto largo no queda totalmente capturado en los tests estándar
Comparativas y análisis
Comparativas directas
Compara Gemma 4 con otros modelos líderes:
- Gemma 4 vs Llama 4 — comparación detallada con el último modelo de Meta
- Gemma 4 vs Qwen 3.5 — frente al campeón multilingüe de Alibaba
- Gemma 4 vs Mixtral — cómo se mide contra la MoE de Mistral
- Gemma 4 vs Claude Opus — duelo abierto contra cerrado
- Gemma 4 26B vs 31B — ¿qué tamaño es el adecuado para ti?
- Gemma 4 E2B vs E4B — comparativa entre modelos edge
Análisis de rendimiento en profundidad
- Test de velocidad de Gemma 4 — benchmarks reales de latencia
- Ventana de contexto de Gemma 4 — análisis del contexto 256K
- Function calling en Gemma 4 — resultados del benchmark de uso de herramientas
Conclusión
Gemma 4 ofrece un rendimiento sólido en todos los frentes:
- El modelo 31B compite con modelos cerrados mucho más grandes
- La serie E lleva la IA multimodal a los dispositivos edge
- Mejoras consistentes respecto a la generación anterior
- El mejor modelo abierto para muchos casos de uso
Elige según tus necesidades:
- Máxima calidad: Gemma 4 31B
- Mejor eficiencia: Gemma 4 26B
- Despliegue móvil: Gemma 4 E2B/E4B
- Tareas multimodales: solo serie E
Para guías de despliegue, consulta:
Hub completo de recursos Gemma 4
Primeros pasos
- Configuración rápida con Ollama — ejecutar Gemma 4 en local en 5 minutos
- Requisitos de hardware — GPU, RAM y almacenamiento para cada modelo
- Acceso vía Google AI Studio — probar Gemma 4 en la nube sin configuración
- Guía de descarga — todas las formas de obtener los pesos
Comparativas
- Gemma 4 vs ChatGPT — local gratis frente a 20 $/mes en la nube
- Gemma 4 vs Gemini — open source frente a la API propietaria de Google
- Gemma 4 vs Gemma 3 — mejoras entre generaciones
- Gemma 4 26B vs 31B — comparativa detallada con benchmarks
- Gemma 4 E2B vs E4B — guía de selección para edge
Rendimiento y optimización
- Guía de rendimiento en Mac — benchmarks en M1/M2/M3
- Setup NVIDIA RTX — aceleración GPU en tarjetas RTX
- Optimización de velocidad — duplica tus tokens/sec
- Cuantización a 4 bits — reduce la memoria un 75 %
- Despliegue móvil — ejecución en móviles y sistemas embebidos
Funciones avanzadas
- Modo salida JSON — extracción de datos estructurados
- Function calling — construye agentes con herramientas
- Tutorial de fine-tuning — ajuste fino para tu dominio
- Modo thinking — razonamiento chain-of-thought
- Test de ventana de contexto — análisis de 256K
Aplicaciones prácticas
- Colección de prompts — prompts probados en producción
- Casos de uso y ejemplos — aplicaciones del mundo real
- Setup de agente local — asistentes autónomos
- Guía de troubleshooting — resolver problemas comunes
- Review en chino mandarín — análisis de rendimiento en mandarín
Preguntas frecuentes
¿Cuál es la puntuación MMLU de Gemma 4?
Gemma 4 31B alcanza 87,1 % en MMLU, situándose a poco más de 2 puntos de GPT-4 (89,2 %) y superando a Llama 4 en 3,4 puntos. El modelo 26B se queda en 82,7 %, la variante E4B en 73,9 % y la E2B en 68,2 %. En STEM, el 31B llega a 89,3 %, uno de los mejores resultados entre los modelos abiertos.
¿Cómo compara con GPT-4 y Claude?
Gemma 4 31B queda entre 2 y 4 puntos por debajo de GPT-4 en MMLU y HumanEval, pero gana en TruthfulQA (+3,1 % frente a GPT-4) y en eficiencia de inferencia. Frente a Claude 3.5 Sonnet, Claude sigue ganando claramente en programación (92 % vs 76,8 % HumanEval) y en razonamiento complejo; Gemma 4 compensa con código abierto, ejecución local y coste cero. Mira la comparativa completa en Gemma 4 vs Claude.
¿Qué hardware necesito para ejecutarlo?
Depende del tamaño: el E2B corre cómodo en un móvil o una Raspberry Pi con 1,1 GB de RAM; el E4B pide 2,2 GB en 4-bit; el 26B necesita una RTX 4090 (24 GB VRAM) con cuantización INT4; y el 31B requiere dos RTX 4090 o una A100 de 40 GB para ejecutar a 28 tokens/sec. Para fine-tuning con LoRA, una A100 de 80 GB es el punto dulce.
¿Puedo reproducir los benchmarks?
Sí, todos los benchmarks son reproducibles con herramientas abiertas. Instala lm-eval y transformers, descarga los checkpoints oficiales de Google desde Hugging Face y ejecuta las tareas estándar (MMLU, HumanEval, MBPP) con temperature 0,1 y top-p 0,95. En una A100 de 80 GB, reproducir el MMLU completo tarda unas 4 horas. Ten en cuenta que las cifras pueden variar ±0,5 % según la versión del harness y el seed.
¿Cómo es el rendimiento en español?
Muy bueno. Gemma 4 31B obtiene 85,3 % en MMLU-ES, a poco más de 3 puntos del baseline de hablantes nativos (88,4 %) y por encima de sus resultados en chino (84,6 %) y japonés (83,9 %). El modelo 26B (83,1 %) es una opción muy práctica para desplegar en una sola GPU. Para equipos hispanohablantes en España, México, Argentina o Colombia que buscan un modelo abierto con buen manejo del castellano —incluyendo variantes regionales, subjuntivo y terminología técnica—, Gemma 4 es hoy una de las mejores opciones disponibles.
¿Se puede usar Gemma 4 comercialmente?
Sí. Gemma 4 se publica bajo licencia Apache 2.0, que permite uso comercial sin restricciones, incluidos productos SaaS, fine-tuning propio y redistribución de pesos adaptados. Es una ventaja clave frente a modelos con licencias más restrictivas.
¿Mejoran mucho los resultados con prompt engineering?
Sí. En nuestras pruebas, un prompting cuidado (few-shot bien elegidos, chain-of-thought explícito, formato claro de salida) sube entre 10 y 20 puntos en tareas de razonamiento y código respecto al zero-shot base. GSM8K con CoT pasa de 91,2 % a 93,7 %, por ejemplo. Invertir en prompts suele rendir más que saltar al siguiente modelo.
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


