Gemma 4 E2B vs E4B: ¿Qué modelo pequeño elegir?

La línea de modelos pequeños de Gemma 4 tiene dos opciones: E2B (2 mil millones de parámetros) y E4B (4 mil millones de parámetros). Ambos están diseñados para ejecutarse en hardware limitado, pero la diferencia entre ellos es mayor de lo que sugiere la cantidad de parámetros. Veamos cómo se comparan.

¿Qué son E2B y E4B?

Ambos son modelos densos ligeros optimizados para inferencia en el dispositivo. Sin enrutamiento MoE, sin expertos — solo redes compactas diseñadas para caber en presupuestos de memoria ajustados.

E2B es el modelo más pequeño de la familia Gemma 4. Con 2 mil millones de parámetros, está construido para escenarios donde cada megabyte de RAM cuenta — teléfonos, Raspberry Pi, dispositivos IoT y sistemas embebidos.

E4B duplica la cantidad de parámetros a 4 mil millones. Sigue siendo lo suficientemente pequeño para ejecutar localmente en un laptop o un teléfono decente, pero rinde muy por encima de lo esperado en razonamiento, programación y tareas multimodales.

Modelos Pequeños Gemma 4:
┌──────────────────────────────────────┐
│  E2B (2B parámetros)                 │
│  Ultra-compacto · Teléfonos · Edge   │
│  ~250 MB RAM (CoreML) · 11 tok/s     │
├──────────────────────────────────────┤
│  E4B (4B parámetros)                 │
│  Compacto · Laptops · Uso diario     │
│  ~1.5 GB RAM (Q4) · 35 tok/s         │
└──────────────────────────────────────┘

Comparación directa

Métrica	E2B (2B)	E4B (4B)
Parámetros	2B	4B
Tamaño del modelo (FP16)	~4 GB	~8 GB
Tamaño del modelo (Q4_K_M)	~1.2 GB	~2.5 GB
RAM (Q4_K_M)	~1.5 GB	~3 GB
RAM (CoreML, iPhone)	~250 MB	~800 MB
Ventana de contexto	8K	32K
Multimodal	Solo texto	Texto + Imagen

Las diferencias de tamaño de archivo y RAM son aproximadamente 2x, lo cual tiene sentido dado el número de parámetros. Pero la verdadera historia está en la longitud de contexto y el soporte multimodal — E4B tiene 4x más contexto y puede procesar imágenes.

Comparación de velocidad

E2B es más rápido en el mismo hardware, pero E4B sigue siendo suficientemente rápido para uso interactivo:

Hardware	E2B (tok/s)	E4B (tok/s)	Ventaja E2B
iPhone 15 Pro (CoreML)	~11	~5	2.2x
iPhone 16 Pro (CoreML)	~15	~7	2.1x
Raspberry Pi 5 (8GB)	~8	~4	2x
M3 MacBook Air (Q4)	~65	~35	1.9x
RTX 3060 12GB (Q4)	~120	~70	1.7x

En un iPhone con CoreML-LLM, E2B funciona a unos 11 tokens por segundo usando solo 250 MB de RAM y consumiendo alrededor de 2W de potencia. Esto es genuinamente utilizable para chat en tiempo real en un teléfono sin agotar la batería.

E4B tiene aproximadamente la mitad de velocidad en móvil, pero en un laptop o escritorio sigue siendo lo suficientemente rápido como para no notar la diferencia en la práctica.

Comparación de calidad

Aquí es donde E4B se destaca significativamente:

Benchmark	E2B (2B)	E4B (4B)	Ganador
MMLU	52.1	61.8	E4B (+9.7)
HumanEval	38.4	52.6	E4B (+14.2)
GSM8K	45.2	62.1	E4B (+16.9)
MATH	18.3	28.7	E4B (+10.4)
ARC-Challenge	48.9	57.3	E4B (+8.4)
Promedio	40.6	52.5	E4B (+11.9)

A diferencia de la comparación 26B vs 31B donde la brecha de calidad era de 1-2 puntos, aquí la diferencia es enorme — casi 12 puntos de promedio. E4B es significativamente más inteligente, especialmente en matemáticas y código.

Dónde notarás la diferencia

Q&A y chat simples: Ambos manejan conversaciones básicas bien. E2B ocasionalmente produce respuestas largas menos coherentes.
Razonamiento y matemáticas: E4B es significativamente mejor. E2B tiene problemas con problemas de múltiples pasos.
Generación de código: E4B escribe snippets de código utilizables. E2B puede autocompletar pero tiene dificultades con implementaciones completas de funciones.
Multilingüe: E4B maneja chino, japonés, coreano e idiomas europeos mucho mejor. E2B es principalmente capaz solo en inglés.
Comprensión de imágenes: Solo E4B soporta esto. Si necesitas visión, la elección está hecha.

Cuándo elegir E2B

E2B es la elección correcta cuando estás operando en el límite absoluto de lo que el hardware puede soportar:

Teléfonos con RAM limitada — iPhones antiguos, dispositivos Android económicos donde 250 MB es todo lo que puedes dedicar
Raspberry Pi y SBCs — funciona bien en un Pi 5 con 4GB de RAM
IoT y embebidos — dispositivos de hogar inteligente, asistentes siempre encendidos con presupuesto de energía mínimo
Extracción de palabras clave y clasificación offline — cuando solo necesitas NLP básico, no razonamiento completo
CoreML-LLM en iPhone — 11 tok/s con 250 MB de RAM y 2W de potencia es notable para IA en el dispositivo
Procesamiento por lotes a gran escala — cuando necesitas procesar millones de elementos y el costo por inferencia importa

Si tu caso de uso es "responder consultas simples en un dispositivo con muy poca RAM", E2B cumple con el trabajo.

Cuándo elegir E4B

E4B es la mejor opción para la mayoría de personas que quieren un modelo local pequeño:

Laptops para uso diario — suficientemente rápido para chat interactivo, suficientemente inteligente para trabajo real
Teléfonos mejores — iPhone 14 Pro en adelante, Android flagship con 6GB+ de RAM
Asistente de programación — realmente útil para completar y generar código
Tareas multimodales — subtitulado de imágenes, Q&A visual, comprensión de documentos
Conversaciones más largas — 32K de contexto vs los 8K de E2B, puede manejar hilos mucho más largos
Uso multilingüe — si trabajas en idiomas distintos al inglés, E4B es drásticamente mejor
Servidores edge — suficientemente pequeño para un mini PC, suficientemente inteligente para ser útil

Para más detalles sobre ejecutar estos modelos en teléfonos, consulta la Guía de Despliegue Móvil.

Tabla de decisión rápida

Tu situación	Elige
Teléfono con RAM libre <1GB	E2B
Raspberry Pi / embebido	E2B
Siempre encendido, ultra bajo consumo	E2B
Laptop o escritorio	E4B
Necesitas comprensión de imágenes	E4B
Asistencia de programación	E4B
Uso multilingüe	E4B
Conversaciones largas (>8K tokens)	E4B
Clasificación de texto simple	E2B
IA local de propósito general	E4B

E2B y E4B vs modelos más grandes

¿Dónde encajan estos modelos pequeños en la línea completa de Gemma 4?

Modelo	Parámetros	RAM (Q4)	Velocidad (M3 Air)	Calidad (prom.)
E2B	2B	~1.5 GB	~65 tok/s	40.6
E4B	4B	~3 GB	~35 tok/s	52.5
12B	12B	~7 GB	~20 tok/s	67.8
26B MoE	26B	~15 GB	~12 tok/s	72.4

Hay una escalera de calidad clara. Cada paso hacia arriba aproximadamente duplica la RAM y reduce la velocidad a la mitad. Para el panorama completo, consulta ¿Qué modelo Gemma 4 deberías elegir?

Requisitos de hardware

Para recomendaciones detalladas de hardware, revisa la Guía de Hardware. Aquí va la versión rápida para modelos pequeños:

Hardware mínimo para E2B

iPhone: iPhone 12 o más reciente (CoreML)
Android: 4GB+ de RAM, Snapdragon 8 Gen 1+
Raspberry Pi: Pi 5 con 4GB de RAM
PC/Mac: Cualquier equipo de los últimos 5 años

Hardware mínimo para E4B

iPhone: iPhone 14 Pro o más reciente (CoreML)
Android: 6GB+ de RAM, Snapdragon 8 Gen 2+
Raspberry Pi: Pi 5 con 8GB de RAM
PC/Mac: 8GB de RAM, cualquier CPU/GPU reciente

Próximos pasos

¿Quieres ejecutar estos en tu teléfono? Lee la Guía de Despliegue Móvil para la configuración de CoreML y Android
¿Necesitas ayuda para elegir en toda la línea? Consulta ¿Qué modelo Gemma 4 deberías elegir?
¿Eligiendo hardware? Revisa la Guía de Hardware para recomendaciones de GPU/CPU

Para la mayoría de personas, E4B es el punto óptimo — es suficientemente pequeño para ejecutar localmente con unos pocos GB de RAM, pero suficientemente inteligente para ser realmente útil en programación, conversación y tareas multimodales. Reserva E2B para entornos verdaderamente limitados donde 250 MB de RAM es todo lo que tienes.

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />