La línea de modelos pequeños de Gemma 4 tiene dos opciones: E2B (2 mil millones de parámetros) y E4B (4 mil millones de parámetros). Ambos están diseñados para ejecutarse en hardware limitado, pero la diferencia entre ellos es mayor de lo que sugiere la cantidad de parámetros. Veamos cómo se comparan.
¿Qué son E2B y E4B?
Ambos son modelos densos ligeros optimizados para inferencia en el dispositivo. Sin enrutamiento MoE, sin expertos — solo redes compactas diseñadas para caber en presupuestos de memoria ajustados.
E2B es el modelo más pequeño de la familia Gemma 4. Con 2 mil millones de parámetros, está construido para escenarios donde cada megabyte de RAM cuenta — teléfonos, Raspberry Pi, dispositivos IoT y sistemas embebidos.
E4B duplica la cantidad de parámetros a 4 mil millones. Sigue siendo lo suficientemente pequeño para ejecutar localmente en un laptop o un teléfono decente, pero rinde muy por encima de lo esperado en razonamiento, programación y tareas multimodales.
Modelos Pequeños Gemma 4:
┌──────────────────────────────────────┐
│ E2B (2B parámetros) │
│ Ultra-compacto · Teléfonos · Edge │
│ ~250 MB RAM (CoreML) · 11 tok/s │
├──────────────────────────────────────┤
│ E4B (4B parámetros) │
│ Compacto · Laptops · Uso diario │
│ ~1.5 GB RAM (Q4) · 35 tok/s │
└──────────────────────────────────────┘Comparación directa
| Métrica | E2B (2B) | E4B (4B) |
|---|---|---|
| Parámetros | 2B | 4B |
| Tamaño del modelo (FP16) | ~4 GB | ~8 GB |
| Tamaño del modelo (Q4_K_M) | ~1.2 GB | ~2.5 GB |
| RAM (Q4_K_M) | ~1.5 GB | ~3 GB |
| RAM (CoreML, iPhone) | ~250 MB | ~800 MB |
| Ventana de contexto | 8K | 32K |
| Multimodal | Solo texto | Texto + Imagen |
Las diferencias de tamaño de archivo y RAM son aproximadamente 2x, lo cual tiene sentido dado el número de parámetros. Pero la verdadera historia está en la longitud de contexto y el soporte multimodal — E4B tiene 4x más contexto y puede procesar imágenes.
Comparación de velocidad
E2B es más rápido en el mismo hardware, pero E4B sigue siendo suficientemente rápido para uso interactivo:
| Hardware | E2B (tok/s) | E4B (tok/s) | Ventaja E2B |
|---|---|---|---|
| iPhone 15 Pro (CoreML) | ~11 | ~5 | 2.2x |
| iPhone 16 Pro (CoreML) | ~15 | ~7 | 2.1x |
| Raspberry Pi 5 (8GB) | ~8 | ~4 | 2x |
| M3 MacBook Air (Q4) | ~65 | ~35 | 1.9x |
| RTX 3060 12GB (Q4) | ~120 | ~70 | 1.7x |
En un iPhone con CoreML-LLM, E2B funciona a unos 11 tokens por segundo usando solo 250 MB de RAM y consumiendo alrededor de 2W de potencia. Esto es genuinamente utilizable para chat en tiempo real en un teléfono sin agotar la batería.
E4B tiene aproximadamente la mitad de velocidad en móvil, pero en un laptop o escritorio sigue siendo lo suficientemente rápido como para no notar la diferencia en la práctica.
Comparación de calidad
Aquí es donde E4B se destaca significativamente:
| Benchmark | E2B (2B) | E4B (4B) | Ganador |
|---|---|---|---|
| MMLU | 52.1 | 61.8 | E4B (+9.7) |
| HumanEval | 38.4 | 52.6 | E4B (+14.2) |
| GSM8K | 45.2 | 62.1 | E4B (+16.9) |
| MATH | 18.3 | 28.7 | E4B (+10.4) |
| ARC-Challenge | 48.9 | 57.3 | E4B (+8.4) |
| Promedio | 40.6 | 52.5 | E4B (+11.9) |
A diferencia de la comparación 26B vs 31B donde la brecha de calidad era de 1-2 puntos, aquí la diferencia es enorme — casi 12 puntos de promedio. E4B es significativamente más inteligente, especialmente en matemáticas y código.
Dónde notarás la diferencia
- Q&A y chat simples: Ambos manejan conversaciones básicas bien. E2B ocasionalmente produce respuestas largas menos coherentes.
- Razonamiento y matemáticas: E4B es significativamente mejor. E2B tiene problemas con problemas de múltiples pasos.
- Generación de código: E4B escribe snippets de código utilizables. E2B puede autocompletar pero tiene dificultades con implementaciones completas de funciones.
- Multilingüe: E4B maneja chino, japonés, coreano e idiomas europeos mucho mejor. E2B es principalmente capaz solo en inglés.
- Comprensión de imágenes: Solo E4B soporta esto. Si necesitas visión, la elección está hecha.
Cuándo elegir E2B
E2B es la elección correcta cuando estás operando en el límite absoluto de lo que el hardware puede soportar:
- Teléfonos con RAM limitada — iPhones antiguos, dispositivos Android económicos donde 250 MB es todo lo que puedes dedicar
- Raspberry Pi y SBCs — funciona bien en un Pi 5 con 4GB de RAM
- IoT y embebidos — dispositivos de hogar inteligente, asistentes siempre encendidos con presupuesto de energía mínimo
- Extracción de palabras clave y clasificación offline — cuando solo necesitas NLP básico, no razonamiento completo
- CoreML-LLM en iPhone — 11 tok/s con 250 MB de RAM y 2W de potencia es notable para IA en el dispositivo
- Procesamiento por lotes a gran escala — cuando necesitas procesar millones de elementos y el costo por inferencia importa
Si tu caso de uso es "responder consultas simples en un dispositivo con muy poca RAM", E2B cumple con el trabajo.
Cuándo elegir E4B
E4B es la mejor opción para la mayoría de personas que quieren un modelo local pequeño:
- Laptops para uso diario — suficientemente rápido para chat interactivo, suficientemente inteligente para trabajo real
- Teléfonos mejores — iPhone 14 Pro en adelante, Android flagship con 6GB+ de RAM
- Asistente de programación — realmente útil para completar y generar código
- Tareas multimodales — subtitulado de imágenes, Q&A visual, comprensión de documentos
- Conversaciones más largas — 32K de contexto vs los 8K de E2B, puede manejar hilos mucho más largos
- Uso multilingüe — si trabajas en idiomas distintos al inglés, E4B es drásticamente mejor
- Servidores edge — suficientemente pequeño para un mini PC, suficientemente inteligente para ser útil
Para más detalles sobre ejecutar estos modelos en teléfonos, consulta la Guía de Despliegue Móvil.
Tabla de decisión rápida
| Tu situación | Elige |
|---|---|
| Teléfono con RAM libre <1GB | E2B |
| Raspberry Pi / embebido | E2B |
| Siempre encendido, ultra bajo consumo | E2B |
| Laptop o escritorio | E4B |
| Necesitas comprensión de imágenes | E4B |
| Asistencia de programación | E4B |
| Uso multilingüe | E4B |
| Conversaciones largas (>8K tokens) | E4B |
| Clasificación de texto simple | E2B |
| IA local de propósito general | E4B |
E2B y E4B vs modelos más grandes
¿Dónde encajan estos modelos pequeños en la línea completa de Gemma 4?
| Modelo | Parámetros | RAM (Q4) | Velocidad (M3 Air) | Calidad (prom.) |
|---|---|---|---|---|
| E2B | 2B | ~1.5 GB | ~65 tok/s | 40.6 |
| E4B | 4B | ~3 GB | ~35 tok/s | 52.5 |
| 12B | 12B | ~7 GB | ~20 tok/s | 67.8 |
| 26B MoE | 26B | ~15 GB | ~12 tok/s | 72.4 |
Hay una escalera de calidad clara. Cada paso hacia arriba aproximadamente duplica la RAM y reduce la velocidad a la mitad. Para el panorama completo, consulta ¿Qué modelo Gemma 4 deberías elegir?
Requisitos de hardware
Para recomendaciones detalladas de hardware, revisa la Guía de Hardware. Aquí va la versión rápida para modelos pequeños:
Hardware mínimo para E2B
- iPhone: iPhone 12 o más reciente (CoreML)
- Android: 4GB+ de RAM, Snapdragon 8 Gen 1+
- Raspberry Pi: Pi 5 con 4GB de RAM
- PC/Mac: Cualquier equipo de los últimos 5 años
Hardware mínimo para E4B
- iPhone: iPhone 14 Pro o más reciente (CoreML)
- Android: 6GB+ de RAM, Snapdragon 8 Gen 2+
- Raspberry Pi: Pi 5 con 8GB de RAM
- PC/Mac: 8GB de RAM, cualquier CPU/GPU reciente
Próximos pasos
- ¿Quieres ejecutar estos en tu teléfono? Lee la Guía de Despliegue Móvil para la configuración de CoreML y Android
- ¿Necesitas ayuda para elegir en toda la línea? Consulta ¿Qué modelo Gemma 4 deberías elegir?
- ¿Eligiendo hardware? Revisa la Guía de Hardware para recomendaciones de GPU/CPU
Para la mayoría de personas, E4B es el punto óptimo — es suficientemente pequeño para ejecutar localmente con unos pocos GB de RAM, pero suficientemente inteligente para ser realmente útil en programación, conversación y tareas multimodales. Reserva E2B para entornos verdaderamente limitados donde 250 MB de RAM es todo lo que tienes.
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


