CoreML-LLM acaba de lanzar la v0.2.0 y los números son impresionantes. Gemma 4 E2B ejecutándose nativamente en iPhone con el Neural Engine de Apple — 11 tokens por segundo, 250MB de RAM, 2 vatios de consumo. Esta es la forma más eficiente de ejecutar Gemma 4 en un iPhone, punto.
X/Twitter ha explotado con esto y con buena razón. Veamos qué es, cómo funciona y cómo configurarlo.
¿Qué es CoreML-LLM?
CoreML-LLM es un framework open-source que convierte LLMs al formato CoreML de Apple y los ejecuta directamente en el Neural Engine — el chip de IA dedicado dentro de cada iPhone moderno. A diferencia de la inferencia basada en GPU, el Neural Engine está diseñado específicamente para operaciones matriciales, lo que significa un consumo de energía y uso de memoria drásticamente menores.
La versión 0.2.0 añadió soporte completo para Gemma 4 E2B, y los benchmarks de la comunidad hablan por sí solos.
Los benchmarks de los que todos hablan
Esto es lo que CoreML-LLM v0.2.0 logra con Gemma 4 E2B en iPhone:
| Métrica | Resultado |
|---|---|
| Prefill (33 tokens) | 188ms (15.8x más rápido que CPU) |
| Velocidad de decodificación | 11 tok/s |
| Ventana de contexto | 2048 tokens |
| Uso de RAM | ~250MB |
| Consumo de energía | ~2W |
Compara eso con el método estándar de ejecutar Gemma 4 E2B vía AI Edge Gallery o MediaPipe, que típicamente usa 3GB de RAM y drena la batería notablemente. CoreML-LLM usa aproximadamente 12 veces menos memoria y sorbea energía en lugar de tragarla.
Para una visión más amplia de las opciones de despliegue móvil, consulta nuestra guía de despliegue móvil.
Cómo consigue estos números
CoreML-LLM no se limita a poner el modelo en el Neural Engine y esperar lo mejor. Hay cuatro optimizaciones técnicas clave que hacen posible esto:
Sliding Window Attention
En lugar de self-attention completa sobre todo el contexto, CoreML-LLM usa un enfoque de ventana deslizante. El modelo solo atiende a una ventana fija de tokens recientes en cada capa. Esto mantiene la memoria constante independientemente de la longitud de la secuencia (hasta el límite de contexto de 2048) y encaja perfectamente con las operaciones de tensor de tamaño fijo del Neural Engine.
Pesos INT4 Palettized con mmap
Los pesos se cuantizan a INT4 usando la técnica de paletización de Apple — una forma de cuantización por tabla de búsqueda donde cada peso es un índice en un codebook pequeño. El archivo del modelo se mapea en memoria (mmap) en lugar de cargarse completamente en RAM, razón por la cual ves esa cifra de 250MB en lugar del tamaño completo del modelo. Solo las páginas en uso activo se cargan en memoria física.
KV Cache sin estado
Los KV caches tradicionales crecen con la longitud de la secuencia y consumen memoria. CoreML-LLM usa un enfoque sin estado donde el KV cache se gestiona como tensores CoreML de tamaño fijo. Esto evita la asignación dinámica de memoria y mantiene limpio el pipeline del Neural Engine.
Prefill por lotes
El tiempo de prefill de 188ms (para 33 tokens) viene de procesar todo el prompt como una operación por lotes única en lugar de token por token. Esto supone un speedup de 15.8x sobre el procesamiento secuencial y hace que la respuesta inicial se sienta casi instantánea.
¿Qué iPhones son compatibles?
Necesitas un chip A16 o más nuevo — es decir, iPhone 14 Pro en adelante.
| Dispositivo | Chip | Neural Engine | Compatible |
|---|---|---|---|
| iPhone 14 Pro / Pro Max | A16 Bionic | 16 núcleos | Sí |
| iPhone 15 / 15 Plus | A16 Bionic | 16 núcleos | Sí |
| iPhone 15 Pro / Pro Max | A17 Pro | 16 núcleos | Sí |
| iPhone 16 / 16 Plus | A18 | 16 núcleos | Sí |
| iPhone 16 Pro / Pro Max | A18 Pro | 16 núcleos | Sí (más rápido) |
| iPhone 14 / 14 Plus | A15 Bionic | 16 núcleos | No |
| iPhone 13 y anteriores | A15 o anterior | — | No |
El Neural Engine del A16 tiene el conjunto de instrucciones necesario para las operaciones INT4 paletizadas. Los chips más antiguos técnicamente tienen Neural Engine, pero carecen de soporte para el formato de cuantización específico que usa CoreML-LLM.
¿Quieres saber qué hardware necesitas para modelos más grandes? Consulta la guía de requisitos de hardware.
Guía de configuración paso a paso
Requisitos previos
- Mac con Xcode 15.4+ instalado
- iPhone 14 Pro o más nuevo, con iOS 17+
- Aproximadamente 2GB de almacenamiento libre en tu iPhone
- Python 3.10+ en tu Mac (para la conversión del modelo)
Paso 1: Instalar CoreML-LLM
# Clonar el repositorio
git clone https://github.com/nicklimmm/coreml-llm.git
cd coreml-llm
# Instalar dependencias de Python
pip install -r requirements.txtPaso 2: Descargar y convertir el modelo
# Descargar Gemma 4 E2B y convertir a formato CoreML
python convert.py \
--model google/gemma-4-e2b-it \
--output gemma4-e2b.mlpackage \
--quantize int4-palettized \
--context-length 2048Este paso toma 10-20 minutos dependiendo de tu Mac. La conversión maneja la cuantización, paletización y optimización para Neural Engine automáticamente.
Paso 3: Compilar la app iOS
# Abrir el proyecto Xcode
open CoreMLLLM.xcodeproj- En Xcode, selecciona tu iPhone como dispositivo objetivo.
- Arrastra
gemma4-e2b.mlpackagea la carpeta Resources del proyecto. - Configura tu equipo de desarrollo en Signing & Capabilities.
- Pulsa Build and Run (Cmd+R).
Paso 4: Primera ejecución
El primer lanzamiento tarda un minuto o dos mientras CoreML compila el modelo para tu Neural Engine específico. Después queda en caché y los siguientes arranques son rápidos.
Prueba un prompt sencillo:
Explica qué es un neural engine en dos frases.Deberías ver tokens transmitidos a aproximadamente 11 por segundo. Pon tu teléfono en modo avión — sigue funcionando. Ese es el punto.
Paso 5: Verificar el rendimiento
La app incluye un modo de benchmark integrado. Toca el ícono de ajustes y selecciona "Run Benchmark" para ver las velocidades reales de prefill y decodificación de tu dispositivo. Compara con los números de este artículo para asegurarte de que todo funciona de forma óptima.
CoreML-LLM vs AI Edge Gallery
Actualmente hay dos formas principales de ejecutar Gemma 4 en iPhone. Así se comparan:
| Característica | CoreML-LLM v0.2.0 | AI Edge Gallery |
|---|---|---|
| Dificultad de setup | Media (requiere Mac + Xcode) | Fácil (descarga de App Store) |
| Velocidad de decodificación | 11 tok/s | 5-15 tok/s |
| Uso de RAM | ~250MB | ~3GB |
| Consumo de energía | ~2W | ~5-8W |
| Ejecuta en Neural Engine | Sí (dedicado) | Parcial (mayormente GPU) |
| Integración en apps | Sí (open-source) | No (app independiente) |
| Soporte de modelos | Solo Gemma 4 E2B | E2B + E4B |
| Multimodal | Aún no | Limitado |
Usa CoreML-LLM si quieres máxima eficiencia, estás construyendo tu propia app, o quieres exprimir al máximo tu batería.
Usa AI Edge Gallery si solo quieres probar Gemma 4 rápidamente sin configuración de desarrollo, o necesitas E4B. Para más sobre AI Edge Gallery, consulta nuestra guía de iPhone.
Limitaciones
Solo E2B. CoreML-LLM v0.2.0 soporta Gemma 4 E2B. Los modelos más grandes E4B, 12B y 26B aún no están convertidos. El soporte para E4B está planeado pero no se ha anunciado fecha.
Sin multimodal todavía. Gemma 4 E2B soporta texto, visión y audio en su forma completa, pero CoreML-LLM actualmente solo maneja inferencia de texto. El soporte multimodal está en la hoja de ruta para v0.3.
Ventana de contexto de 2048. El sliding window attention mantiene la memoria baja, pero limita cuánto texto puede considerar el modelo a la vez. Para documentos largos, necesitarás dividir tu entrada.
Requiere Mac para el setup. El proceso de conversión del modelo y compilación de la app requiere Xcode en macOS. No hay alternativa para Windows o Linux actualmente.
La calidad es nivel E2B. Es un modelo de 2 mil millones de parámetros. Es genial para tareas rápidas — resúmenes, traducciones, Q&A simple, generación de código básica — pero no esperes razonamiento nivel GPT-4. Consulta nuestra comparación E2B vs E4B para un análisis detallado de calidad.
Por qué esto importa
250MB de RAM y 2 vatios. Eso significa que Gemma 4 puede funcionar junto a tus otras apps sin matar tu teléfono. Significa que puedes usarlo durante horas sin destruir tu batería. Significa que la IA en el dispositivo deja de ser una "demo" y se convierte en una funcionalidad real que realmente incluirías en una app de producción.
El Neural Engine ha estado en los iPhones durante años, principalmente ejecutando procesamiento de cámara y predicciones de teclado. CoreML-LLM muestra lo que pasa cuando realmente lo aprovechas correctamente con un modelo de lenguaje real.
Próximos pasos
- ¿Nuevo con Gemma 4 en móvil? Empieza con la Guía de Despliegue Móvil para el panorama completo
- ¿Quieres la opción más fácil (pero menos eficiente)? Consulta la Guía de iPhone para la configuración de AI Edge Gallery
- ¿Eligiendo entre tamaños de modelo? Lee nuestra comparación E2B vs E4B
- ¿Necesitas verificar tu hardware? Consulta Requisitos de Hardware para todas las plataformas
La IA en el dispositivo se volvió mucho más práctica. CoreML-LLM v0.2.0 con Gemma 4 E2B es la forma más eficiente de ejecutar un modelo de lenguaje real en un iPhone hoy — y la v0.3 con soporte multimodal está en camino.
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


