Cómo ejecutar Gemma 4 en iPhone con CoreML (Guía completa 2026)

CoreML-LLM acaba de lanzar la v0.2.0 y los números son impresionantes. Gemma 4 E2B ejecutándose nativamente en iPhone con el Neural Engine de Apple — 11 tokens por segundo, 250MB de RAM, 2 vatios de consumo. Esta es la forma más eficiente de ejecutar Gemma 4 en un iPhone, punto.

X/Twitter ha explotado con esto y con buena razón. Veamos qué es, cómo funciona y cómo configurarlo.

¿Qué es CoreML-LLM?

CoreML-LLM es un framework open-source que convierte LLMs al formato CoreML de Apple y los ejecuta directamente en el Neural Engine — el chip de IA dedicado dentro de cada iPhone moderno. A diferencia de la inferencia basada en GPU, el Neural Engine está diseñado específicamente para operaciones matriciales, lo que significa un consumo de energía y uso de memoria drásticamente menores.

La versión 0.2.0 añadió soporte completo para Gemma 4 E2B, y los benchmarks de la comunidad hablan por sí solos.

Los benchmarks de los que todos hablan

Esto es lo que CoreML-LLM v0.2.0 logra con Gemma 4 E2B en iPhone:

Métrica	Resultado
Prefill (33 tokens)	188ms (15.8x más rápido que CPU)
Velocidad de decodificación	11 tok/s
Ventana de contexto	2048 tokens
Uso de RAM	~250MB
Consumo de energía	~2W

Compara eso con el método estándar de ejecutar Gemma 4 E2B vía AI Edge Gallery o MediaPipe, que típicamente usa 3GB de RAM y drena la batería notablemente. CoreML-LLM usa aproximadamente 12 veces menos memoria y sorbea energía en lugar de tragarla.

Para una visión más amplia de las opciones de despliegue móvil, consulta nuestra guía de despliegue móvil.

Cómo consigue estos números

CoreML-LLM no se limita a poner el modelo en el Neural Engine y esperar lo mejor. Hay cuatro optimizaciones técnicas clave que hacen posible esto:

Sliding Window Attention

En lugar de self-attention completa sobre todo el contexto, CoreML-LLM usa un enfoque de ventana deslizante. El modelo solo atiende a una ventana fija de tokens recientes en cada capa. Esto mantiene la memoria constante independientemente de la longitud de la secuencia (hasta el límite de contexto de 2048) y encaja perfectamente con las operaciones de tensor de tamaño fijo del Neural Engine.

Pesos INT4 Palettized con mmap

Los pesos se cuantizan a INT4 usando la técnica de paletización de Apple — una forma de cuantización por tabla de búsqueda donde cada peso es un índice en un codebook pequeño. El archivo del modelo se mapea en memoria (mmap) en lugar de cargarse completamente en RAM, razón por la cual ves esa cifra de 250MB en lugar del tamaño completo del modelo. Solo las páginas en uso activo se cargan en memoria física.

KV Cache sin estado

Los KV caches tradicionales crecen con la longitud de la secuencia y consumen memoria. CoreML-LLM usa un enfoque sin estado donde el KV cache se gestiona como tensores CoreML de tamaño fijo. Esto evita la asignación dinámica de memoria y mantiene limpio el pipeline del Neural Engine.

Prefill por lotes

El tiempo de prefill de 188ms (para 33 tokens) viene de procesar todo el prompt como una operación por lotes única en lugar de token por token. Esto supone un speedup de 15.8x sobre el procesamiento secuencial y hace que la respuesta inicial se sienta casi instantánea.

¿Qué iPhones son compatibles?

Necesitas un chip A16 o más nuevo — es decir, iPhone 14 Pro en adelante.

Dispositivo	Chip	Neural Engine	Compatible
iPhone 14 Pro / Pro Max	A16 Bionic	16 núcleos	Sí
iPhone 15 / 15 Plus	A16 Bionic	16 núcleos	Sí
iPhone 15 Pro / Pro Max	A17 Pro	16 núcleos	Sí
iPhone 16 / 16 Plus	A18	16 núcleos	Sí
iPhone 16 Pro / Pro Max	A18 Pro	16 núcleos	Sí (más rápido)
iPhone 14 / 14 Plus	A15 Bionic	16 núcleos	No
iPhone 13 y anteriores	A15 o anterior	—	No

El Neural Engine del A16 tiene el conjunto de instrucciones necesario para las operaciones INT4 paletizadas. Los chips más antiguos técnicamente tienen Neural Engine, pero carecen de soporte para el formato de cuantización específico que usa CoreML-LLM.

¿Quieres saber qué hardware necesitas para modelos más grandes? Consulta la guía de requisitos de hardware.

Guía de configuración paso a paso

Requisitos previos

Mac con Xcode 15.4+ instalado
iPhone 14 Pro o más nuevo, con iOS 17+
Aproximadamente 2GB de almacenamiento libre en tu iPhone
Python 3.10+ en tu Mac (para la conversión del modelo)

Paso 1: Instalar CoreML-LLM

# Clonar el repositorio
git clone https://github.com/nicklimmm/coreml-llm.git
cd coreml-llm

# Instalar dependencias de Python
pip install -r requirements.txt

Paso 2: Descargar y convertir el modelo

# Descargar Gemma 4 E2B y convertir a formato CoreML
python convert.py \
  --model google/gemma-4-e2b-it \
  --output gemma4-e2b.mlpackage \
  --quantize int4-palettized \
  --context-length 2048

Este paso toma 10-20 minutos dependiendo de tu Mac. La conversión maneja la cuantización, paletización y optimización para Neural Engine automáticamente.

Paso 3: Compilar la app iOS

# Abrir el proyecto Xcode
open CoreMLLLM.xcodeproj

En Xcode, selecciona tu iPhone como dispositivo objetivo.
Arrastra gemma4-e2b.mlpackage a la carpeta Resources del proyecto.
Configura tu equipo de desarrollo en Signing & Capabilities.
Pulsa Build and Run (Cmd+R).

Paso 4: Primera ejecución

El primer lanzamiento tarda un minuto o dos mientras CoreML compila el modelo para tu Neural Engine específico. Después queda en caché y los siguientes arranques son rápidos.

Prueba un prompt sencillo:

Explica qué es un neural engine en dos frases.

Deberías ver tokens transmitidos a aproximadamente 11 por segundo. Pon tu teléfono en modo avión — sigue funcionando. Ese es el punto.

Paso 5: Verificar el rendimiento

La app incluye un modo de benchmark integrado. Toca el ícono de ajustes y selecciona "Run Benchmark" para ver las velocidades reales de prefill y decodificación de tu dispositivo. Compara con los números de este artículo para asegurarte de que todo funciona de forma óptima.

CoreML-LLM vs AI Edge Gallery

Actualmente hay dos formas principales de ejecutar Gemma 4 en iPhone. Así se comparan:

Característica	CoreML-LLM v0.2.0	AI Edge Gallery
Dificultad de setup	Media (requiere Mac + Xcode)	Fácil (descarga de App Store)
Velocidad de decodificación	11 tok/s	5-15 tok/s
Uso de RAM	~250MB	~3GB
Consumo de energía	~2W	~5-8W
Ejecuta en Neural Engine	Sí (dedicado)	Parcial (mayormente GPU)
Integración en apps	Sí (open-source)	No (app independiente)
Soporte de modelos	Solo Gemma 4 E2B	E2B + E4B
Multimodal	Aún no	Limitado

Usa CoreML-LLM si quieres máxima eficiencia, estás construyendo tu propia app, o quieres exprimir al máximo tu batería.

Usa AI Edge Gallery si solo quieres probar Gemma 4 rápidamente sin configuración de desarrollo, o necesitas E4B. Para más sobre AI Edge Gallery, consulta nuestra guía de iPhone.

Limitaciones

Solo E2B. CoreML-LLM v0.2.0 soporta Gemma 4 E2B. Los modelos más grandes E4B, 12B y 26B aún no están convertidos. El soporte para E4B está planeado pero no se ha anunciado fecha.

Sin multimodal todavía. Gemma 4 E2B soporta texto, visión y audio en su forma completa, pero CoreML-LLM actualmente solo maneja inferencia de texto. El soporte multimodal está en la hoja de ruta para v0.3.

Ventana de contexto de 2048. El sliding window attention mantiene la memoria baja, pero limita cuánto texto puede considerar el modelo a la vez. Para documentos largos, necesitarás dividir tu entrada.

Requiere Mac para el setup. El proceso de conversión del modelo y compilación de la app requiere Xcode en macOS. No hay alternativa para Windows o Linux actualmente.

La calidad es nivel E2B. Es un modelo de 2 mil millones de parámetros. Es genial para tareas rápidas — resúmenes, traducciones, Q&A simple, generación de código básica — pero no esperes razonamiento nivel GPT-4. Consulta nuestra comparación E2B vs E4B para un análisis detallado de calidad.

Por qué esto importa

250MB de RAM y 2 vatios. Eso significa que Gemma 4 puede funcionar junto a tus otras apps sin matar tu teléfono. Significa que puedes usarlo durante horas sin destruir tu batería. Significa que la IA en el dispositivo deja de ser una "demo" y se convierte en una funcionalidad real que realmente incluirías en una app de producción.

El Neural Engine ha estado en los iPhones durante años, principalmente ejecutando procesamiento de cámara y predicciones de teclado. CoreML-LLM muestra lo que pasa cuando realmente lo aprovechas correctamente con un modelo de lenguaje real.

Próximos pasos

¿Nuevo con Gemma 4 en móvil? Empieza con la Guía de Despliegue Móvil para el panorama completo
¿Quieres la opción más fácil (pero menos eficiente)? Consulta la Guía de iPhone para la configuración de AI Edge Gallery
¿Eligiendo entre tamaños de modelo? Lee nuestra comparación E2B vs E4B
¿Necesitas verificar tu hardware? Consulta Requisitos de Hardware para todas las plataformas

La IA en el dispositivo se volvió mucho más práctica. CoreML-LLM v0.2.0 con Gemma 4 E2B es la forma más eficiente de ejecutar un modelo de lenguaje real en un iPhone hoy — y la v0.3 con soporte multimodal está en camino.

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />