Comment exécuter Gemma 4 sur iPhone avec CoreML (Guide complet 2026)

CoreML-LLM vient de sortir la v0.2.0 et les chiffres sont stupéfiants. Gemma 4 E2B tourne nativement sur iPhone avec le Neural Engine d'Apple — 11 tokens par seconde, 250 Mo de RAM, 2 watts de puissance. C'est la manière la plus efficace d'exécuter Gemma 4 sur un iPhone, point final.

X/Twitter s'enflamme à ce sujet et pour de bonnes raisons. Voyons ce que c'est, comment ça marche, et comment le configurer.

Qu'est-ce que CoreML-LLM ?

CoreML-LLM est un framework open-source qui convertit les LLM au format CoreML d'Apple et les exécute directement sur le Neural Engine — la puce IA dédiée présente dans chaque iPhone moderne. Contrairement à l'inférence sur GPU, le Neural Engine est spécifiquement conçu pour les opérations matricielles, ce qui signifie une consommation d'énergie et une utilisation de mémoire drastiquement réduites.

La version 0.2.0 a ajouté le support complet de Gemma 4 E2B, et les benchmarks de la communauté parlent d'eux-mêmes.

Les benchmarks dont tout le monde parle

Voici ce que CoreML-LLM v0.2.0 atteint avec Gemma 4 E2B sur iPhone :

Métrique	Résultat
Prefill (33 tokens)	188ms (15.8x plus rapide que le CPU)
Vitesse de décodage	11 tok/s
Fenêtre de contexte	2048 tokens
Utilisation RAM	~250 Mo
Consommation	~2W

Comparez avec l'approche standard d'exécuter Gemma 4 E2B via AI Edge Gallery ou MediaPipe, qui utilise typiquement 3 Go de RAM et vide votre batterie de manière notable. CoreML-LLM utilise environ 12 fois moins de mémoire et siroter l'énergie au lieu de l'engloutir.

Pour une vue plus large des options de déploiement mobile, consultez notre guide de déploiement mobile.

Comment ces chiffres sont obtenus

CoreML-LLM ne se contente pas de placer le modèle sur le Neural Engine en espérant que ça marche. Quatre optimisations techniques clés rendent cela possible :

Sliding Window Attention

Au lieu d'une self-attention complète sur tout le contexte, CoreML-LLM utilise une approche par fenêtre glissante. Le modèle n'attend qu'une fenêtre fixe de tokens récents à chaque couche. Cela maintient la mémoire constante quelle que soit la longueur de la séquence (jusqu'à la limite de contexte de 2048) et convient parfaitement aux opérations de tenseur à taille fixe du Neural Engine.

Poids INT4 Palettisés avec mmap

Les poids sont quantifiés en INT4 en utilisant la technique de palettisation d'Apple — une forme de quantification par table de correspondance où chaque poids est un index dans un petit codebook. Le fichier du modèle est mappé en mémoire (mmap) plutôt que chargé entièrement en RAM, c'est pourquoi vous voyez ce chiffre de 250 Mo au lieu de la taille complète du modèle. Seules les pages activement utilisées sont chargées en mémoire physique.

Cache KV sans état

Les caches KV traditionnels grandissent avec la longueur de la séquence et consomment de la mémoire. CoreML-LLM utilise une approche sans état où le cache KV est géré comme des tenseurs CoreML à taille fixe. Cela évite l'allocation dynamique de mémoire et maintient le pipeline du Neural Engine propre.

Prefill par lots

Le temps de prefill de 188ms (pour 33 tokens) provient du traitement de l'ensemble du prompt comme une seule opération par lots plutôt que token par token. C'est un speedup de 15.8x par rapport au traitement séquentiel et donne l'impression que la réponse initiale est quasi instantanée.

Quels iPhones sont compatibles ?

Vous avez besoin d'une puce A16 ou plus récente — cela signifie iPhone 14 Pro et au-dessus.

Appareil	Puce	Neural Engine	Compatible
iPhone 14 Pro / Pro Max	A16 Bionic	16 coeurs	Oui
iPhone 15 / 15 Plus	A16 Bionic	16 coeurs	Oui
iPhone 15 Pro / Pro Max	A17 Pro	16 coeurs	Oui
iPhone 16 / 16 Plus	A18	16 coeurs	Oui
iPhone 16 Pro / Pro Max	A18 Pro	16 coeurs	Oui (le plus rapide)
iPhone 14 / 14 Plus	A15 Bionic	16 coeurs	Non
iPhone 13 et plus anciens	A15 ou plus ancien	—	Non

Le Neural Engine de l'A16 dispose du jeu d'instructions nécessaire pour les opérations INT4 palettisées. Les puces plus anciennes ont techniquement un Neural Engine, mais n'ont pas le support du format de quantification spécifique utilisé par CoreML-LLM.

Vous voulez savoir quel matériel il faut pour les modèles plus grands ? Consultez le guide des exigences matérielles.

Guide de configuration étape par étape

Prérequis

Mac avec Xcode 15.4+ installé
iPhone 14 Pro ou plus récent, sous iOS 17+
Environ 2 Go de stockage libre sur votre iPhone
Python 3.10+ sur votre Mac (pour la conversion du modèle)

Étape 1 : Installer CoreML-LLM

# Cloner le dépôt
git clone https://github.com/nicklimmm/coreml-llm.git
cd coreml-llm

# Installer les dépendances Python
pip install -r requirements.txt

Étape 2 : Télécharger et convertir le modèle

# Télécharger Gemma 4 E2B et convertir au format CoreML
python convert.py \
  --model google/gemma-4-e2b-it \
  --output gemma4-e2b.mlpackage \
  --quantize int4-palettized \
  --context-length 2048

Cette étape prend 10 à 20 minutes selon votre Mac. La conversion gère la quantification, la palettisation et l'optimisation Neural Engine automatiquement.

Étape 3 : Compiler l'application iOS

# Ouvrir le projet Xcode
open CoreMLLLM.xcodeproj

Dans Xcode, sélectionnez votre iPhone comme appareil cible.
Glissez gemma4-e2b.mlpackage dans le dossier Resources du projet.
Configurez votre équipe de développement dans Signing & Capabilities.
Cliquez sur Build and Run (Cmd+R).

Étape 4 : Premier lancement

Le premier lancement prend une minute ou deux pendant que CoreML compile le modèle pour votre Neural Engine spécifique. Ensuite, c'est en cache et les lancements suivants sont rapides.

Essayez un prompt simple :

Explique ce qu'est un neural engine en deux phrases.

Vous devriez voir les tokens s'afficher à environ 11 par seconde. Mettez votre téléphone en mode avion — ça fonctionne toujours. C'est tout l'intérêt.

Étape 5 : Vérifier les performances

L'application inclut un mode benchmark intégré. Appuyez sur l'icône des réglages et sélectionnez "Run Benchmark" pour voir les vitesses réelles de prefill et de décodage de votre appareil. Comparez avec les chiffres de cet article pour vous assurer que tout fonctionne de manière optimale.

CoreML-LLM vs AI Edge Gallery

Il existe actuellement deux façons principales d'exécuter Gemma 4 sur iPhone. Voici comment elles se comparent :

Fonctionnalité	CoreML-LLM v0.2.0	AI Edge Gallery
Difficulté de configuration	Moyenne (Mac + Xcode requis)	Facile (téléchargement App Store)
Vitesse de décodage	11 tok/s	5-15 tok/s
Utilisation RAM	~250 Mo	~3 Go
Consommation	~2W	~5-8W
Tourne sur Neural Engine	Oui (dédié)	Partiel (principalement GPU)
Intégration app personnalisée	Oui (open-source)	Non (app autonome)
Support de modèles	Gemma 4 E2B uniquement	E2B + E4B
Multimodal	Pas encore	Limité

Utilisez CoreML-LLM si vous voulez une efficacité maximale, vous développez votre propre app, ou vous voulez tirer le maximum de votre batterie.

Utilisez AI Edge Gallery si vous voulez juste essayer Gemma 4 rapidement sans configuration de développement, ou si vous avez besoin d'E4B. Pour en savoir plus sur AI Edge Gallery, consultez notre guide iPhone.

Limitations

E2B uniquement. CoreML-LLM v0.2.0 supporte Gemma 4 E2B. Les modèles plus grands E4B, 12B et 26B ne sont pas encore convertis. Le support E4B est prévu mais aucun calendrier n'a été annoncé.

Pas de multimodal pour l'instant. Gemma 4 E2B supporte le texte, la vision et l'audio dans sa forme complète, mais CoreML-LLM ne gère actuellement que l'inférence textuelle. Le support multimodal est sur la feuille de route pour la v0.3.

Fenêtre de contexte de 2048. Le sliding window attention maintient la mémoire basse, mais limite la quantité de texte que le modèle peut considérer à la fois. Pour les documents longs, vous devrez découper votre entrée.

Nécessite un Mac pour la configuration. Le processus de conversion du modèle et de compilation de l'app nécessite Xcode sur macOS. Il n'existe actuellement aucune alternative Windows ou Linux.

La qualité est celle d'E2B. C'est un modèle à 2 milliards de paramètres. Il est excellent pour les tâches rapides — résumés, traductions, Q&A simple, génération de code basique — mais n'attendez pas un raisonnement de niveau GPT-4. Consultez notre comparaison E2B vs E4B pour une analyse détaillée de la qualité.

Pourquoi c'est important

250 Mo de RAM et 2 watts. Cela signifie que Gemma 4 peut tourner à côté de vos autres apps sans tuer votre téléphone. Cela signifie que vous pouvez l'utiliser pendant des heures sans détruire votre batterie. Cela signifie que l'IA embarquée cesse d'être une "démo" et devient une vraie fonctionnalité que vous intégreriez réellement dans une app de production.

Le Neural Engine est présent dans les iPhones depuis des années, principalement pour le traitement photo et les prédictions du clavier. CoreML-LLM montre ce qui se passe quand on le cible correctement avec un vrai modèle de langage.

Prochaines étapes

Nouveau avec Gemma 4 sur mobile ? Commencez par le Guide de Déploiement Mobile pour le panorama complet
Vous voulez l'option plus facile (mais moins efficace) ? Consultez le Guide iPhone pour la configuration d'AI Edge Gallery
Hésitation entre les tailles de modèle ? Lisez notre comparaison E2B vs E4B
Besoin de vérifier votre matériel ? Consultez les Exigences Matérielles pour toutes les plateformes

L'IA embarquée vient de devenir beaucoup plus pratique. CoreML-LLM v0.2.0 avec Gemma 4 E2B est la manière la plus efficace d'exécuter un vrai modèle de langage sur un iPhone aujourd'hui — et la v0.3 avec support multimodal arrive bientôt.

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />