Comment exécuter Gemma 4 sur iPhone (oui, ça marche vraiment)

Exécuter un vrai modèle d'IA sur votre téléphone — sans internet, sans cloud, sans clé API. Juste votre iPhone qui réfléchit. Ça semble dingue, mais Gemma 4 rend ça possible.

Avant de vous emballer, cependant, fixons des attentes réalistes. Ça fonctionne. Mais ça ne va pas donner l'impression de ChatGPT. Voici ce que vous devez savoir.

Quels modèles tournent vraiment sur iPhone ?

Tous les modèles Gemma 4 ne tiennent pas sur un téléphone. Voici le détail :

Modèle	Compatibilité iPhone	Notes
E2B (2B)	Tous les iPhones modernes	Recommandé pour mobile
E4B (4B)	iPhone 15 Pro et plus récent	Nécessite 8 Go de RAM (A17 Pro+)
26B	Non	Beaucoup trop volumineux
31B	Non	Même pas proche

Le point optimal est E2B. Il tourne sur pratiquement n'importe quel iPhone des dernières années et donne des résultats étonnamment utiles pour un modèle à 2 milliards de paramètres. E4B est de meilleure qualité mais vous aurez besoin d'au moins un iPhone 15 Pro — c'est le premier iPhone avec 8 Go de RAM.

Pas sûr du modèle qui convient à votre cas d'utilisation ? Consultez notre guide de comparaison des modèles.

Comment le configurer : Google AI Edge Gallery

Le chemin officiel de Google pour exécuter les modèles Gemma sur mobile est l'application AI Edge Gallery. C'est le moyen le plus simple de commencer.

Configuration étape par étape

Téléchargez AI Edge Gallery depuis l'App Store. Cherchez « Google AI Edge Gallery » ou cherchez-la dans la section des outils développeurs de Google.
Ouvrez l'application et parcourez les modèles disponibles. Vous verrez Gemma 4 E2B listé (et E4B si votre appareil le supporte).
Téléchargez le modèle. C'est la grosse étape — le modèle E2B fait environ 1,5-2 Go. Assurez-vous d'être en Wi-Fi.
Attendez le téléchargement et la conversion. L'application doit optimiser le modèle pour votre puce spécifique. Cela peut prendre quelques minutes. Ne fermez pas l'application.
Commencez à discuter. Une fois prêt, vous pouvez taper des prompts et obtenir des réponses. Tout tourne localement — mettez votre téléphone en mode avion pour le prouver.

Premier test

Une fois en marche, essayez quelque chose de simple :

Résume ce qu'est une API REST en 3 phrases.

Vous devriez voir les tokens apparaître un par un. C'est plus lent que ce à quoi vous êtes habitué, mais il fait de la vraie inférence sur le Neural Engine de votre téléphone.

Performance : à quoi s'attendre vraiment

Soyons honnêtes. Cela ne va pas remplacer votre configuration d'IA cloud. Voici à quoi ressemble vraiment l'expérience :

Vitesse : Environ 5-15 tokens par seconde sur E2B (iPhone 15 Pro). C'est lisible mais pas rapide. E4B est plus lent — peut-être 3-8 tokens/s.
Qualité : E2B gère bien les tâches simples : résumés, traductions, questions rapides, code basique. N'attendez pas un niveau de raisonnement GPT-4.
Première réponse : Il y a un délai de démarrage de 2-5 secondes pendant que le modèle se charge en mémoire.
Batterie : L'exécution de l'inférence est intensive en GPU. Attendez-vous à une décharge notable de la batterie pendant l'utilisation active. Peut-être 10-15% par heure de discussion continue.
Chaleur : Votre téléphone va chauffer. Après 15-20 minutes d'utilisation intensive, le throttling thermique pourrait s'activer et ralentir encore plus les choses.

La fonctionnalité phare : IA hors ligne

Voici pourquoi cela compte vraiment malgré les limitations. Votre téléphone fonctionne partout. Dans un avion. Dans un tunnel de métro. Dans un pays avec un internet restreint. Dans un endroit sans service cellulaire.

Cas d'utilisation hors ligne qui ont vraiment du sens :

Traducteur de voyage — fonctionne sans données en itinérance
Aide rapide à la rédaction — rédiger des emails, corriger la grammaire en déplacement
Extraits de code — générer des fonctions utilitaires rapides pendant les trajets
Résumé de notes — coller un long texte et obtenir un résumé
Requêtes sensibles à la confidentialité — rien ne quitte votre appareil, jamais

Limitations à connaître

Pas de grands modèles. Les modèles 26B et 31B nécessitent 16-20+ Go de RAM. Les iPhones plafonnent à 8 Go. Cela ne va pas changer de sitôt.

La décharge de batterie est réelle. L'exécution de l'inférence de réseau neuronal est énergivore. Ne vous attendez pas à utiliser ça pendant des heures sans chargeur à proximité.

Throttling thermique. Après une utilisation prolongée, votre iPhone va chauffer et l'OS réduira les performances pour protéger le matériel. Les réponses deviennent plus lentes.

La longueur du contexte est limitée. Les modèles sur appareil utilisent généralement des fenêtres de contexte plus courtes pour économiser la mémoire. N'attendez pas de coller un document de 10 000 mots et d'obtenir un résumé parfait.

Pas de multimodal sur appareil (encore). Bien que Gemma 4 supporte l'entrée d'image dans ses versions cloud/bureau, l'analyse d'image sur appareil peut être limitée selon l'implémentation de l'application.

Android a plus d'options

Avertissement — si vous envisagez Android, la situation de l'IA sur appareil est plus mature là-bas. Android a :

Google AICore — intégration IA au niveau système pour les appareils Pixel
MediaPipe — framework ML de Google avec un support de modèles plus large
Plus de RAM — certains flagships Android ont 12-16 Go

Cela dit, le Neural Engine d'Apple est excellent pour l'inférence, donc l'iPhone n'est pas dans une énorme position de désavantage pour les modèles qui tiennent.

Est-ce que ça en vaut la peine ?

Oui, si vous voulez de l'IA hors ligne, vous tenez à la confidentialité, ou vous pensez juste que c'est cool d'exécuter un vrai modèle de langage sur votre téléphone. Le modèle E2B est vraiment utile pour les tâches rapides.

Non, si vous avez besoin de raisonnement de haute qualité, de contexte long ou de réponses rapides. Utilisez l'API cloud pour ça.

La réponse honnête : C'est un aperçu de l'évolution. Dans deux ans, l'IA sur appareil sera considérablement meilleure. Pour l'instant, c'est utile mais limité. Essayez-le, appréciez le chemin parcouru, et utilisez le cloud quand vous avez besoin de vraie puissance.

Vous pouvez aussi exécuter Gemma 4 dans votre navigateur via WebGPU — consultez notre guide navigateur pour une autre option sans installation.

Prochaines étapes

Envie d'exécuter Gemma 4 sur votre laptop à la place ? Voir Mon laptop peut-il exécuter Gemma 4 ?
Pas sûr de quelle taille de modèle correspond à vos besoins ? Lisez Gemma 4 : Quel modèle ?
Préférez tourner dans un navigateur ? Essayez le guide navigateur WebGPU
Prêt pour la puissance de l'API ? Consultez notre tutoriel API

gemma4 — interact