Exécuter un modèle IA directement sur votre smartphone — sans internet, sans données quittant votre appareil — ça semble futuriste, mais Gemma 4 le rend possible. Les modèles E2B et E4B, plus compacts, sont spécialement conçus pour le déploiement mobile. Ce guide couvre tout ce qu'il faut pour faire tourner Gemma 4 sur Android et iOS.
Quels modèles fonctionnent sur mobile ?
Tous les modèles Gemma 4 ne rentrent pas sur un smartphone. Voici ce qui est réaliste :
| Modèle | Paramètres | RAM requise | Android | iOS | Recommandé ? |
|---|---|---|---|---|---|
| Gemma 4 E2B | 2B | ~3 Go | Oui | Oui | Idéal pour la plupart des smartphones |
| Gemma 4 E4B | 4B | ~5 Go | Oui | Oui | Smartphones haut de gamme uniquement |
| Gemma 4 1B | 1B | ~2 Go | Oui | Oui | Le plus rapide, qualité inférieure |
| Gemma 4 4B | 4B | ~5 Go | Possible | Possible | Juste |
| Gemma 4 12B+ | 12B+ | ~9 Go+ | Non | Non | Trop gros pour le mobile |
Les modèles E2B et E4B ("Edge") sont optimisés pour le mobile — ils incluent des capacités multimodales (texte, vision et audio) dans des tailles qui rentrent réellement sur un smartphone. Vous pouvez récupérer les fichiers de modèle depuis n'importe quelle source listée dans notre guide de téléchargement. Pour les spécifications détaillées de RAM et stockage, consultez la configuration matérielle requise.
Déploiement Android
Android dispose de l'écosystème le plus mature pour Gemma 4 embarqué, grâce à l'intégration étroite de Google.
Option 1 : Google AI Edge SDK
L'AI Edge SDK est la solution officielle de Google pour exécuter Gemma sur Android :
// build.gradle.kts
dependencies {
implementation("com.google.ai.edge:ai-edge-sdk:0.3.0")
}
// Dans votre Activity ou ViewModel
import com.google.ai.edge.InferenceSession
import com.google.ai.edge.ModelConfig
class GemmaViewModel : ViewModel() {
private var session: InferenceSession? = null
fun initModel(context: Context) {
val config = ModelConfig.builder()
.setModelPath("gemma-4-e2b-it.task")
.setMaxTokens(1024)
.setTemperature(0.7f)
.build()
session = InferenceSession.create(context, config)
}
fun generateResponse(prompt: String): String {
return session?.generateResponse(prompt) ?: "Model not loaded"
}
}Option 2 : AICore (Pixel et Samsung)
AICore est intégré aux smartphones Pixel récents et aux Samsung Galaxy. Il fournit une accélération IA au niveau système :
// Vérifier si AICore est disponible
val aiCoreAvailable = AICore.isAvailable(context)
if (aiCoreAvailable) {
// AICore gère le modèle et l'optimisation
val session = AICore.createSession(
model = "gemma-4-e2b-it",
options = AICore.Options.builder()
.setAccelerator(AICore.Accelerator.GPU)
.build()
)
val response = session.generate("Explain photosynthesis simply")
}Avantage d'AICore : le modèle peut déjà être en cache sur l'appareil, les utilisateurs n'ont donc pas besoin de télécharger 2-3 Go séparément.
Option 3 : MediaPipe LLM Inference API
MediaPipe est plus flexible et fonctionne sur une plus large gamme d'appareils Android :
dependencies {
implementation("com.google.mediapipe:tasks-genai:0.10.20")
}
// Initialiser le LLM
val options = LlmInference.LlmInferenceOptions.builder()
.setModelPath("/data/local/tmp/gemma-4-e2b-it.bin")
.setMaxTokens(1024)
.setTopK(40)
.setTemperature(0.7f)
.setRandomSeed(42)
.build()
val llmInference = LlmInference.createFromOptions(context, options)
// Générer du texte
val response = llmInference.generateResponse("What is machine learning?")
// Réponses en streaming
llmInference.generateResponseAsync(prompt) { partialResult, done ->
// Mettre à jour l'interface avec chaque token
textView.append(partialResult)
}Déploiement iOS
Option 1 : AI Edge Gallery App
Le moyen le plus simple de tester Gemma 4 sur iOS — téléchargez l'application AI Edge Gallery depuis l'App Store. Pour les optimisations spécifiques à Apple et les détails de configuration, consultez notre guide iPhone dédié.
- Installez AI Edge Gallery
- Parcourez les modèles disponibles
- Téléchargez Gemma 4 E2B ou E4B
- Commencez à discuter — entièrement hors ligne
C'est excellent pour un usage personnel et les tests, mais pas pour intégrer dans votre propre application.
Option 2 : LiteRT (TensorFlow Lite Runtime)
Pour intégrer Gemma 4 dans votre propre application iOS :
import LiteRT
class GemmaModel {
private var interpreter: Interpreter?
func loadModel() throws {
guard let modelPath = Bundle.main.path(
forResource: "gemma-4-e2b-it",
ofType: "tflite"
) else {
throw GemmaError.modelNotFound
}
var options = Interpreter.Options()
options.threadCount = 4
// Utiliser le délégué GPU pour l'accélération
let gpuDelegate = MetalDelegate()
interpreter = try Interpreter(
modelPath: modelPath,
options: options,
delegates: [gpuDelegate]
)
}
func generate(prompt: String) throws -> String {
// Tokeniser l'entrée
let tokens = tokenize(prompt)
// Exécuter l'inférence
try interpreter?.allocateTensors()
try interpreter?.copy(tokens, toInputAt: 0)
try interpreter?.invoke()
// Décoder la sortie
let output = try interpreter?.output(at: 0)
return decode(output)
}
}Option 3 : MediaPipe pour iOS
MediaPipe fonctionne aussi sur iOS :
import MediaPipeTasksGenAI
let options = LlmInference.Options()
options.modelPath = Bundle.main.path(
forResource: "gemma-4-e2b-it",
ofType: "bin"
)!
options.maxTokens = 1024
options.temperature = 0.7
let llm = try LlmInference(options: options)
let response = try llm.generateResponse(inputText: "Hello!")Performances attendues
Soyez réaliste sur ce que l'IA mobile peut faire. Voici à quoi vous attendre :
| Appareil | Modèle | Vitesse (tok/s) | Premier token (ms) | Utilisation RAM |
|---|---|---|---|---|
| Pixel 9 Pro | E2B | ~15-20 | ~800 | ~3 Go |
| Pixel 9 Pro | E4B | ~8-12 | ~1500 | ~5 Go |
| Samsung S24 Ultra | E2B | ~15-18 | ~900 | ~3 Go |
| iPhone 15 Pro | E2B | ~12-15 | ~1000 | ~3 Go |
| iPhone 16 Pro | E2B | ~15-18 | ~800 | ~3 Go |
| iPhone 16 Pro | E4B | ~8-10 | ~1500 | ~5 Go |
Ces vitesses sont plus lentes que sur ordinateur, mais parfaitement utilisables pour un chat interactif. Le premier token prend un peu plus longtemps car le modèle s'initialise.
Batterie et considérations thermiques
L'inférence IA est gourmande en calcul. Voici ce qu'il faut garder en tête :
| Préoccupation | Réalité | Mitigation |
|---|---|---|
| Autonomie | ~5-8 % par heure d'utilisation active | Limiter la longueur max de génération |
| Chaleur | Le smartphone chauffe pendant l'inférence | Ajouter des pauses entre les longues générations |
| Usage en arrière-plan | L'OS peut tuer le processus | Garder le modèle chargé seulement quand nécessaire |
| Stockage | 2-5 Go par modèle | Proposer le téléchargement du modèle en option |
// Bonne pratique : libérer le modèle quand il n'est pas utilisé
override fun onPause() {
super.onPause()
session?.close()
}
override fun onResume() {
super.onResume()
if (session == null) initModel()
}Hors ligne : la fonctionnalité clé
Le plus grand avantage de l'IA embarquée est qu'elle fonctionne sans internet. Pensez aux cas d'usage :
- Voyage : assistant IA fonctionnel en mode avion
- Tâches sensibles : questions médicales, journal personnel, code privé — rien ne quitte votre appareil
- Mauvaise connectivité : zones rurales, métro, régions en développement
- Vitesse : aucune latence réseau — les réponses commencent immédiatement
- Coût : aucun frais d'API après le téléchargement initial du modèle
C'est quelque chose que les API cloud ne peuvent fondamentalement pas offrir. Quand vous exécutez Gemma 4 sur votre smartphone, vos données restent sur votre smartphone. Point final.
Mobile vs API cloud
| Facteur | Embarqué (Gemma 4 E2B) | API cloud (Gemini) |
|---|---|---|
| Vitesse | ~15 tok/s | ~50-100 tok/s |
| Qualité | Bonne (modèle 2B) | Excellente (grand modèle) |
| Confidentialité | Totale | Données envoyées au serveur |
| Hors ligne | Oui | Non |
| Coût | Gratuit après téléchargement | Tarification par token |
| Impact batterie | Élevé | Minimal |
| Configuration | Téléchargement du modèle requis | Clé API seulement |
L'approche idéale est hybride : utilisez Gemma 4 embarqué pour les tâches sensibles et hors ligne, et basculez vers une API cloud quand vous avez besoin d'une qualité supérieure ou quand le smartphone est connecté.
Étapes suivantes
- Vous voulez exécuter Gemma 4 sur iPhone spécifiquement ? Consultez notre guide iPhone détaillé pour les optimisations spécifiques à Apple
- Pas sûr de quel modèle choisir ? Lisez Quel modèle Gemma 4 ? pour comprendre toute la gamme
- Curieux de la configuration matérielle pour ordinateur ? Consultez le guide matériel pour les recommandations portables et bureau
L'IA mobile en est encore à ses débuts, mais c'est réel et ça fonctionne aujourd'hui. Commencez avec le modèle E2B, testez-le sur votre smartphone, et construisez à partir de là. Le fait qu'une IA capable tourne entièrement sur un smartphone que vous portez dans votre poche — sans internet, sans clés API, sans abonnement mensuel — c'est assez incroyable.



