Comment déployer Gemma 4 sur Android et iOS (guide IA mobile)

Exécuter un modèle IA directement sur votre smartphone — sans internet, sans données quittant votre appareil — ça semble futuriste, mais Gemma 4 le rend possible. Les modèles E2B et E4B, plus compacts, sont spécialement conçus pour le déploiement mobile. Ce guide couvre tout ce qu'il faut pour faire tourner Gemma 4 sur Android et iOS.

Quels modèles fonctionnent sur mobile ?

Tous les modèles Gemma 4 ne rentrent pas sur un smartphone. Voici ce qui est réaliste :

Modèle	Paramètres	RAM requise	Android	iOS	Recommandé ?
Gemma 4 E2B	2B	~3 Go	Oui	Oui	Idéal pour la plupart des smartphones
Gemma 4 E4B	4B	~5 Go	Oui	Oui	Smartphones haut de gamme uniquement
Gemma 4 1B	1B	~2 Go	Oui	Oui	Le plus rapide, qualité inférieure
Gemma 4 4B	4B	~5 Go	Possible	Possible	Juste
Gemma 4 12B+	12B+	~9 Go+	Non	Non	Trop gros pour le mobile

Les modèles E2B et E4B ("Edge") sont optimisés pour le mobile — ils incluent des capacités multimodales (texte, vision et audio) dans des tailles qui rentrent réellement sur un smartphone. Vous pouvez récupérer les fichiers de modèle depuis n'importe quelle source listée dans notre guide de téléchargement. Pour les spécifications détaillées de RAM et stockage, consultez la configuration matérielle requise.

Déploiement Android

Android dispose de l'écosystème le plus mature pour Gemma 4 embarqué, grâce à l'intégration étroite de Google.

Option 1 : Google AI Edge SDK

L'AI Edge SDK est la solution officielle de Google pour exécuter Gemma sur Android :

// build.gradle.kts
dependencies {
    implementation("com.google.ai.edge:ai-edge-sdk:0.3.0")
}

// Dans votre Activity ou ViewModel
import com.google.ai.edge.InferenceSession
import com.google.ai.edge.ModelConfig

class GemmaViewModel : ViewModel() {
    private var session: InferenceSession? = null

    fun initModel(context: Context) {
        val config = ModelConfig.builder()
            .setModelPath("gemma-4-e2b-it.task")
            .setMaxTokens(1024)
            .setTemperature(0.7f)
            .build()

        session = InferenceSession.create(context, config)
    }

    fun generateResponse(prompt: String): String {
        return session?.generateResponse(prompt) ?: "Model not loaded"
    }
}

Option 2 : AICore (Pixel et Samsung)

AICore est intégré aux smartphones Pixel récents et aux Samsung Galaxy. Il fournit une accélération IA au niveau système :

// Vérifier si AICore est disponible
val aiCoreAvailable = AICore.isAvailable(context)

if (aiCoreAvailable) {
    // AICore gère le modèle et l'optimisation
    val session = AICore.createSession(
        model = "gemma-4-e2b-it",
        options = AICore.Options.builder()
            .setAccelerator(AICore.Accelerator.GPU)
            .build()
    )

    val response = session.generate("Explain photosynthesis simply")
}

Avantage d'AICore : le modèle peut déjà être en cache sur l'appareil, les utilisateurs n'ont donc pas besoin de télécharger 2-3 Go séparément.

Option 3 : MediaPipe LLM Inference API

MediaPipe est plus flexible et fonctionne sur une plus large gamme d'appareils Android :

dependencies {
    implementation("com.google.mediapipe:tasks-genai:0.10.20")
}

// Initialiser le LLM
val options = LlmInference.LlmInferenceOptions.builder()
    .setModelPath("/data/local/tmp/gemma-4-e2b-it.bin")
    .setMaxTokens(1024)
    .setTopK(40)
    .setTemperature(0.7f)
    .setRandomSeed(42)
    .build()

val llmInference = LlmInference.createFromOptions(context, options)

// Générer du texte
val response = llmInference.generateResponse("What is machine learning?")

// Réponses en streaming
llmInference.generateResponseAsync(prompt) { partialResult, done ->
    // Mettre à jour l'interface avec chaque token
    textView.append(partialResult)
}

Déploiement iOS

Option 1 : AI Edge Gallery App

Le moyen le plus simple de tester Gemma 4 sur iOS — téléchargez l'application AI Edge Gallery depuis l'App Store. Pour les optimisations spécifiques à Apple et les détails de configuration, consultez notre guide iPhone dédié.

Installez AI Edge Gallery
Parcourez les modèles disponibles
Téléchargez Gemma 4 E2B ou E4B
Commencez à discuter — entièrement hors ligne

C'est excellent pour un usage personnel et les tests, mais pas pour intégrer dans votre propre application.

Option 2 : LiteRT (TensorFlow Lite Runtime)

Pour intégrer Gemma 4 dans votre propre application iOS :

import LiteRT

class GemmaModel {
    private var interpreter: Interpreter?

    func loadModel() throws {
        guard let modelPath = Bundle.main.path(
            forResource: "gemma-4-e2b-it",
            ofType: "tflite"
        ) else {
            throw GemmaError.modelNotFound
        }

        var options = Interpreter.Options()
        options.threadCount = 4

        // Utiliser le délégué GPU pour l'accélération
        let gpuDelegate = MetalDelegate()
        interpreter = try Interpreter(
            modelPath: modelPath,
            options: options,
            delegates: [gpuDelegate]
        )
    }

    func generate(prompt: String) throws -> String {
        // Tokeniser l'entrée
        let tokens = tokenize(prompt)

        // Exécuter l'inférence
        try interpreter?.allocateTensors()
        try interpreter?.copy(tokens, toInputAt: 0)
        try interpreter?.invoke()

        // Décoder la sortie
        let output = try interpreter?.output(at: 0)
        return decode(output)
    }
}

Option 3 : MediaPipe pour iOS

MediaPipe fonctionne aussi sur iOS :

import MediaPipeTasksGenAI

let options = LlmInference.Options()
options.modelPath = Bundle.main.path(
    forResource: "gemma-4-e2b-it",
    ofType: "bin"
)!
options.maxTokens = 1024
options.temperature = 0.7

let llm = try LlmInference(options: options)
let response = try llm.generateResponse(inputText: "Hello!")

Performances attendues

Soyez réaliste sur ce que l'IA mobile peut faire. Voici à quoi vous attendre :

Appareil	Modèle	Vitesse (tok/s)	Premier token (ms)	Utilisation RAM
Pixel 9 Pro	E2B	~15-20	~800	~3 Go
Pixel 9 Pro	E4B	~8-12	~1500	~5 Go
Samsung S24 Ultra	E2B	~15-18	~900	~3 Go
iPhone 15 Pro	E2B	~12-15	~1000	~3 Go
iPhone 16 Pro	E2B	~15-18	~800	~3 Go
iPhone 16 Pro	E4B	~8-10	~1500	~5 Go

Ces vitesses sont plus lentes que sur ordinateur, mais parfaitement utilisables pour un chat interactif. Le premier token prend un peu plus longtemps car le modèle s'initialise.

Batterie et considérations thermiques

L'inférence IA est gourmande en calcul. Voici ce qu'il faut garder en tête :

Préoccupation	Réalité	Mitigation
Autonomie	~5-8 % par heure d'utilisation active	Limiter la longueur max de génération
Chaleur	Le smartphone chauffe pendant l'inférence	Ajouter des pauses entre les longues générations
Usage en arrière-plan	L'OS peut tuer le processus	Garder le modèle chargé seulement quand nécessaire
Stockage	2-5 Go par modèle	Proposer le téléchargement du modèle en option

// Bonne pratique : libérer le modèle quand il n'est pas utilisé
override fun onPause() {
    super.onPause()
    session?.close()
}

override fun onResume() {
    super.onResume()
    if (session == null) initModel()
}

Hors ligne : la fonctionnalité clé

Le plus grand avantage de l'IA embarquée est qu'elle fonctionne sans internet. Pensez aux cas d'usage :

Voyage : assistant IA fonctionnel en mode avion
Tâches sensibles : questions médicales, journal personnel, code privé — rien ne quitte votre appareil
Mauvaise connectivité : zones rurales, métro, régions en développement
Vitesse : aucune latence réseau — les réponses commencent immédiatement
Coût : aucun frais d'API après le téléchargement initial du modèle

C'est quelque chose que les API cloud ne peuvent fondamentalement pas offrir. Quand vous exécutez Gemma 4 sur votre smartphone, vos données restent sur votre smartphone. Point final.

Mobile vs API cloud

Facteur	Embarqué (Gemma 4 E2B)	API cloud (Gemini)
Vitesse	~15 tok/s	~50-100 tok/s
Qualité	Bonne (modèle 2B)	Excellente (grand modèle)
Confidentialité	Totale	Données envoyées au serveur
Hors ligne	Oui	Non
Coût	Gratuit après téléchargement	Tarification par token
Impact batterie	Élevé	Minimal
Configuration	Téléchargement du modèle requis	Clé API seulement

L'approche idéale est hybride : utilisez Gemma 4 embarqué pour les tâches sensibles et hors ligne, et basculez vers une API cloud quand vous avez besoin d'une qualité supérieure ou quand le smartphone est connecté.

Étapes suivantes

Vous voulez exécuter Gemma 4 sur iPhone spécifiquement ? Consultez notre guide iPhone détaillé pour les optimisations spécifiques à Apple
Pas sûr de quel modèle choisir ? Lisez Quel modèle Gemma 4 ? pour comprendre toute la gamme
Curieux de la configuration matérielle pour ordinateur ? Consultez le guide matériel pour les recommandations portables et bureau

L'IA mobile en est encore à ses débuts, mais c'est réel et ça fonctionne aujourd'hui. Commencez avec le modèle E2B, testez-le sur votre smartphone, et construisez à partir de là. Le fait qu'une IA capable tourne entièrement sur un smartphone que vous portez dans votre poche — sans internet, sans clés API, sans abonnement mensuel — c'est assez incroyable.