Como desplegar Gemma 4 en Android e iOS (Guia de IA movil)

Ejecutar un modelo de IA directamente en tu telefono — sin internet, sin que los datos salgan de tu dispositivo — suena futurista, pero Gemma 4 lo hace realidad. Los modelos mas pequenos E2B y E4B estan especificamente disenados para despliegue movil. Esta guia cubre todo lo que necesitas para poner Gemma 4 a funcionar en Android e iOS.

¿Que modelos funcionan en el movil?

No todos los modelos de Gemma 4 caben en un telefono. Esto es lo realista:

Modelo	Parametros	RAM necesaria	Android	iOS	¿Recomendado?
Gemma 4 E2B	2B	~3 GB	Si	Si	El mejor para la mayoria de telefonos
Gemma 4 E4B	4B	~5 GB	Si	Si	Solo telefonos de gama alta
Gemma 4 1B	1B	~2 GB	Si	Si	El mas rapido, menor calidad
Gemma 4 4B	4B	~5 GB	Posible	Posible	Justo
Gemma 4 12B+	12B+	~9 GB+	No	No	Demasiado grande para movil

Los modelos E2B y E4B ("Edge") estan optimizados para movil — incluyen capacidades multimodales (texto, vision y audio) en tamanos que realmente caben en un telefono. Puedes obtener los archivos del modelo de cualquier fuente listada en nuestra guia de descarga. Para especificaciones detalladas de RAM y almacenamiento, consulta los requisitos de hardware.

Despliegue en Android

Android tiene el ecosistema mas maduro para Gemma 4 en el dispositivo, gracias a la estrecha integracion de Google.

Opcion 1: Google AI Edge SDK

El AI Edge SDK es la solucion oficial de Google para ejecutar Gemma en Android:

// build.gradle.kts
dependencies {
    implementation("com.google.ai.edge:ai-edge-sdk:0.3.0")
}

// In your Activity or ViewModel
import com.google.ai.edge.InferenceSession
import com.google.ai.edge.ModelConfig

class GemmaViewModel : ViewModel() {
    private var session: InferenceSession? = null

    fun initModel(context: Context) {
        val config = ModelConfig.builder()
            .setModelPath("gemma-4-e2b-it.task")
            .setMaxTokens(1024)
            .setTemperature(0.7f)
            .build()

        session = InferenceSession.create(context, config)
    }

    fun generateResponse(prompt: String): String {
        return session?.generateResponse(prompt) ?: "Model not loaded"
    }
}

Opcion 2: AICore (Pixel y Samsung)

AICore viene integrado en telefonos Pixel recientes y dispositivos Samsung Galaxy. Proporciona aceleracion de IA a nivel de sistema:

// Check if AICore is available
val aiCoreAvailable = AICore.isAvailable(context)

if (aiCoreAvailable) {
    // AICore handles model management and optimization
    val session = AICore.createSession(
        model = "gemma-4-e2b-it",
        options = AICore.Options.builder()
            .setAccelerator(AICore.Accelerator.GPU)
            .build()
    )

    val response = session.generate("Explain photosynthesis simply")
}

Ventaja de AICore: el modelo puede estar ya en cache en el dispositivo, asi que los usuarios no necesitan descargar 2-3GB por separado.

Opcion 3: MediaPipe LLM Inference API

MediaPipe es mas flexible y funciona en una gama mas amplia de dispositivos Android:

dependencies {
    implementation("com.google.mediapipe:tasks-genai:0.10.20")
}

// Initialize the LLM
val options = LlmInference.LlmInferenceOptions.builder()
    .setModelPath("/data/local/tmp/gemma-4-e2b-it.bin")
    .setMaxTokens(1024)
    .setTopK(40)
    .setTemperature(0.7f)
    .setRandomSeed(42)
    .build()

val llmInference = LlmInference.createFromOptions(context, options)

// Generate text
val response = llmInference.generateResponse("What is machine learning?")

// Stream responses
llmInference.generateResponseAsync(prompt) { partialResult, done ->
    // Update UI with each token
    textView.append(partialResult)
}

Despliegue en iOS

Opcion 1: App AI Edge Gallery

La forma mas facil de probar Gemma 4 en iOS — descarga la app AI Edge Gallery de la App Store. Para optimizaciones especificas de Apple y detalles de configuracion, consulta nuestra guia dedicada para iPhone.

Instala AI Edge Gallery
Explora los modelos disponibles
Descarga Gemma 4 E2B o E4B
Empieza a chatear — completamente sin conexion

Esto es genial para uso personal y pruebas, pero no para integrar en tu propia app.

Opcion 2: LiteRT (TensorFlow Lite Runtime)

Para integrar Gemma 4 en tu propia app iOS:

import LiteRT

class GemmaModel {
    private var interpreter: Interpreter?

    func loadModel() throws {
        guard let modelPath = Bundle.main.path(
            forResource: "gemma-4-e2b-it",
            ofType: "tflite"
        ) else {
            throw GemmaError.modelNotFound
        }

        var options = Interpreter.Options()
        options.threadCount = 4

        // Use GPU delegate for acceleration
        let gpuDelegate = MetalDelegate()
        interpreter = try Interpreter(
            modelPath: modelPath,
            options: options,
            delegates: [gpuDelegate]
        )
    }

    func generate(prompt: String) throws -> String {
        // Tokenize input
        let tokens = tokenize(prompt)

        // Run inference
        try interpreter?.allocateTensors()
        try interpreter?.copy(tokens, toInputAt: 0)
        try interpreter?.invoke()

        // Decode output
        let output = try interpreter?.output(at: 0)
        return decode(output)
    }
}

Opcion 3: MediaPipe para iOS

MediaPipe tambien funciona en iOS:

import MediaPipeTasksGenAI

let options = LlmInference.Options()
options.modelPath = Bundle.main.path(
    forResource: "gemma-4-e2b-it",
    ofType: "bin"
)!
options.maxTokens = 1024
options.temperature = 0.7

let llm = try LlmInference(options: options)
let response = try llm.generateResponse(inputText: "Hello!")

Expectativas de rendimiento

Se realista sobre lo que la IA movil puede hacer. Esto es lo que puedes esperar:

Dispositivo	Modelo	Velocidad (tok/s)	Primer token (ms)	Uso de RAM
Pixel 9 Pro	E2B	~15-20	~800	~3 GB
Pixel 9 Pro	E4B	~8-12	~1500	~5 GB
Samsung S24 Ultra	E2B	~15-18	~900	~3 GB
iPhone 15 Pro	E2B	~12-15	~1000	~3 GB
iPhone 16 Pro	E2B	~15-18	~800	~3 GB
iPhone 16 Pro	E4B	~8-10	~1500	~5 GB

Estas velocidades son mas lentas que en escritorio, pero perfectamente usables para chat interactivo. El primer token tarda un poco mas mientras el modelo se inicializa.

Consideraciones de bateria y temperatura

Ejecutar inferencia de IA es intensivo en computo. Esto hay que tener en cuenta:

Preocupacion	Realidad	Mitigacion
Consumo de bateria	~5-8% por hora de uso activo	Limita la longitud maxima de generacion
Calor	El telefono se calienta durante la inferencia	Anade pausas de enfriamiento entre generaciones largas
Uso en segundo plano	El SO puede matar el proceso	Mantener el modelo cargado solo cuando se necesite
Almacenamiento	2-5 GB por modelo	Ofrecer la descarga del modelo como opcional

// Good practice: release model when not in use
override fun onPause() {
    super.onPause()
    session?.close()
}

override fun onResume() {
    super.onResume()
    if (session == null) initModel()
}

Sin conexion: la funcionalidad estrella

La mayor ventaja de la IA en el dispositivo es que funciona sin internet. Piensa en los casos de uso:

Viajes: Asistente de IA funciona en modo avion
Tareas sensibles a la privacidad: Preguntas medicas, diario personal, programacion privada — nada sale de tu dispositivo
Mala conectividad: Zonas rurales, metro, regiones en desarrollo
Velocidad: Sin latencia de red — las respuestas empiezan inmediatamente
Coste: Sin tarifas de API despues de la descarga inicial del modelo

Esto es algo que las APIs en la nube fundamentalmente no pueden ofrecer. Cuando ejecutas Gemma 4 en tu telefono, tus datos se quedan en tu telefono. Punto.

Movil vs API en la nube

Factor	En dispositivo (Gemma 4 E2B)	API en la nube (Gemini)
Velocidad	~15 tok/s	~50-100 tok/s
Calidad	Buena (modelo 2B)	Excelente (modelo grande)
Privacidad	Completa	Datos enviados al servidor
Sin conexion	Si	No
Coste	Gratis despues de la descarga	Precio por token
Impacto en bateria	Alto	Minimo
Configuracion	Descarga del modelo necesaria	Solo clave API

El enfoque ideal es hibrido: usa Gemma 4 en el dispositivo para tareas sensibles a la privacidad y sin conexion, y recurre a una API en la nube cuando necesites mayor calidad o el telefono este conectado.

Siguientes pasos

¿Quieres ejecutar Gemma 4 en iPhone especificamente? Consulta nuestra guia detallada para iPhone con optimizaciones especificas de Apple
¿No sabes que modelo elegir? Lee ¿Que modelo de Gemma 4? para entender toda la gama
¿Curioso sobre requisitos de hardware para escritorio? Consulta la guia de hardware para recomendaciones de escritorio y portatil

La IA movil aun esta en sus primeras etapas, pero es real y funciona hoy. Empieza con el modelo E2B, pruebalo en tu telefono y construye a partir de ahi. El hecho de que una IA capaz se ejecute completamente en un telefono que llevas en el bolsillo — sin internet, sin claves API, sin facturas mensuales — es bastante increible.