Como desplegar Gemma 4 en Android e iOS (Guia de IA movil)

abr. 7, 2026

Ejecutar un modelo de IA directamente en tu telefono — sin internet, sin que los datos salgan de tu dispositivo — suena futurista, pero Gemma 4 lo hace realidad. Los modelos mas pequenos E2B y E4B estan especificamente disenados para despliegue movil. Esta guia cubre todo lo que necesitas para poner Gemma 4 a funcionar en Android e iOS.

¿Que modelos funcionan en el movil?

No todos los modelos de Gemma 4 caben en un telefono. Esto es lo realista:

ModeloParametrosRAM necesariaAndroidiOS¿Recomendado?
Gemma 4 E2B2B~3 GBSiSiEl mejor para la mayoria de telefonos
Gemma 4 E4B4B~5 GBSiSiSolo telefonos de gama alta
Gemma 4 1B1B~2 GBSiSiEl mas rapido, menor calidad
Gemma 4 4B4B~5 GBPosiblePosibleJusto
Gemma 4 12B+12B+~9 GB+NoNoDemasiado grande para movil

Los modelos E2B y E4B ("Edge") estan optimizados para movil — incluyen capacidades multimodales (texto, vision y audio) en tamanos que realmente caben en un telefono. Puedes obtener los archivos del modelo de cualquier fuente listada en nuestra guia de descarga. Para especificaciones detalladas de RAM y almacenamiento, consulta los requisitos de hardware.

Despliegue en Android

Android tiene el ecosistema mas maduro para Gemma 4 en el dispositivo, gracias a la estrecha integracion de Google.

Opcion 1: Google AI Edge SDK

El AI Edge SDK es la solucion oficial de Google para ejecutar Gemma en Android:

// build.gradle.kts
dependencies {
    implementation("com.google.ai.edge:ai-edge-sdk:0.3.0")
}

// In your Activity or ViewModel
import com.google.ai.edge.InferenceSession
import com.google.ai.edge.ModelConfig

class GemmaViewModel : ViewModel() {
    private var session: InferenceSession? = null

    fun initModel(context: Context) {
        val config = ModelConfig.builder()
            .setModelPath("gemma-4-e2b-it.task")
            .setMaxTokens(1024)
            .setTemperature(0.7f)
            .build()

        session = InferenceSession.create(context, config)
    }

    fun generateResponse(prompt: String): String {
        return session?.generateResponse(prompt) ?: "Model not loaded"
    }
}

Opcion 2: AICore (Pixel y Samsung)

AICore viene integrado en telefonos Pixel recientes y dispositivos Samsung Galaxy. Proporciona aceleracion de IA a nivel de sistema:

// Check if AICore is available
val aiCoreAvailable = AICore.isAvailable(context)

if (aiCoreAvailable) {
    // AICore handles model management and optimization
    val session = AICore.createSession(
        model = "gemma-4-e2b-it",
        options = AICore.Options.builder()
            .setAccelerator(AICore.Accelerator.GPU)
            .build()
    )

    val response = session.generate("Explain photosynthesis simply")
}

Ventaja de AICore: el modelo puede estar ya en cache en el dispositivo, asi que los usuarios no necesitan descargar 2-3GB por separado.

Opcion 3: MediaPipe LLM Inference API

MediaPipe es mas flexible y funciona en una gama mas amplia de dispositivos Android:

dependencies {
    implementation("com.google.mediapipe:tasks-genai:0.10.20")
}

// Initialize the LLM
val options = LlmInference.LlmInferenceOptions.builder()
    .setModelPath("/data/local/tmp/gemma-4-e2b-it.bin")
    .setMaxTokens(1024)
    .setTopK(40)
    .setTemperature(0.7f)
    .setRandomSeed(42)
    .build()

val llmInference = LlmInference.createFromOptions(context, options)

// Generate text
val response = llmInference.generateResponse("What is machine learning?")

// Stream responses
llmInference.generateResponseAsync(prompt) { partialResult, done ->
    // Update UI with each token
    textView.append(partialResult)
}

Despliegue en iOS

La forma mas facil de probar Gemma 4 en iOS — descarga la app AI Edge Gallery de la App Store. Para optimizaciones especificas de Apple y detalles de configuracion, consulta nuestra guia dedicada para iPhone.

  1. Instala AI Edge Gallery
  2. Explora los modelos disponibles
  3. Descarga Gemma 4 E2B o E4B
  4. Empieza a chatear — completamente sin conexion

Esto es genial para uso personal y pruebas, pero no para integrar en tu propia app.

Opcion 2: LiteRT (TensorFlow Lite Runtime)

Para integrar Gemma 4 en tu propia app iOS:

import LiteRT

class GemmaModel {
    private var interpreter: Interpreter?

    func loadModel() throws {
        guard let modelPath = Bundle.main.path(
            forResource: "gemma-4-e2b-it",
            ofType: "tflite"
        ) else {
            throw GemmaError.modelNotFound
        }

        var options = Interpreter.Options()
        options.threadCount = 4

        // Use GPU delegate for acceleration
        let gpuDelegate = MetalDelegate()
        interpreter = try Interpreter(
            modelPath: modelPath,
            options: options,
            delegates: [gpuDelegate]
        )
    }

    func generate(prompt: String) throws -> String {
        // Tokenize input
        let tokens = tokenize(prompt)

        // Run inference
        try interpreter?.allocateTensors()
        try interpreter?.copy(tokens, toInputAt: 0)
        try interpreter?.invoke()

        // Decode output
        let output = try interpreter?.output(at: 0)
        return decode(output)
    }
}

Opcion 3: MediaPipe para iOS

MediaPipe tambien funciona en iOS:

import MediaPipeTasksGenAI

let options = LlmInference.Options()
options.modelPath = Bundle.main.path(
    forResource: "gemma-4-e2b-it",
    ofType: "bin"
)!
options.maxTokens = 1024
options.temperature = 0.7

let llm = try LlmInference(options: options)
let response = try llm.generateResponse(inputText: "Hello!")

Expectativas de rendimiento

Se realista sobre lo que la IA movil puede hacer. Esto es lo que puedes esperar:

DispositivoModeloVelocidad (tok/s)Primer token (ms)Uso de RAM
Pixel 9 ProE2B~15-20~800~3 GB
Pixel 9 ProE4B~8-12~1500~5 GB
Samsung S24 UltraE2B~15-18~900~3 GB
iPhone 15 ProE2B~12-15~1000~3 GB
iPhone 16 ProE2B~15-18~800~3 GB
iPhone 16 ProE4B~8-10~1500~5 GB

Estas velocidades son mas lentas que en escritorio, pero perfectamente usables para chat interactivo. El primer token tarda un poco mas mientras el modelo se inicializa.

Consideraciones de bateria y temperatura

Ejecutar inferencia de IA es intensivo en computo. Esto hay que tener en cuenta:

PreocupacionRealidadMitigacion
Consumo de bateria~5-8% por hora de uso activoLimita la longitud maxima de generacion
CalorEl telefono se calienta durante la inferenciaAnade pausas de enfriamiento entre generaciones largas
Uso en segundo planoEl SO puede matar el procesoMantener el modelo cargado solo cuando se necesite
Almacenamiento2-5 GB por modeloOfrecer la descarga del modelo como opcional
// Good practice: release model when not in use
override fun onPause() {
    super.onPause()
    session?.close()
}

override fun onResume() {
    super.onResume()
    if (session == null) initModel()
}

Sin conexion: la funcionalidad estrella

La mayor ventaja de la IA en el dispositivo es que funciona sin internet. Piensa en los casos de uso:

  • Viajes: Asistente de IA funciona en modo avion
  • Tareas sensibles a la privacidad: Preguntas medicas, diario personal, programacion privada — nada sale de tu dispositivo
  • Mala conectividad: Zonas rurales, metro, regiones en desarrollo
  • Velocidad: Sin latencia de red — las respuestas empiezan inmediatamente
  • Coste: Sin tarifas de API despues de la descarga inicial del modelo

Esto es algo que las APIs en la nube fundamentalmente no pueden ofrecer. Cuando ejecutas Gemma 4 en tu telefono, tus datos se quedan en tu telefono. Punto.

Movil vs API en la nube

FactorEn dispositivo (Gemma 4 E2B)API en la nube (Gemini)
Velocidad~15 tok/s~50-100 tok/s
CalidadBuena (modelo 2B)Excelente (modelo grande)
PrivacidadCompletaDatos enviados al servidor
Sin conexionSiNo
CosteGratis despues de la descargaPrecio por token
Impacto en bateriaAltoMinimo
ConfiguracionDescarga del modelo necesariaSolo clave API

El enfoque ideal es hibrido: usa Gemma 4 en el dispositivo para tareas sensibles a la privacidad y sin conexion, y recurre a una API en la nube cuando necesites mayor calidad o el telefono este conectado.

Siguientes pasos

  • ¿Quieres ejecutar Gemma 4 en iPhone especificamente? Consulta nuestra guia detallada para iPhone con optimizaciones especificas de Apple
  • ¿No sabes que modelo elegir? Lee ¿Que modelo de Gemma 4? para entender toda la gama
  • ¿Curioso sobre requisitos de hardware para escritorio? Consulta la guia de hardware para recomendaciones de escritorio y portatil

La IA movil aun esta en sus primeras etapas, pero es real y funciona hoy. Empieza con el modelo E2B, pruebalo en tu telefono y construye a partir de ahi. El hecho de que una IA capaz se ejecute completamente en un telefono que llevas en el bolsillo — sin internet, sin claves API, sin facturas mensuales — es bastante increible.

Gemma 4 AI

Gemma 4 AI

Related Guides

Como desplegar Gemma 4 en Android e iOS (Guia de IA movil) | Blog