Ejecutar un modelo de IA directamente en tu telefono — sin internet, sin que los datos salgan de tu dispositivo — suena futurista, pero Gemma 4 lo hace realidad. Los modelos mas pequenos E2B y E4B estan especificamente disenados para despliegue movil. Esta guia cubre todo lo que necesitas para poner Gemma 4 a funcionar en Android e iOS.
¿Que modelos funcionan en el movil?
No todos los modelos de Gemma 4 caben en un telefono. Esto es lo realista:
| Modelo | Parametros | RAM necesaria | Android | iOS | ¿Recomendado? |
|---|---|---|---|---|---|
| Gemma 4 E2B | 2B | ~3 GB | Si | Si | El mejor para la mayoria de telefonos |
| Gemma 4 E4B | 4B | ~5 GB | Si | Si | Solo telefonos de gama alta |
| Gemma 4 1B | 1B | ~2 GB | Si | Si | El mas rapido, menor calidad |
| Gemma 4 4B | 4B | ~5 GB | Posible | Posible | Justo |
| Gemma 4 12B+ | 12B+ | ~9 GB+ | No | No | Demasiado grande para movil |
Los modelos E2B y E4B ("Edge") estan optimizados para movil — incluyen capacidades multimodales (texto, vision y audio) en tamanos que realmente caben en un telefono. Puedes obtener los archivos del modelo de cualquier fuente listada en nuestra guia de descarga. Para especificaciones detalladas de RAM y almacenamiento, consulta los requisitos de hardware.
Despliegue en Android
Android tiene el ecosistema mas maduro para Gemma 4 en el dispositivo, gracias a la estrecha integracion de Google.
Opcion 1: Google AI Edge SDK
El AI Edge SDK es la solucion oficial de Google para ejecutar Gemma en Android:
// build.gradle.kts
dependencies {
implementation("com.google.ai.edge:ai-edge-sdk:0.3.0")
}
// In your Activity or ViewModel
import com.google.ai.edge.InferenceSession
import com.google.ai.edge.ModelConfig
class GemmaViewModel : ViewModel() {
private var session: InferenceSession? = null
fun initModel(context: Context) {
val config = ModelConfig.builder()
.setModelPath("gemma-4-e2b-it.task")
.setMaxTokens(1024)
.setTemperature(0.7f)
.build()
session = InferenceSession.create(context, config)
}
fun generateResponse(prompt: String): String {
return session?.generateResponse(prompt) ?: "Model not loaded"
}
}Opcion 2: AICore (Pixel y Samsung)
AICore viene integrado en telefonos Pixel recientes y dispositivos Samsung Galaxy. Proporciona aceleracion de IA a nivel de sistema:
// Check if AICore is available
val aiCoreAvailable = AICore.isAvailable(context)
if (aiCoreAvailable) {
// AICore handles model management and optimization
val session = AICore.createSession(
model = "gemma-4-e2b-it",
options = AICore.Options.builder()
.setAccelerator(AICore.Accelerator.GPU)
.build()
)
val response = session.generate("Explain photosynthesis simply")
}Ventaja de AICore: el modelo puede estar ya en cache en el dispositivo, asi que los usuarios no necesitan descargar 2-3GB por separado.
Opcion 3: MediaPipe LLM Inference API
MediaPipe es mas flexible y funciona en una gama mas amplia de dispositivos Android:
dependencies {
implementation("com.google.mediapipe:tasks-genai:0.10.20")
}
// Initialize the LLM
val options = LlmInference.LlmInferenceOptions.builder()
.setModelPath("/data/local/tmp/gemma-4-e2b-it.bin")
.setMaxTokens(1024)
.setTopK(40)
.setTemperature(0.7f)
.setRandomSeed(42)
.build()
val llmInference = LlmInference.createFromOptions(context, options)
// Generate text
val response = llmInference.generateResponse("What is machine learning?")
// Stream responses
llmInference.generateResponseAsync(prompt) { partialResult, done ->
// Update UI with each token
textView.append(partialResult)
}Despliegue en iOS
Opcion 1: App AI Edge Gallery
La forma mas facil de probar Gemma 4 en iOS — descarga la app AI Edge Gallery de la App Store. Para optimizaciones especificas de Apple y detalles de configuracion, consulta nuestra guia dedicada para iPhone.
- Instala AI Edge Gallery
- Explora los modelos disponibles
- Descarga Gemma 4 E2B o E4B
- Empieza a chatear — completamente sin conexion
Esto es genial para uso personal y pruebas, pero no para integrar en tu propia app.
Opcion 2: LiteRT (TensorFlow Lite Runtime)
Para integrar Gemma 4 en tu propia app iOS:
import LiteRT
class GemmaModel {
private var interpreter: Interpreter?
func loadModel() throws {
guard let modelPath = Bundle.main.path(
forResource: "gemma-4-e2b-it",
ofType: "tflite"
) else {
throw GemmaError.modelNotFound
}
var options = Interpreter.Options()
options.threadCount = 4
// Use GPU delegate for acceleration
let gpuDelegate = MetalDelegate()
interpreter = try Interpreter(
modelPath: modelPath,
options: options,
delegates: [gpuDelegate]
)
}
func generate(prompt: String) throws -> String {
// Tokenize input
let tokens = tokenize(prompt)
// Run inference
try interpreter?.allocateTensors()
try interpreter?.copy(tokens, toInputAt: 0)
try interpreter?.invoke()
// Decode output
let output = try interpreter?.output(at: 0)
return decode(output)
}
}Opcion 3: MediaPipe para iOS
MediaPipe tambien funciona en iOS:
import MediaPipeTasksGenAI
let options = LlmInference.Options()
options.modelPath = Bundle.main.path(
forResource: "gemma-4-e2b-it",
ofType: "bin"
)!
options.maxTokens = 1024
options.temperature = 0.7
let llm = try LlmInference(options: options)
let response = try llm.generateResponse(inputText: "Hello!")Expectativas de rendimiento
Se realista sobre lo que la IA movil puede hacer. Esto es lo que puedes esperar:
| Dispositivo | Modelo | Velocidad (tok/s) | Primer token (ms) | Uso de RAM |
|---|---|---|---|---|
| Pixel 9 Pro | E2B | ~15-20 | ~800 | ~3 GB |
| Pixel 9 Pro | E4B | ~8-12 | ~1500 | ~5 GB |
| Samsung S24 Ultra | E2B | ~15-18 | ~900 | ~3 GB |
| iPhone 15 Pro | E2B | ~12-15 | ~1000 | ~3 GB |
| iPhone 16 Pro | E2B | ~15-18 | ~800 | ~3 GB |
| iPhone 16 Pro | E4B | ~8-10 | ~1500 | ~5 GB |
Estas velocidades son mas lentas que en escritorio, pero perfectamente usables para chat interactivo. El primer token tarda un poco mas mientras el modelo se inicializa.
Consideraciones de bateria y temperatura
Ejecutar inferencia de IA es intensivo en computo. Esto hay que tener en cuenta:
| Preocupacion | Realidad | Mitigacion |
|---|---|---|
| Consumo de bateria | ~5-8% por hora de uso activo | Limita la longitud maxima de generacion |
| Calor | El telefono se calienta durante la inferencia | Anade pausas de enfriamiento entre generaciones largas |
| Uso en segundo plano | El SO puede matar el proceso | Mantener el modelo cargado solo cuando se necesite |
| Almacenamiento | 2-5 GB por modelo | Ofrecer la descarga del modelo como opcional |
// Good practice: release model when not in use
override fun onPause() {
super.onPause()
session?.close()
}
override fun onResume() {
super.onResume()
if (session == null) initModel()
}Sin conexion: la funcionalidad estrella
La mayor ventaja de la IA en el dispositivo es que funciona sin internet. Piensa en los casos de uso:
- Viajes: Asistente de IA funciona en modo avion
- Tareas sensibles a la privacidad: Preguntas medicas, diario personal, programacion privada — nada sale de tu dispositivo
- Mala conectividad: Zonas rurales, metro, regiones en desarrollo
- Velocidad: Sin latencia de red — las respuestas empiezan inmediatamente
- Coste: Sin tarifas de API despues de la descarga inicial del modelo
Esto es algo que las APIs en la nube fundamentalmente no pueden ofrecer. Cuando ejecutas Gemma 4 en tu telefono, tus datos se quedan en tu telefono. Punto.
Movil vs API en la nube
| Factor | En dispositivo (Gemma 4 E2B) | API en la nube (Gemini) |
|---|---|---|
| Velocidad | ~15 tok/s | ~50-100 tok/s |
| Calidad | Buena (modelo 2B) | Excelente (modelo grande) |
| Privacidad | Completa | Datos enviados al servidor |
| Sin conexion | Si | No |
| Coste | Gratis despues de la descarga | Precio por token |
| Impacto en bateria | Alto | Minimo |
| Configuracion | Descarga del modelo necesaria | Solo clave API |
El enfoque ideal es hibrido: usa Gemma 4 en el dispositivo para tareas sensibles a la privacidad y sin conexion, y recurre a una API en la nube cuando necesites mayor calidad o el telefono este conectado.
Siguientes pasos
- ¿Quieres ejecutar Gemma 4 en iPhone especificamente? Consulta nuestra guia detallada para iPhone con optimizaciones especificas de Apple
- ¿No sabes que modelo elegir? Lee ¿Que modelo de Gemma 4? para entender toda la gama
- ¿Curioso sobre requisitos de hardware para escritorio? Consulta la guia de hardware para recomendaciones de escritorio y portatil
La IA movil aun esta en sus primeras etapas, pero es real y funciona hoy. Empieza con el modelo E2B, pruebalo en tu telefono y construye a partir de ahi. El hecho de que una IA capaz se ejecute completamente en un telefono que llevas en el bolsillo — sin internet, sin claves API, sin facturas mensuales — es bastante increible.



