Como Ejecutar Gemma 4 en Raspberry Pi (Si, En Serio)

Si, puedes ejecutar Gemma 4 en un Raspberry Pi. No, no sera rapido. Pero funciona, y hay algunas razones genuinamente buenas para hacerlo. Dejame mostrarte como, y ser honesto sobre que esperar.

Que es Realista

Establezcamos expectativas antes de empezar:

	Raspberry Pi 5 (8GB)	MacBook M2 16GB
Modelo	Gemma 4 E2B (Q4)	Gemma 4 26B (Q4)
Velocidad	2-5 tokens/seg	14-18 tokens/seg
Sensacion	Lento pero funcional	Fluido e interactivo
Costo	~$80	~$1200+
Potencia	5-15W	20-50W

A 2-5 tokens por segundo, estas esperando unos segundos para una respuesta corta y quiza 30 segundos para una respuesta mas larga. No es velocidad de chat interactivo. Pero para tareas automatizadas, asistentes offline y experimentacion? Totalmente viable.

Requisitos

Raspberry Pi 5 con 8GB RAM (requerido — 4GB no es suficiente)
Tarjeta microSD (al menos 32GB, idealmente 64GB) o SSD USB
Enfriamiento activo (ventilador o disipador — la CPU se calentara)
Raspberry Pi OS 64-bit (Bookworm o posterior)

El Pi 4 con 8GB tecnicamente puede ejecutar E2B tambien, pero el Pi 5 es significativamente mas rapido (~2x) y lo recomendaria si estas comprando hardware nuevo.

Instalando Ollama en ARM

Ollama soporta ARM64 nativamente, por lo que la instalacion en el Pi es directa:

# Instalar Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Verificar instalacion
ollama --version

# Iniciar el servicio
sudo systemctl enable ollama
sudo systemctl start ollama

Ahora descarga el modelo Gemma 4 mas pequeno:

# Descargar E2B — el unico modelo que cabe en 8GB
ollama pull gemma4:e2b

# Ejecutarlo
ollama run gemma4:e2b

La descarga inicial toma un tiempo en el Pi (el modelo es de aproximadamente 1.5GB). Una vez cargado, deberias ver un prompt. Escribe algo y espera — tu primera respuesta tomara unos segundos para empezar a generar.

Realidad del Rendimiento

Ejecute algunos benchmarks en un Raspberry Pi 5 8GB con enfriamiento activo:

Model: gemma4:e2b (Q4_K_M quantization)
Prompt: "Explain what an API is in 3 sentences."

Prompt eval: ~1.5 seconds
Generation speed: 3.2 tokens/second
Total time for ~50 token response: ~17 seconds

Model: gemma4:e2b (Q4_K_M quantization)
Prompt: "Write a Python function to reverse a string."

Prompt eval: ~2 seconds
Generation speed: 2.8 tokens/second
Total time for ~80 token response: ~30 seconds

Es lento. No hay manera de evitarlo. La CPU ARM del Pi esta haciendo todo el trabajo — no hay aceleracion por GPU aqui. Pero las respuestas son correctas y coherentes. El modelo es el mismo Gemma 4 que se ejecuta en un Mac de $3000 — solo mas lento.

Casos de Uso Practicos

A esta velocidad, el chat interactivo no es ideal. Pero estos casos de uso funcionan genial:

Asistente Personal Offline

import requests

def ask_gemma(question):
    response = requests.post("http://localhost:11434/api/chat", json={
        "model": "gemma4:e2b",
        "messages": [{"role": "user", "content": question}],
        "stream": False,
    })
    return response.json()["message"]["content"]

# Process a question overnight, have the answer in the morning
answer = ask_gemma("Summarize the key points of this article: ...")

Cerebro de Automatizacion del Hogar

Conectalo a Home Assistant para control en lenguaje natural:

# Parse voice commands into structured actions
command = "Turn on the living room lights and set them to 50%"

response = ask_gemma(f"""Parse this home command into JSON:
Command: {command}
Format: {{"device": "...", "action": "...", "value": "..."}}""")

A 2-5 tok/s, parsear un comando simple toma ~5 segundos. Esta bien para la automatizacion del hogar — no tienes prisa por encender una luz.

IA Con Privacidad Primero

El mayor punto de venta: tus datos nunca salen de tu casa. Sin nube, sin claves API, sin terminos de servicio. Solo una computadora de $80 ejecutando IA en tu escritorio.

Para las personas que quieren un asistente de IA privado para entradas de diario, notas personales o preguntas sensibles — un Pi ejecutando Gemma 4 es dificil de superar en precio.

Aprendizaje y Educacion

Un Raspberry Pi ejecutando Gemma 4 es una herramienta de ensenanza increible:

Los estudiantes pueden experimentar con IA sin necesitar cuentas en la nube
Las escuelas pueden configurar estaciones de trabajo de IA por menos de $100 cada una
Aprende sobre inferencia de LLM, tokenizacion y cuantizacion de forma practica

Consejos de Optimizacion

1. Usa cuantizacion Q4 (o menor)

Q4_K_M da la mejor relacion velocidad-calidad en el Pi. No pruebes Q8 — sera demasiado lento y puede no caber en memoria.

2. Mantén el contexto corto

# Reduce context window to save memory and speed up processing
ollama run gemma4:e2b --num-ctx 1024

La ventana de contexto por defecto consume tu RAM limitada. Para Q&A simple, 1024 tokens es suficiente.

3. Usa un SSD en lugar de microSD

Un SSD USB 3.0 acelera dramaticamente la carga del modelo. La tarjeta microSD es el cuello de botella cuando el modelo se carga por primera vez en memoria.

# Verifica si tu modelo esta en almacenamiento lento
ls -la ~/.ollama/models/

4. Agrega espacio de swap

Si estas justo de memoria:

# Agregar 4GB de swap
sudo fallocate -l 4G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile

# Hacerlo permanente
echo '/swapfile none swap sw 0 0' | sudo tee -a /etc/fstab

Advertencia: el swap en microSD sera muy lento. Usa un SSD si es posible.

5. Cierra todo lo demas

El Pi solo tiene 8GB. Cierra el entorno de escritorio si estas ejecutando headless:

# Cambiar solo a CLI
sudo systemctl set-default multi-user.target
sudo reboot

Esto libera ~500MB de RAM — lo que importa cuando estas trabajando con margenes ajustados.

6. Baja la temperatura

Me refiero a la temperatura fisica. El Pi 5 hace throttle cuando se calienta. Asegurate de tener:

Un disipador adecuado
Enfriamiento activo (ventilador)
Buena ventilacion

¿Que Hay del Pi 4?

El Raspberry Pi 4 con 8GB puede ejecutar Gemma 4 E2B, pero:

~1.5-3 tok/s (aproximadamente 40% mas lento que el Pi 5)
Sin extensiones crypto para inferencia mas rapida
Aun funciona para los mismos casos de uso, solo con mas paciencia

Si ya tienes un Pi 4 8GB, pruebalo. Si estas comprando nuevo, obtén el Pi 5.

El Factor Diversion

Seamos realistas: ejecutar IA en una computadora del tamano de una tarjeta de credito es simplemente genial. Es un iniciador de conversacion, un proyecto de fin de semana y una experiencia de aprendizaje genuina. El hecho de que produzca texto coherente y util es notable.

Preséntate en un encuentro con un Raspberry Pi ejecutando Gemma 4 y la gente querra hablar contigo.

Para una configuracion mas practica, consulta la ejecucion de Gemma 4 en Mac o en Docker. Y si quieres entender por que el modelo E2B cabe en un hardware tan pequeno, nuestra guia de arquitectura explica los diferentes tamanos de modelo.