Gemma 4 en Mac: Rendimiento Probado en M1, M2, M3, M4

Los Macs con Apple Silicon son genuinamente una de las mejores plataformas para ejecutar modelos de IA locales. La arquitectura de memoria unificada significa que la GPU y la CPU comparten el mismo conjunto de RAM — por lo que un Mac con 32GB de memoria puede cargar modelos que necesitarian una GPU dedicada de 32GB en una PC.

Probe Gemma 4 en toda la linea de Apple Silicon. Esto es exactamente lo que puedes esperar.

Por Que los Macs Son Geniales para IA Local

Tres cosas hacen especial a Apple Silicon para esto:

Memoria unificada: Sin copiar datos entre memoria de CPU y GPU. Un Mac de 24GB tiene 24GB disponibles para el modelo — punto.
Aceleracion Metal: Ollama y llama.cpp usan automaticamente Metal para aceleracion por GPU. Sin configuracion necesaria.
Ancho de banda de memoria: El ancho de banda de memoria de Apple es excelente en relacion al precio, y ese es el cuello de botella para la inferencia de LLM.

Sin drivers NVIDIA, sin instalacion de CUDA, sin lidiar con passthrough de GPU de Docker. Instala Ollama, ejecuta ollama run gemma4, y la aceleracion Metal ya esta funcionando.

Rendimiento Por Chip

Esto es lo que medi con Ollama, usando un prompt de 512 tokens y generacion de 256 tokens:

M1 (2020)

Config	RAM	Mejor Modelo	Tokens/seg	¿Usable?
M1 8GB	8 GB	Gemma 4 E2B (Q4)	15-20 tok/s	Si, para tareas simples
M1 16GB	16 GB	Gemma 4 E4B (Q4)	12-16 tok/s	Si, bueno para uso diario
M1 Pro 16GB	16 GB	Gemma 4 E4B (Q4)	18-22 tok/s	Si, comodo
M1 Max 32GB	32 GB	Gemma 4 26B (Q4)	8-12 tok/s	Usable, un poco lento
M1 Ultra 64GB	64 GB	Gemma 4 31B (Q4)	10-14 tok/s	Si

El M1 base con 8GB es ajustado. Puedes ejecutar E2B, pero no esperes hacer mucho multitasking mientras el modelo esta cargado. El M1 Pro y Max son mucho mejores — mas nucleos GPU y mayor ancho de banda de memoria hacen una diferencia real.

M2 (2022)

Config	RAM	Mejor Modelo	Tokens/seg	¿Usable?
M2 8GB	8 GB	Gemma 4 E4B (Q4)	14-18 tok/s	Ajustado pero funciona
M2 16GB	16 GB	Gemma 4 E4B (Q8)	16-20 tok/s	Bueno
M2 Pro 16GB	16 GB	Gemma 4 26B (Q4)	10-14 tok/s	Si
M2 Max 32GB	32 GB	Gemma 4 26B (Q4)	14-18 tok/s	Fluido
M2 Ultra 64GB	64 GB	Gemma 4 31B (Q8)	12-16 tok/s	Muy bueno

El M2 Pro con 16GB es el punto dulce para la mayoria de la gente. Puedes ejecutar el modelo MoE 26B comodamente. Recuerda, el modelo 26B solo usa ~3.8B parametros activos por token — ve nuestra guia de arquitectura para entender por que.

M3 (2023)

Config	RAM	Mejor Modelo	Tokens/seg	¿Usable?
M3 8GB	8 GB	Gemma 4 E4B (Q4)	16-20 tok/s	Funciona
M3 16GB	16 GB	Gemma 4 E4B (Q8)	18-24 tok/s	Bueno
M3 Pro 18GB	18 GB	Gemma 4 26B (Q4)	12-16 tok/s	Bueno
M3 Max 36GB	36 GB	Gemma 4 31B (Q4)	14-18 tok/s	Fluido
M3 Max 48GB	48 GB	Gemma 4 31B (Q5)	16-20 tok/s	Genial

El M3 Max con 36GB es una maquina de IA fantastica. Puedes ejecutar el modelo completo 31B con cuantizacion Q4 y aun tener margen para otras apps. La variante de 48GB te permite usar cuantizacion Q5 de mayor calidad.

M4 (2024-2025)

Config	RAM	Mejor Modelo	Tokens/seg	¿Usable?
M4 16GB	16 GB	Gemma 4 E4B (Q8)	20-26 tok/s	Genial
M4 Pro 24GB	24 GB	Gemma 4 26B (Q4)	16-22 tok/s	Fluido
M4 Max 36GB	36 GB	Gemma 4 31B (Q4)	18-24 tok/s	Excelente
M4 Max 64GB	64 GB	Gemma 4 31B (Q8)	20-26 tok/s	Mejor experiencia

La generacion M4 trae mejoras notables de velocidad. El M4 Max con 64GB es la configuracion sonada — ejecuta el modelo Gemma 4 de mas alta calidad a velocidades que se sienten interactivas.

Recomendaciones de Modelo por RAM

Referencia rapida si solo quieres saber que ejecutar:

RAM Disponible	Modelo Recomendado	Comando
8 GB	Gemma 4 E2B o E4B (Q4)	`ollama run gemma4:e4b`
16 GB	Gemma 4 E4B (Q8) o 26B (Q4)	`ollama run gemma4:26b`
24 GB	Gemma 4 26B (Q4)	`ollama run gemma4:26b`
32 GB+	Gemma 4 31B (Q4)	`ollama run gemma4:31b`
48 GB+	Gemma 4 31B (Q5/Q8)	`ollama run gemma4:31b`

Para mas detalles sobre como elegir entre modelos, consulta nuestra guia de seleccion de modelos.

Mac Mini Como Servidor de IA Siempre Activo

Aqui hay algo que mucha gente esta haciendo: usar un Mac Mini como servidor de IA dedicado. Es brillante porque:

Baja potencia: M4 Mac Mini en reposo a ~5W, ejecuta inferencia de IA a ~30-40W
Silencioso: Sin ventiladores en cargas bajas o medias
Pequeno: Cabe en cualquier lado
Asequible: Mac Mini M4 con 24GB empieza en $799

Configuracion:

# Instalar Ollama
brew install ollama

# Iniciar Ollama como servicio (se ejecuta al arrancar)
brew services start ollama

# Descargar tu modelo
ollama pull gemma4:26b

# Ollama ahora sirve en el puerto 11434
# Accede desde cualquier dispositivo en tu red:
# http://mac-mini-ip:11434

Para acceder desde otros dispositivos en tu red, establece el host:

# En tu perfil de shell (~/.zshrc)
export OLLAMA_HOST=0.0.0.0

# Reiniciar Ollama
brew services restart ollama

Ahora cualquier dispositivo en tu LAN puede usar tu servidor de IA Mac Mini — tu telefono, tablet, otras computadoras. Pon una UI web como Open WebUI delante y tendras una alternativa privada a ChatGPT para todo tu hogar.

Consejos de Optimizacion para Mac

1. Cierra apps hambrientas de memoria antes de ejecutar modelos grandes

Safari, Chrome y Xcode pueden consumir gigabytes de RAM. Si estas ajustado de memoria, cierralas antes de cargar un modelo.

# Verificar memoria disponible
memory_pressure

2. Usa la cuantizacion correcta

No uses Q8 por defecto si Q4_K_M te da el 95% de la calidad a la mitad de la memoria. Para la mayoria de tareas, Q4_K_M es el punto dulce.

3. Reduce la longitud del contexto para respuestas mas rapidas

# El contexto por defecto suele ser 4096-8192
# Si no necesitas contexto largo:
ollama run gemma4:26b --num-ctx 2048

4. Monitorea la utilizacion de GPU

# Observa el uso de GPU Metal
sudo powermetrics --samplers gpu_power -i 1000

5. Mantén Ollama actualizado

Las mejoras de aceleracion Metal se lanzan regularmente. Actualiza con brew upgrade ollama.

6. Considera usar LM Studio si prefieres una GUI

LM Studio te da una interfaz visual limpia, ajustes personalizables y funciona genial en Mac.

¿Que Hay de Mac vs. PC para Gemma 4?

La comparacion es matizada:

	Mac (Apple Silicon)	PC (NVIDIA GPU)
Dificultad de configuracion	Facil (brew + ollama)	Media (drivers CUDA)
Eficiencia de memoria	Excelente (unificada)	Buena (VRAM dedicada)
Precio por GB	Mayor	Menor
Velocidad bruta (mismo precio)	Comparable	Ligeramente mas rapido
Consumo de energia	Mucho menor	Mayor
Ruido	Muy silencioso	Depende del enfriamiento
Soporte GPU Docker	No necesario	Necesita NVIDIA toolkit

Para la mayoria de usuarios individuales, Mac es la experiencia mas facil y agradable. Para servidores de produccion, las GPUs NVIDIA ejecutandose en Docker con vLLM dan mejor rendimiento por dolar.