¿Por que Gemma 4 va lento? Guia para acelerar en Mac, Windows y Linux

abr. 7, 2026

Descargaste Gemma 4, lo ejecutaste, y... es dolorosamente lento. Quiza 2 tokens por segundo. Quiza peor. Antes de culpar al modelo, vamos a descubrir que esta pasando realmente — porque en la mayoria de casos, unos pocos ajustes de configuracion pueden multiplicar tu velocidad por 5-10x.

Paso 1: Diagnostica por que va lento

Hay cinco razones comunes por las que Gemma 4 funciona mas lento de lo esperado. Vamos a verificar cada una.

Razon 1: Fallback a CPU

Este es el asesino de velocidad numero uno. Tu modelo se esta ejecutando en CPU en lugar de GPU, y puede que ni te des cuenta.

Como verificar:

# Mac: Monitor de Actividad → Historial GPU (menu Ventana)
# O verifica si se esta usando Metal:
sudo powermetrics --samplers gpu_power -n 1

# NVIDIA: La utilizacion de GPU deberia ser > 0%
nvidia-smi

# AMD: Misma verificacion
rocm-smi

Si la utilizacion de la GPU se mantiene en 0% durante la inferencia, estas en CPU. Soluciona esto primero — nada mas importa hasta que la aceleracion por GPU este funcionando.

Razon 2: Cuantizacion incorrecta

No todas las cuantizaciones son iguales en velocidad:

CuantizacionTamano archivo (12B)VelocidadCalidadIdeal para
Q4_K_M~7 GBLa mas rapidaBuenaUso diario, mayoria de tareas
Q5_K_M~8.5 GBRapidaMejorCuando la calidad importa
Q6_K~10 GBMediaMuy buenaEquilibrado
Q8_0~13 GBLentaCasi originalTareas criticas de calidad
FP16~24 GBLa mas lentaOriginalSolo si tienes la VRAM
IQ4_XS~6 GBLa mas rapidaAceptablePresupuesto ajustado de VRAM

Si estas ejecutando Q8 o FP16 y te preguntas por que va lento, cambia a Q4_K_M. La diferencia de calidad es marginal para la mayoria de tareas, pero la diferencia de velocidad es dramatica. Nuestra guia GGUF tiene benchmarks detallados para cada nivel de cuantizacion.

Razon 3: Longitud de contexto demasiado larga

Gemma 4 soporta hasta 256K de contexto, pero mas contexto = inferencia mas lenta. La relacion no es lineal — empeora a medida que crece el contexto:

Longitud de contextoVelocidad relativaUso de VRAM (12B Q4)
2K1.0x (base)~7 GB
8K~0.9x~8 GB
32K~0.7x~12 GB
128K~0.4x~20 GB
256K~0.25x~30 GB+

Solucion: Configura una longitud de contexto razonable para tu tarea:

# Ollama: limita el contexto
ollama run gemma4:12b --ctx-size 8192

# llama.cpp
./llama-server -m model.gguf -c 8192

# No uses 256K a menos que realmente lo necesites

Razon 4: Inflacion del KV cache

El KV cache (cache clave-valor) almacena informacion de atencion y crece con la longitud de la conversacion. Conversaciones largas consumen VRAM y ralentizan las cosas.

Solucion: Inicia conversaciones nuevas regularmente, o configura un limite de cache:

# llama.cpp: limita el KV cache
./llama-server -m model.gguf -c 8192 --cache-type-k q8_0 --cache-type-v q8_0

# KV cache cuantizado usa menos VRAM con perdida minima de calidad

Razon 5: Problemas de tamano de lote

Si estas sirviendo multiples solicitudes, tamanos de lote incorrectos perjudican el rendimiento:

# vLLM: ajusta el tamano de lote
python -m vllm.entrypoints.openai.api_server \
  --model google/gemma-4-12b-it \
  --max-num-batched-tokens 4096 \
  --max-num-seqs 8

Soluciones especificas por plataforma

Mac (Apple Silicon)

El rendimiento en Mac depende totalmente de que la aceleracion por GPU Metal funcione correctamente:

# Verifica soporte de Metal
system_profiler SPDisplaysDataType | grep Metal

# Ollama usa Metal automaticamente en Apple Silicon
# Si la velocidad sigue siendo lenta, verifica la presion de memoria unificada:
memory_pressure

# Para llama.cpp, asegurate de que Metal esta activado
cmake -B build -DGGML_METAL=ON
cmake --build build

# Configuracion recomendada para M1/M2/M3
./llama-server -m model.gguf -ngl 999 -c 8192
Modelo MacMemoria unificadaVelocidad 12B Q4Notas
M1 8GB8GB~12 tok/sUsable pero justo
M1 Pro 16GB16GB~18 tok/sComodo
M2 Pro 16GB16GB~22 tok/sBuen uso diario
M3 Pro 18GB18GB~25 tok/sPunto ideal
M3 Max 36GB36GB~30 tok/sPuede ejecutar 27B Q4
M4 Max 48GB48GB~35 tok/sEjecuta todo

Consejo especifico para Mac: Cierra apps que consumen mucha memoria (Chrome, Docker) antes de ejecutar modelos grandes. Apple Silicon comparte memoria entre CPU y GPU, asi que no hay una VRAM separada.

Windows (NVIDIA CUDA)

# Asegurate de que CUDA se esta usando realmente
# En Ollama, verifica con:
ollama ps

# Problema comun de Windows: configuracion de energia
# Configura "Alto rendimiento" en las opciones de energia de Windows
# Las GPUs de portatil se ralentizan agresivamente en "Equilibrado"

# Para llama.cpp en Windows:
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release

Consejo especifico para Windows: Desactiva el escaneo en tiempo real de Windows Defender para tu directorio de modelos. Escanea cada lectura de archivo y puede arruinar el rendimiento:

# PowerShell (admin)
Add-MpPreference -ExclusionPath "C:\Users\you\models"

Linux (NVIDIA o AMD)

# NVIDIA: Asegurate de que el modo de persistencia esta activado
sudo nvidia-smi -pm 1

# Configura la GPU a rendimiento maximo
sudo nvidia-smi -ac 1215,1410  # Los valores varian segun la GPU

# AMD: Verifica que ROCm esta activo
rocm-smi

# Para ambos: asegurate de no estar ejecutando un compositor Wayland
# X11 tiene menos sobrecarga de GPU para tareas de computo

Lista de verificacion rapida de velocidad

Repasa esta lista para maximizar la velocidad:

1. [ ] La aceleracion por GPU esta funcionando (no fallback a CPU)
2. [ ] Usando cuantizacion Q4_K_M (a menos que la calidad sea critica)
3. [ ] Longitud de contexto configurada a lo que realmente necesitas (no 256K por defecto)
4. [ ] KV cache cuantizado (--cache-type-k q8_0)
5. [ ] Flash Attention activado (si esta disponible)
6. [ ] Sin apps pesadas en segundo plano
7. [ ] Configuracion de energia en "Alto rendimiento" (portatiles)
8. [ ] Ultimos controladores instalados

Cuando la lentitud es esperada

A veces Gemma 4 va lento y asi es como es:

  • Latencia del primer token: El primer token siempre tarda mas (procesamiento del prompt). Esto es normal.
  • Prompts muy largos: Procesar una entrada de 100K tokens toma tiempo sin importar que.
  • Modelo 27B en 16GB: Cabe, pero apenas. Considera el 12B en su lugar.
  • Inferencia solo CPU: Sin GPU, espera 1-5 tok/s. Esa es la realidad de ejecutar LLMs en CPU.

Si experimentas problemas mas alla de solo velocidad, como cuelgues o errores, consulta nuestra guia de solucion de problemas para soluciones a errores OOM, problemas de deteccion de GPU y mas.

Siguientes pasos

La optimizacion de velocidad es principalmente acertar con lo basico. Soluciona el fallback a CPU, elige la cuantizacion correcta y configura una longitud de contexto razonable — esos tres cambios solos resolveran el 90% de las quejas de rendimiento.

Gemma 4 AI

Gemma 4 AI

Related Guides

¿Por que Gemma 4 va lento? Guia para acelerar en Mac, Windows y Linux | Blog