¿Gemma 4 no funciona? Soluciones para OOM, velocidad lenta y problemas de GPU

Gemma 4 no esta funcionando como esperabas. No te preocupes — la mayoria de problemas tienen soluciones directas. Esta guia cubre los problemas reales que la gente encuentra, recopilados de hilos de Reddit, issues de GitHub y foros de la comunidad.

Vamos a diagnosticar.

Problema 1: Falta de memoria (OOM)

Sintomas: Tu sistema se congela, el proceso se mata, o ves errores como CUDA out of memory, mmap failed, o el sistema empieza a hacer swap como loco.

Por que pasa: Los pesos del modelo + KV cache superan tu RAM o VRAM disponible.

Solucion 1: Usa un modelo mas pequeno

La solucion mas fiable. Si intentas ejecutar 31B con 16 GB de RAM, simplemente no va a funcionar.

# En vez de esto (necesita ~20GB)
ollama run gemma4:31b

# Prueba esto (necesita ~6GB)
ollama run gemma4:e4b

Consulta nuestra guia de comparacion de modelos para encontrar el tamano correcto para tu hardware.

Solucion 2: Usa una cuantizacion mas agresiva

Si estas cargando archivos GGUF, descarga una cuantizacion mas pequena. Nuestra guia GGUF explica todas las opciones de cuantizacion en detalle.

# Q4_K_M es mucho mas pequeno que Q8 o FP16
huggingface-cli download google/gemma-4-26b-GGUF \
  --include "gemma-4-26b-Q4_K_M.gguf"

Cuantizacion	Ahorro de memoria	Impacto en calidad
Q4_K_M	~75% mas pequeno	Minimo
Q5_K_M	~65% mas pequeno	Muy pequeno
Q8_0	~50% mas pequeno	Despreciable

Solucion 3: Reduce la longitud del contexto

El KV cache crece con la longitud del contexto. Gemma 4 soporta hasta 262K tokens, pero ese cache es enorme — reportes de la comunidad muestran que el KV cache del modelo 31B solo puede consumir ~22 GB a contexto completo.

# Limita el contexto a 4K u 8K
ollama run gemma4:31b --ctx-size 4096

En LM Studio, ve a Configuracion y reduce el control deslizante de "Context Length".

Solucion 4: Habilita la cuantizacion del KV cache

Algunos backends soportan cuantizar el propio KV cache, lo que reduce dramaticamente la memoria:

# En llama.cpp
./llama-server -m gemma4-31b-Q4_K_M.gguf \
  --ctx-size 8192 \
  --cache-type-k q8_0 \
  --cache-type-v q8_0

Solucion 5: Cierra otras aplicaciones

Suena obvio, pero Chrome solo puede consumir 4-8 GB de RAM. Cierra navegadores, IDEs y otras apps pesadas antes de ejecutar modelos grandes.

Problema 2: Inferencia lenta

Sintomas: Los tokens salen dolorosamente lentos — como 1-2 tokens por segundo cuando esperabas 20+. Para una guia completa de cada optimizacion de velocidad disponible, consulta nuestra guia de optimizacion de velocidad.

Solucion 1: Verifica si la GPU se esta usando realmente

Esta es la causa numero uno de inferencia lenta. El modelo podria estar ejecutandose enteramente en CPU.

# Verifica si Ollama esta usando la GPU
ollama ps

Mira la columna "PROCESSOR". Si dice "CPU" en lugar de mostrar tu GPU, ese es tu problema.

Solucion 2: Asegurate de que la descarga a GPU esta activada

Para Ollama, la descarga a GPU deberia ser automatica, pero a veces no detecta tu GPU:

# Verifica las GPUs disponibles
ollama show --system

# Fuerza capas en GPU (todas las capas)
OLLAMA_NUM_GPU=999 ollama run gemma4:e4b

Para llama.cpp, usa la bandera -ngl:

# Descarga todas las capas a la GPU
./llama-cli -m gemma4-e4b-Q4_K_M.gguf -ngl 999

Solucion 3: Podrias tener un cuello de botella en la CPU

Si el modelo no cabe completamente en la VRAM, algunas capas se ejecutan en CPU, creando un cuello de botella. Opciones:

Usa un modelo mas pequeno que quepa completamente en la VRAM
Usa una cuantizacion mas pequena (Q4 en lugar de Q8)
Reduce la longitud del contexto para liberar VRAM para las capas del modelo

Solucion 4: Verifica tu configuracion de energia

En portatiles, el modo de ahorro de energia reduce la velocidad tanto de la CPU como de la GPU. Asegurate de estar en "Alto rendimiento" o conectado a la corriente.

En Mac:

# Verifica si el modo de bajo consumo esta activo
pmset -g | grep lowpowermode

Problema 3: GPU no detectada

Usuarios de NVIDIA

Verifica los controladores CUDA:

# Verifica que CUDA esta instalado y funcionando
nvidia-smi

Si nvidia-smi no funciona o muestra un error:

Instala o actualiza los controladores NVIDIA desde nvidia.com/drivers
Instala CUDA Toolkit desde developer.nvidia.com/cuda-downloads
Reinicia tu maquina

Verifica que Ollama ve la GPU:

# Deberia mostrar tu GPU
ollama show --system

Usuarios de AMD

El soporte de GPU AMD requiere ROCm, y es mas delicado:

Instala ROCm: sigue la guia de instalacion de ROCm
Asegurate de tener una GPU soportada (la serie RX 7000 funciona mejor)
Usa la compilacion compatible con ROCm de tu motor de inferencia

# Verifica la instalacion de ROCm
rocminfo | head -20

Problema conocido: Algunas GPUs AMD (especialmente las mas antiguas) no estan soportadas. Verifica la lista de compatibilidad de ROCm.

Usuarios de Mac (Apple Silicon)

Buenas noticias — la aceleracion Metal esta activada por defecto en Ollama y llama.cpp en Apple Silicon. Si no funciona:

# Verifica que Metal esta disponible
system_profiler SPDisplaysDataType | grep Metal

Si muestra "Metal: Supported" estas bien. Ollama deberia usar automaticamente la aceleracion Metal en Macs M1/M2/M3/M4.

Problema 4: La descarga del modelo se queda atascada

Descarga de Ollama atascada

# Cancela y reintenta
# Ctrl+C para detener, luego:
ollama pull gemma4:e4b

Si sigue atascandose:

Verifica tu conexion a internet
Prueba una red diferente (una VPN puede ayudar o empeorar)
Verifica el espacio en disco: df -h

Descarga de Hugging Face atascada

# Habilita descargas mas rapidas
pip install hf-transfer
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download google/gemma-4-e4b

Si estas en una region con acceso lento a Hugging Face, prueba un mirror o descarga en horas de menor trafico.

No hay suficiente espacio en disco

# Verifica el espacio disponible
df -h

# Limpia modelos antiguos de Ollama
ollama list          # Ve lo que esta instalado
ollama rm modelname  # Elimina los que no necesites

Para referencia, aqui tienes cuanto espacio necesitas:

Modelo	Espacio en disco (Q4_K_M)
E2B	~1.5 GB
E4B	~3 GB
26B	~8 GB
31B	~18 GB

Problema 5: Errores especificos de Ollama

"Error: model not found"

Asegurate de usar el nombre correcto del modelo:

# Correcto
ollama run gemma4
ollama run gemma4:e4b

# Incorrecto (errores comunes)
ollama run gemma-4     # El guion no funciona
ollama run google/gemma4  # No incluyas el nombre de la organizacion

Problemas con el tokenizador

Ha habido reportes de bugs relacionados con el tokenizador de Gemma 4 en versiones tempranas de llama.cpp. Si obtienes texto ilegible:

# Actualiza Ollama a la ultima version
# macOS
brew upgrade ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

La solucion fue integrada en llama.cpp y Ollama la incorporo en versiones recientes. Asegurate de tener la ultima version.

"Unexpected token" o errores de parseo

Esto generalmente significa que el archivo GGUF esta corrupto o es incompatible:

# Elimina y vuelve a descargar el modelo
ollama rm gemma4:e4b
ollama pull gemma4:e4b

Problema 6: Ejecutandose en CPU en lugar de GPU

Este es un problema conocido (referenciado en el issue #15237 de GitHub para Ollama). El modelo se carga pero se ejecuta en CPU aunque tengas una GPU.

Diagnostico

# Verifica que esta usando Ollama
ollama ps
# Mira la columna PROCESSOR

Soluciones

Paso 1: Actualiza Ollama a la ultima version (muchos bugs de deteccion de GPU se han corregido):

brew upgrade ollama  # macOS
# O vuelve a ejecutar el script de instalacion en Linux

Paso 2: Configura las variables de entorno de GPU explicitamente:

# NVIDIA
export CUDA_VISIBLE_DEVICES=0
ollama run gemma4:e4b

# Fuerza el uso de GPU
OLLAMA_NUM_GPU=999 ollama run gemma4:e4b

Paso 3: Verifica si el modelo es demasiado grande para tu GPU:

Si el modelo no cabe en la VRAM, Ollama podria recurrir a CPU enteramente en lugar de hacer descarga parcial. Prueba un modelo o cuantizacion mas pequena.

Paso 4: Reinicia el servicio de Ollama:

# macOS
brew services restart ollama

# Linux (systemd)
sudo systemctl restart ollama

Arbol de decision para diagnostico

¿No sabes por donde empezar? Sigue esto:

¿Se esta descargando el modelo?
- No → Verifica internet, espacio en disco, ortografia del nombre del modelo
- Si → Continua
¿Empieza a ejecutarse?
- No, error OOM → Usa modelo o cuantizacion mas pequena, reduce longitud de contexto
- No, otro error → Actualiza Ollama, verifica nombre del modelo, vuelve a descargar
- Si → Continua
¿Esta usando la GPU?
- No → Verifica controladores (NVIDIA: nvidia-smi, AMD: rocminfo), actualiza Ollama, configura variables de entorno
- Si → Continua
¿Es lo suficientemente rapido?
- No → Verifica configuracion de energia, cierra otras apps, prueba cuantizacion mas pequena
- Si → ¡Todo bien!
¿La calidad de la salida es mala?
- Texto ilegible → Actualiza Ollama (solucion del tokenizador), vuelve a descargar el modelo
- Baja calidad → Prueba un modelo mas grande o cuantizacion menos agresiva

¿Sigues atascado?

Si nada de lo anterior resolvio tu problema:

Problemas con Ollama: Consulta github.com/ollama/ollama/issues y busca tu error especifico
Problemas con llama.cpp: Consulta github.com/ggml-org/llama.cpp/issues
Reddit: Busca en r/LocalLLaMA — la comunidad es increiblemente util y seguramente alguien ha tenido el mismo problema

Siguientes pasos

Elige el modelo correcto para tu hardware → ¿Que modelo de Gemma 4 deberia usar?
Verifica los requisitos de hardware → Guia de hardware de Gemma 4
Descarga o vuelve a descargar → Guia de descarga de Gemma 4
Prueba la version en el navegador (sin instalacion) → Guia de Google AI Studio