Gemma 4 no esta funcionando como esperabas. No te preocupes — la mayoria de problemas tienen soluciones directas. Esta guia cubre los problemas reales que la gente encuentra, recopilados de hilos de Reddit, issues de GitHub y foros de la comunidad.
Vamos a diagnosticar.
Problema 1: Falta de memoria (OOM)
Sintomas: Tu sistema se congela, el proceso se mata, o ves errores como CUDA out of memory, mmap failed, o el sistema empieza a hacer swap como loco.
Por que pasa: Los pesos del modelo + KV cache superan tu RAM o VRAM disponible.
Solucion 1: Usa un modelo mas pequeno
La solucion mas fiable. Si intentas ejecutar 31B con 16 GB de RAM, simplemente no va a funcionar.
# En vez de esto (necesita ~20GB)
ollama run gemma4:31b
# Prueba esto (necesita ~6GB)
ollama run gemma4:e4bConsulta nuestra guia de comparacion de modelos para encontrar el tamano correcto para tu hardware.
Solucion 2: Usa una cuantizacion mas agresiva
Si estas cargando archivos GGUF, descarga una cuantizacion mas pequena. Nuestra guia GGUF explica todas las opciones de cuantizacion en detalle.
# Q4_K_M es mucho mas pequeno que Q8 o FP16
huggingface-cli download google/gemma-4-26b-GGUF \
--include "gemma-4-26b-Q4_K_M.gguf"| Cuantizacion | Ahorro de memoria | Impacto en calidad |
|---|---|---|
| Q4_K_M | ~75% mas pequeno | Minimo |
| Q5_K_M | ~65% mas pequeno | Muy pequeno |
| Q8_0 | ~50% mas pequeno | Despreciable |
Solucion 3: Reduce la longitud del contexto
El KV cache crece con la longitud del contexto. Gemma 4 soporta hasta 262K tokens, pero ese cache es enorme — reportes de la comunidad muestran que el KV cache del modelo 31B solo puede consumir ~22 GB a contexto completo.
# Limita el contexto a 4K u 8K
ollama run gemma4:31b --ctx-size 4096En LM Studio, ve a Configuracion y reduce el control deslizante de "Context Length".
Solucion 4: Habilita la cuantizacion del KV cache
Algunos backends soportan cuantizar el propio KV cache, lo que reduce dramaticamente la memoria:
# En llama.cpp
./llama-server -m gemma4-31b-Q4_K_M.gguf \
--ctx-size 8192 \
--cache-type-k q8_0 \
--cache-type-v q8_0Solucion 5: Cierra otras aplicaciones
Suena obvio, pero Chrome solo puede consumir 4-8 GB de RAM. Cierra navegadores, IDEs y otras apps pesadas antes de ejecutar modelos grandes.
Problema 2: Inferencia lenta
Sintomas: Los tokens salen dolorosamente lentos — como 1-2 tokens por segundo cuando esperabas 20+. Para una guia completa de cada optimizacion de velocidad disponible, consulta nuestra guia de optimizacion de velocidad.
Solucion 1: Verifica si la GPU se esta usando realmente
Esta es la causa numero uno de inferencia lenta. El modelo podria estar ejecutandose enteramente en CPU.
# Verifica si Ollama esta usando la GPU
ollama psMira la columna "PROCESSOR". Si dice "CPU" en lugar de mostrar tu GPU, ese es tu problema.
Solucion 2: Asegurate de que la descarga a GPU esta activada
Para Ollama, la descarga a GPU deberia ser automatica, pero a veces no detecta tu GPU:
# Verifica las GPUs disponibles
ollama show --system
# Fuerza capas en GPU (todas las capas)
OLLAMA_NUM_GPU=999 ollama run gemma4:e4bPara llama.cpp, usa la bandera -ngl:
# Descarga todas las capas a la GPU
./llama-cli -m gemma4-e4b-Q4_K_M.gguf -ngl 999Solucion 3: Podrias tener un cuello de botella en la CPU
Si el modelo no cabe completamente en la VRAM, algunas capas se ejecutan en CPU, creando un cuello de botella. Opciones:
- Usa un modelo mas pequeno que quepa completamente en la VRAM
- Usa una cuantizacion mas pequena (Q4 en lugar de Q8)
- Reduce la longitud del contexto para liberar VRAM para las capas del modelo
Solucion 4: Verifica tu configuracion de energia
En portatiles, el modo de ahorro de energia reduce la velocidad tanto de la CPU como de la GPU. Asegurate de estar en "Alto rendimiento" o conectado a la corriente.
En Mac:
# Verifica si el modo de bajo consumo esta activo
pmset -g | grep lowpowermodeProblema 3: GPU no detectada
Usuarios de NVIDIA
Verifica los controladores CUDA:
# Verifica que CUDA esta instalado y funcionando
nvidia-smiSi nvidia-smi no funciona o muestra un error:
- Instala o actualiza los controladores NVIDIA desde nvidia.com/drivers
- Instala CUDA Toolkit desde developer.nvidia.com/cuda-downloads
- Reinicia tu maquina
Verifica que Ollama ve la GPU:
# Deberia mostrar tu GPU
ollama show --systemUsuarios de AMD
El soporte de GPU AMD requiere ROCm, y es mas delicado:
- Instala ROCm: sigue la guia de instalacion de ROCm
- Asegurate de tener una GPU soportada (la serie RX 7000 funciona mejor)
- Usa la compilacion compatible con ROCm de tu motor de inferencia
# Verifica la instalacion de ROCm
rocminfo | head -20Problema conocido: Algunas GPUs AMD (especialmente las mas antiguas) no estan soportadas. Verifica la lista de compatibilidad de ROCm.
Usuarios de Mac (Apple Silicon)
Buenas noticias — la aceleracion Metal esta activada por defecto en Ollama y llama.cpp en Apple Silicon. Si no funciona:
# Verifica que Metal esta disponible
system_profiler SPDisplaysDataType | grep MetalSi muestra "Metal: Supported" estas bien. Ollama deberia usar automaticamente la aceleracion Metal en Macs M1/M2/M3/M4.
Problema 4: La descarga del modelo se queda atascada
Descarga de Ollama atascada
# Cancela y reintenta
# Ctrl+C para detener, luego:
ollama pull gemma4:e4bSi sigue atascandose:
- Verifica tu conexion a internet
- Prueba una red diferente (una VPN puede ayudar o empeorar)
- Verifica el espacio en disco:
df -h
Descarga de Hugging Face atascada
# Habilita descargas mas rapidas
pip install hf-transfer
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download google/gemma-4-e4bSi estas en una region con acceso lento a Hugging Face, prueba un mirror o descarga en horas de menor trafico.
No hay suficiente espacio en disco
# Verifica el espacio disponible
df -h
# Limpia modelos antiguos de Ollama
ollama list # Ve lo que esta instalado
ollama rm modelname # Elimina los que no necesitesPara referencia, aqui tienes cuanto espacio necesitas:
| Modelo | Espacio en disco (Q4_K_M) |
|---|---|
| E2B | ~1.5 GB |
| E4B | ~3 GB |
| 26B | ~8 GB |
| 31B | ~18 GB |
Problema 5: Errores especificos de Ollama
"Error: model not found"
Asegurate de usar el nombre correcto del modelo:
# Correcto
ollama run gemma4
ollama run gemma4:e4b
# Incorrecto (errores comunes)
ollama run gemma-4 # El guion no funciona
ollama run google/gemma4 # No incluyas el nombre de la organizacionProblemas con el tokenizador
Ha habido reportes de bugs relacionados con el tokenizador de Gemma 4 en versiones tempranas de llama.cpp. Si obtienes texto ilegible:
# Actualiza Ollama a la ultima version
# macOS
brew upgrade ollama
# Linux
curl -fsSL https://ollama.com/install.sh | shLa solucion fue integrada en llama.cpp y Ollama la incorporo en versiones recientes. Asegurate de tener la ultima version.
"Unexpected token" o errores de parseo
Esto generalmente significa que el archivo GGUF esta corrupto o es incompatible:
# Elimina y vuelve a descargar el modelo
ollama rm gemma4:e4b
ollama pull gemma4:e4bProblema 6: Ejecutandose en CPU en lugar de GPU
Este es un problema conocido (referenciado en el issue #15237 de GitHub para Ollama). El modelo se carga pero se ejecuta en CPU aunque tengas una GPU.
Diagnostico
# Verifica que esta usando Ollama
ollama ps
# Mira la columna PROCESSORSoluciones
Paso 1: Actualiza Ollama a la ultima version (muchos bugs de deteccion de GPU se han corregido):
brew upgrade ollama # macOS
# O vuelve a ejecutar el script de instalacion en LinuxPaso 2: Configura las variables de entorno de GPU explicitamente:
# NVIDIA
export CUDA_VISIBLE_DEVICES=0
ollama run gemma4:e4b
# Fuerza el uso de GPU
OLLAMA_NUM_GPU=999 ollama run gemma4:e4bPaso 3: Verifica si el modelo es demasiado grande para tu GPU:
Si el modelo no cabe en la VRAM, Ollama podria recurrir a CPU enteramente en lugar de hacer descarga parcial. Prueba un modelo o cuantizacion mas pequena.
Paso 4: Reinicia el servicio de Ollama:
# macOS
brew services restart ollama
# Linux (systemd)
sudo systemctl restart ollamaArbol de decision para diagnostico
¿No sabes por donde empezar? Sigue esto:
-
¿Se esta descargando el modelo?
- No → Verifica internet, espacio en disco, ortografia del nombre del modelo
- Si → Continua
-
¿Empieza a ejecutarse?
- No, error OOM → Usa modelo o cuantizacion mas pequena, reduce longitud de contexto
- No, otro error → Actualiza Ollama, verifica nombre del modelo, vuelve a descargar
- Si → Continua
-
¿Esta usando la GPU?
- No → Verifica controladores (NVIDIA:
nvidia-smi, AMD:rocminfo), actualiza Ollama, configura variables de entorno - Si → Continua
- No → Verifica controladores (NVIDIA:
-
¿Es lo suficientemente rapido?
- No → Verifica configuracion de energia, cierra otras apps, prueba cuantizacion mas pequena
- Si → ¡Todo bien!
-
¿La calidad de la salida es mala?
- Texto ilegible → Actualiza Ollama (solucion del tokenizador), vuelve a descargar el modelo
- Baja calidad → Prueba un modelo mas grande o cuantizacion menos agresiva
¿Sigues atascado?
Si nada de lo anterior resolvio tu problema:
- Problemas con Ollama: Consulta github.com/ollama/ollama/issues y busca tu error especifico
- Problemas con llama.cpp: Consulta github.com/ggml-org/llama.cpp/issues
- Reddit: Busca en r/LocalLLaMA — la comunidad es increiblemente util y seguramente alguien ha tenido el mismo problema
Siguientes pasos
- Elige el modelo correcto para tu hardware → ¿Que modelo de Gemma 4 deberia usar?
- Verifica los requisitos de hardware → Guia de hardware de Gemma 4
- Descarga o vuelve a descargar → Guia de descarga de Gemma 4
- Prueba la version en el navegador (sin instalacion) → Guia de Google AI Studio



