Gemma 4 GGUF: ¿Que Cuantizacion Deberia Elegir?

La cuantizacion GGUF es como reduces Gemma 4 de un mostruo de 24GB a algo que realmente cabe en tu hardware. Pero con una docena de niveles de cuantizacion diferentes para elegir, escoger el correcto es confuso. Esta guia corta el ruido y te dice exactamente que formato usar.

¿Que es GGUF?

GGUF (GGML Universal Format) es un formato de archivo disenado especificamente para ejecutar grandes modelos de lenguaje en hardware de consumo. Almacena los pesos del modelo en formatos comprimidos que intercambian una pequena cantidad de calidad por tamanos de archivo dramaticamente mas pequenos y una inferencia mas rapida.

El concepto clave es la cuantizacion — reducir la precision de los pesos del modelo de punto flotante de 16 bits (FP16) a 8 bits, 4 bits, o incluso menos. Menor precision = archivo mas pequeno = inferencia mas rapida = ligeramente menos preciso.

Niveles de Cuantizacion Comparados

Aqui tienes la comparacion completa para Gemma 4 12B:

Cuantizacion	Tamano Archivo	VRAM Necesaria	Velocidad (tok/s)*	Perdida Calidad	Mejor Para
FP16	~24 GB	~26 GB	Base	Ninguna	Investigacion, fine-tuning
Q8_0	~13 GB	~15 GB	1.2x mas rapido	Despreciable	Tareas criticas de calidad
Q6_K	~10 GB	~12 GB	1.4x mas rapido	Muy pequena	Equilibrio calidad y tamano
Q5_K_M	~8.5 GB	~10 GB	1.6x mas rapido	Pequena	Uso diario mejor calidad
Q5_K_S	~8 GB	~10 GB	1.6x mas rapido	Pequena	Q5 ligeramente mas pequeno
Q4_K_M	~7 GB	~9 GB	1.8x mas rapido	Moderada	Mejor eleccion para la mayoria
Q4_K_S	~6.5 GB	~8.5 GB	1.8x mas rapido	Moderada	Presupuesto VRAM ajustado
IQ4_XS	~6 GB	~8 GB	1.9x mas rapido	Notable	Calidad minima viable
Q3_K_M	~5.5 GB	~7.5 GB	2.0x mas rapido	Significativa	No recomendado
Q2_K	~4.5 GB	~6.5 GB	2.1x mas rapido	Severa	Solo experimentacion

Velocidad relativa a FP16 en el mismo hardware. Los tok/s reales varian segun la GPU.

Las Recomendaciones

Q4_K_M — Mejor equilibrio para la mayoria. La calidad es sorprendentemente cercana a FP16 para tareas diarias como programacion, escritura y Q&A. Este es el predeterminado en la mayoria de modelos de Ollama.
Q5_K_M — Elige esto si tienes la VRAM extra y quieres calidad notablemente mejor en tareas complejas de razonamiento.
Q8_0 — Calidad cercana a la original. Solo usa si tu hardware puede manejarlo — la mejora de calidad sobre Q5 es marginal para la mayoria de tareas.
IQ4_XS — El formato mas pequeno que todavia es usable. Genial para pruebas o cuando te faltan 1-2 GB de VRAM.

Evita Q3 y Q2 — la caida de calidad es demasiado pronunciada para ser util para algo serio.

Donde Descargar Archivos GGUF

Unsloth en Hugging Face (Recomendado)

Unsloth proporciona conversiones GGUF de alta calidad para todos los modelos Gemma 4:

# Navegar archivos disponibles
# https://huggingface.co/unsloth/gemma-4-12b-it-GGUF

# Descargar con huggingface-cli
pip install huggingface_hub
huggingface-cli download unsloth/gemma-4-12b-it-GGUF \
  gemma-4-12b-it-Q4_K_M.gguf \
  --local-dir ./models

# O descargar con wget
wget https://huggingface.co/unsloth/gemma-4-12b-it-GGUF/resolve/main/gemma-4-12b-it-Q4_K_M.gguf

Repos disponibles:

Modelo	Hugging Face Repo
Gemma 4 1B	unsloth/gemma-4-1b-it-GGUF
Gemma 4 4B	unsloth/gemma-4-4b-it-GGUF
Gemma 4 12B	unsloth/gemma-4-12b-it-GGUF
Gemma 4 27B	unsloth/gemma-4-27b-it-GGUF

Ejecutando Archivos GGUF

Con llama.cpp

La forma mas directa de ejecutar archivos GGUF:

# Clonar y construir llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON  # o DGGML_METAL=ON para Mac
cmake --build build

# Ejecutar inferencia
./build/bin/llama-server \
  -m ./models/gemma-4-12b-it-Q4_K_M.gguf \
  -ngl 999 \
  -c 8192 \
  --host 0.0.0.0 \
  --port 8080

# Ahora tienes una API compatible con OpenAI en http://localhost:8080

Con Ollama

Ollama usa GGUF por debajo. Puedes crear modelos personalizados desde archivos GGUF:

# Metodo 1: Usar modelos preconstruidos de Ollama (mas facil)
ollama run gemma4:12b

# Metodo 2: Importar tu propio archivo GGUF
# Crear un Modelfile
cat > Modelfile << 'EOF'
FROM ./gemma-4-12b-it-Q4_K_M.gguf
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
TEMPLATE """{{ .System }}
{{ .Prompt }}"""
EOF

# Crear el modelo
ollama create my-gemma4 -f Modelfile
ollama run my-gemma4

Con LM Studio

LM Studio proporciona una GUI para descargar y ejecutar archivos GGUF:

Abre LM Studio
Busca "gemma 4" en el navegador de modelos
Selecciona el nivel de cuantizacion que quieres
Haz clic en Download
Ve a la pestana Chat y selecciona tu modelo
Comienza a chatear

LM Studio tambien expone una API local compatible con el formato OpenAI, por lo que puedes usarla como backend drop-in para aplicaciones que esperan un endpoint estilo OpenAI.

Calidad vs Velocidad: Pruebas del Mundo Real

Asi es como rinden las diferentes cuantizaciones en tareas reales con Gemma 4 12B:

Tarea	Q4_K_M	Q5_K_M	Q8_0	FP16
Generacion de codigo	92% coincidencia	95% coincidencia	98% coincidencia	100% (base)
Escritura creativa	Diferencias menores	Casi identico	Identico	Base
Razonamiento matematico	~85% precision	~90% precision	~95% precision	~96% precision
Resumen	Muy cercano	Muy cercano	Identico	Base
Traduccion	Pequena caida de calidad	Casi identico	Identico	Base

Para la mayoria de usuarios, Q4_K_M es el punto dulce. Pierdes unos pocos puntos porcentuales en matematicas dificiles y razonamiento complejo, pero para programacion, escritura, resumen y Q&A general, la diferencia es apenas perceptible.

Eligiendo Por Hardware

Tu Hardware	Cuant Recomendada	Tamano Modelo
GPU 8GB VRAM	Q4_K_M o IQ4_XS	12B
GPU 12GB VRAM	Q5_K_M o Q6_K	12B
GPU 16GB VRAM	Q8_0	12B
GPU 24GB VRAM	Q8_0 (12B) o Q4_K_M (27B)	12B o 27B
Mac 16GB	Q4_K_M	12B
Mac 32GB	Q5_K_M (12B) o Q4_K_M (27B)	12B o 27B
Mac 64GB+	Q8_0 para cualquier tamano	27B

Siguientes Pasos

¿Necesitas descargar modelos? Consulta nuestra Guia de Descarga para todas las formas de obtener Gemma 4
¿Quieres mas detalles sobre requisitos de hardware? Ve la Guia de Hardware para calculos de VRAM por modelo y cuantizacion
¿Descargando desde Hugging Face? Lee Como Descargar desde Hugging Face para instrucciones detalladas

La conclusion: comienza con Q4_K_M. Si notas problemas de calidad en tus tareas especificas, sube a Q5_K_M. Solo sube mas si tienes la VRAM de sobra y genuinamente necesitas la precision extra.

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />