La cuantizacion GGUF es como reduces Gemma 4 de un mostruo de 24GB a algo que realmente cabe en tu hardware. Pero con una docena de niveles de cuantizacion diferentes para elegir, escoger el correcto es confuso. Esta guia corta el ruido y te dice exactamente que formato usar.
¿Que es GGUF?
GGUF (GGML Universal Format) es un formato de archivo disenado especificamente para ejecutar grandes modelos de lenguaje en hardware de consumo. Almacena los pesos del modelo en formatos comprimidos que intercambian una pequena cantidad de calidad por tamanos de archivo dramaticamente mas pequenos y una inferencia mas rapida.
El concepto clave es la cuantizacion — reducir la precision de los pesos del modelo de punto flotante de 16 bits (FP16) a 8 bits, 4 bits, o incluso menos. Menor precision = archivo mas pequeno = inferencia mas rapida = ligeramente menos preciso.
Niveles de Cuantizacion Comparados
Aqui tienes la comparacion completa para Gemma 4 12B:
| Cuantizacion | Tamano Archivo | VRAM Necesaria | Velocidad (tok/s)* | Perdida Calidad | Mejor Para |
|---|---|---|---|---|---|
| FP16 | ~24 GB | ~26 GB | Base | Ninguna | Investigacion, fine-tuning |
| Q8_0 | ~13 GB | ~15 GB | 1.2x mas rapido | Despreciable | Tareas criticas de calidad |
| Q6_K | ~10 GB | ~12 GB | 1.4x mas rapido | Muy pequena | Equilibrio calidad y tamano |
| Q5_K_M | ~8.5 GB | ~10 GB | 1.6x mas rapido | Pequena | Uso diario mejor calidad |
| Q5_K_S | ~8 GB | ~10 GB | 1.6x mas rapido | Pequena | Q5 ligeramente mas pequeno |
| Q4_K_M | ~7 GB | ~9 GB | 1.8x mas rapido | Moderada | Mejor eleccion para la mayoria |
| Q4_K_S | ~6.5 GB | ~8.5 GB | 1.8x mas rapido | Moderada | Presupuesto VRAM ajustado |
| IQ4_XS | ~6 GB | ~8 GB | 1.9x mas rapido | Notable | Calidad minima viable |
| Q3_K_M | ~5.5 GB | ~7.5 GB | 2.0x mas rapido | Significativa | No recomendado |
| Q2_K | ~4.5 GB | ~6.5 GB | 2.1x mas rapido | Severa | Solo experimentacion |
Velocidad relativa a FP16 en el mismo hardware. Los tok/s reales varian segun la GPU.
Las Recomendaciones
- Q4_K_M — Mejor equilibrio para la mayoria. La calidad es sorprendentemente cercana a FP16 para tareas diarias como programacion, escritura y Q&A. Este es el predeterminado en la mayoria de modelos de Ollama.
- Q5_K_M — Elige esto si tienes la VRAM extra y quieres calidad notablemente mejor en tareas complejas de razonamiento.
- Q8_0 — Calidad cercana a la original. Solo usa si tu hardware puede manejarlo — la mejora de calidad sobre Q5 es marginal para la mayoria de tareas.
- IQ4_XS — El formato mas pequeno que todavia es usable. Genial para pruebas o cuando te faltan 1-2 GB de VRAM.
Evita Q3 y Q2 — la caida de calidad es demasiado pronunciada para ser util para algo serio.
Donde Descargar Archivos GGUF
Unsloth en Hugging Face (Recomendado)
Unsloth proporciona conversiones GGUF de alta calidad para todos los modelos Gemma 4:
# Navegar archivos disponibles
# https://huggingface.co/unsloth/gemma-4-12b-it-GGUF
# Descargar con huggingface-cli
pip install huggingface_hub
huggingface-cli download unsloth/gemma-4-12b-it-GGUF \
gemma-4-12b-it-Q4_K_M.gguf \
--local-dir ./models
# O descargar con wget
wget https://huggingface.co/unsloth/gemma-4-12b-it-GGUF/resolve/main/gemma-4-12b-it-Q4_K_M.ggufRepos disponibles:
| Modelo | Hugging Face Repo |
|---|---|
| Gemma 4 1B | unsloth/gemma-4-1b-it-GGUF |
| Gemma 4 4B | unsloth/gemma-4-4b-it-GGUF |
| Gemma 4 12B | unsloth/gemma-4-12b-it-GGUF |
| Gemma 4 27B | unsloth/gemma-4-27b-it-GGUF |
Ejecutando Archivos GGUF
Con llama.cpp
La forma mas directa de ejecutar archivos GGUF:
# Clonar y construir llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON # o DGGML_METAL=ON para Mac
cmake --build build
# Ejecutar inferencia
./build/bin/llama-server \
-m ./models/gemma-4-12b-it-Q4_K_M.gguf \
-ngl 999 \
-c 8192 \
--host 0.0.0.0 \
--port 8080
# Ahora tienes una API compatible con OpenAI en http://localhost:8080Con Ollama
Ollama usa GGUF por debajo. Puedes crear modelos personalizados desde archivos GGUF:
# Metodo 1: Usar modelos preconstruidos de Ollama (mas facil)
ollama run gemma4:12b
# Metodo 2: Importar tu propio archivo GGUF
# Crear un Modelfile
cat > Modelfile << 'EOF'
FROM ./gemma-4-12b-it-Q4_K_M.gguf
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
TEMPLATE """{{ .System }}
{{ .Prompt }}"""
EOF
# Crear el modelo
ollama create my-gemma4 -f Modelfile
ollama run my-gemma4Con LM Studio
LM Studio proporciona una GUI para descargar y ejecutar archivos GGUF:
- Abre LM Studio
- Busca "gemma 4" en el navegador de modelos
- Selecciona el nivel de cuantizacion que quieres
- Haz clic en Download
- Ve a la pestana Chat y selecciona tu modelo
- Comienza a chatear
LM Studio tambien expone una API local compatible con el formato OpenAI, por lo que puedes usarla como backend drop-in para aplicaciones que esperan un endpoint estilo OpenAI.
Calidad vs Velocidad: Pruebas del Mundo Real
Asi es como rinden las diferentes cuantizaciones en tareas reales con Gemma 4 12B:
| Tarea | Q4_K_M | Q5_K_M | Q8_0 | FP16 |
|---|---|---|---|---|
| Generacion de codigo | 92% coincidencia | 95% coincidencia | 98% coincidencia | 100% (base) |
| Escritura creativa | Diferencias menores | Casi identico | Identico | Base |
| Razonamiento matematico | ~85% precision | ~90% precision | ~95% precision | ~96% precision |
| Resumen | Muy cercano | Muy cercano | Identico | Base |
| Traduccion | Pequena caida de calidad | Casi identico | Identico | Base |
Para la mayoria de usuarios, Q4_K_M es el punto dulce. Pierdes unos pocos puntos porcentuales en matematicas dificiles y razonamiento complejo, pero para programacion, escritura, resumen y Q&A general, la diferencia es apenas perceptible.
Eligiendo Por Hardware
| Tu Hardware | Cuant Recomendada | Tamano Modelo |
|---|---|---|
| GPU 8GB VRAM | Q4_K_M o IQ4_XS | 12B |
| GPU 12GB VRAM | Q5_K_M o Q6_K | 12B |
| GPU 16GB VRAM | Q8_0 | 12B |
| GPU 24GB VRAM | Q8_0 (12B) o Q4_K_M (27B) | 12B o 27B |
| Mac 16GB | Q4_K_M | 12B |
| Mac 32GB | Q5_K_M (12B) o Q4_K_M (27B) | 12B o 27B |
| Mac 64GB+ | Q8_0 para cualquier tamano | 27B |
Siguientes Pasos
- ¿Necesitas descargar modelos? Consulta nuestra Guia de Descarga para todas las formas de obtener Gemma 4
- ¿Quieres mas detalles sobre requisitos de hardware? Ve la Guia de Hardware para calculos de VRAM por modelo y cuantizacion
- ¿Descargando desde Hugging Face? Lee Como Descargar desde Hugging Face para instrucciones detalladas
La conclusion: comienza con Q4_K_M. Si notas problemas de calidad en tus tareas especificas, sube a Q5_K_M. Solo sube mas si tienes la VRAM de sobra y genuinamente necesitas la precision extra.
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


