0% read

Gemma 4 GGUF: ¿Que Cuantizacion Deberia Elegir?

abr. 7, 2026

La cuantizacion GGUF es como reduces Gemma 4 de un mostruo de 24GB a algo que realmente cabe en tu hardware. Pero con una docena de niveles de cuantizacion diferentes para elegir, escoger el correcto es confuso. Esta guia corta el ruido y te dice exactamente que formato usar.

¿Que es GGUF?

GGUF (GGML Universal Format) es un formato de archivo disenado especificamente para ejecutar grandes modelos de lenguaje en hardware de consumo. Almacena los pesos del modelo en formatos comprimidos que intercambian una pequena cantidad de calidad por tamanos de archivo dramaticamente mas pequenos y una inferencia mas rapida.

El concepto clave es la cuantizacion — reducir la precision de los pesos del modelo de punto flotante de 16 bits (FP16) a 8 bits, 4 bits, o incluso menos. Menor precision = archivo mas pequeno = inferencia mas rapida = ligeramente menos preciso.

Niveles de Cuantizacion Comparados

Aqui tienes la comparacion completa para Gemma 4 12B:

CuantizacionTamano ArchivoVRAM NecesariaVelocidad (tok/s)*Perdida CalidadMejor Para
FP16~24 GB~26 GBBaseNingunaInvestigacion, fine-tuning
Q8_0~13 GB~15 GB1.2x mas rapidoDespreciableTareas criticas de calidad
Q6_K~10 GB~12 GB1.4x mas rapidoMuy pequenaEquilibrio calidad y tamano
Q5_K_M~8.5 GB~10 GB1.6x mas rapidoPequenaUso diario mejor calidad
Q5_K_S~8 GB~10 GB1.6x mas rapidoPequenaQ5 ligeramente mas pequeno
Q4_K_M~7 GB~9 GB1.8x mas rapidoModeradaMejor eleccion para la mayoria
Q4_K_S~6.5 GB~8.5 GB1.8x mas rapidoModeradaPresupuesto VRAM ajustado
IQ4_XS~6 GB~8 GB1.9x mas rapidoNotableCalidad minima viable
Q3_K_M~5.5 GB~7.5 GB2.0x mas rapidoSignificativaNo recomendado
Q2_K~4.5 GB~6.5 GB2.1x mas rapidoSeveraSolo experimentacion

Velocidad relativa a FP16 en el mismo hardware. Los tok/s reales varian segun la GPU.

Las Recomendaciones

  • Q4_K_M — Mejor equilibrio para la mayoria. La calidad es sorprendentemente cercana a FP16 para tareas diarias como programacion, escritura y Q&A. Este es el predeterminado en la mayoria de modelos de Ollama.
  • Q5_K_M — Elige esto si tienes la VRAM extra y quieres calidad notablemente mejor en tareas complejas de razonamiento.
  • Q8_0 — Calidad cercana a la original. Solo usa si tu hardware puede manejarlo — la mejora de calidad sobre Q5 es marginal para la mayoria de tareas.
  • IQ4_XS — El formato mas pequeno que todavia es usable. Genial para pruebas o cuando te faltan 1-2 GB de VRAM.

Evita Q3 y Q2 — la caida de calidad es demasiado pronunciada para ser util para algo serio.

Donde Descargar Archivos GGUF

Unsloth en Hugging Face (Recomendado)

Unsloth proporciona conversiones GGUF de alta calidad para todos los modelos Gemma 4:

# Navegar archivos disponibles
# https://huggingface.co/unsloth/gemma-4-12b-it-GGUF

# Descargar con huggingface-cli
pip install huggingface_hub
huggingface-cli download unsloth/gemma-4-12b-it-GGUF \
  gemma-4-12b-it-Q4_K_M.gguf \
  --local-dir ./models

# O descargar con wget
wget https://huggingface.co/unsloth/gemma-4-12b-it-GGUF/resolve/main/gemma-4-12b-it-Q4_K_M.gguf

Repos disponibles:

ModeloHugging Face Repo
Gemma 4 1Bunsloth/gemma-4-1b-it-GGUF
Gemma 4 4Bunsloth/gemma-4-4b-it-GGUF
Gemma 4 12Bunsloth/gemma-4-12b-it-GGUF
Gemma 4 27Bunsloth/gemma-4-27b-it-GGUF

Ejecutando Archivos GGUF

Con llama.cpp

La forma mas directa de ejecutar archivos GGUF:

# Clonar y construir llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON  # o DGGML_METAL=ON para Mac
cmake --build build

# Ejecutar inferencia
./build/bin/llama-server \
  -m ./models/gemma-4-12b-it-Q4_K_M.gguf \
  -ngl 999 \
  -c 8192 \
  --host 0.0.0.0 \
  --port 8080

# Ahora tienes una API compatible con OpenAI en http://localhost:8080

Con Ollama

Ollama usa GGUF por debajo. Puedes crear modelos personalizados desde archivos GGUF:

# Metodo 1: Usar modelos preconstruidos de Ollama (mas facil)
ollama run gemma4:12b

# Metodo 2: Importar tu propio archivo GGUF
# Crear un Modelfile
cat > Modelfile << 'EOF'
FROM ./gemma-4-12b-it-Q4_K_M.gguf
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
TEMPLATE """{{ .System }}
{{ .Prompt }}"""
EOF

# Crear el modelo
ollama create my-gemma4 -f Modelfile
ollama run my-gemma4

Con LM Studio

LM Studio proporciona una GUI para descargar y ejecutar archivos GGUF:

  1. Abre LM Studio
  2. Busca "gemma 4" en el navegador de modelos
  3. Selecciona el nivel de cuantizacion que quieres
  4. Haz clic en Download
  5. Ve a la pestana Chat y selecciona tu modelo
  6. Comienza a chatear

LM Studio tambien expone una API local compatible con el formato OpenAI, por lo que puedes usarla como backend drop-in para aplicaciones que esperan un endpoint estilo OpenAI.

Calidad vs Velocidad: Pruebas del Mundo Real

Asi es como rinden las diferentes cuantizaciones en tareas reales con Gemma 4 12B:

TareaQ4_K_MQ5_K_MQ8_0FP16
Generacion de codigo92% coincidencia95% coincidencia98% coincidencia100% (base)
Escritura creativaDiferencias menoresCasi identicoIdenticoBase
Razonamiento matematico~85% precision~90% precision~95% precision~96% precision
ResumenMuy cercanoMuy cercanoIdenticoBase
TraduccionPequena caida de calidadCasi identicoIdenticoBase

Para la mayoria de usuarios, Q4_K_M es el punto dulce. Pierdes unos pocos puntos porcentuales en matematicas dificiles y razonamiento complejo, pero para programacion, escritura, resumen y Q&A general, la diferencia es apenas perceptible.

Eligiendo Por Hardware

Tu HardwareCuant RecomendadaTamano Modelo
GPU 8GB VRAMQ4_K_M o IQ4_XS12B
GPU 12GB VRAMQ5_K_M o Q6_K12B
GPU 16GB VRAMQ8_012B
GPU 24GB VRAMQ8_0 (12B) o Q4_K_M (27B)12B o 27B
Mac 16GBQ4_K_M12B
Mac 32GBQ5_K_M (12B) o Q4_K_M (27B)12B o 27B
Mac 64GB+Q8_0 para cualquier tamano27B

Siguientes Pasos

  • ¿Necesitas descargar modelos? Consulta nuestra Guia de Descarga para todas las formas de obtener Gemma 4
  • ¿Quieres mas detalles sobre requisitos de hardware? Ve la Guia de Hardware para calculos de VRAM por modelo y cuantizacion
  • ¿Descargando desde Hugging Face? Lee Como Descargar desde Hugging Face para instrucciones detalladas

La conclusion: comienza con Q4_K_M. Si notas problemas de calidad en tus tareas especificas, sube a Q5_K_M. Solo sube mas si tienes la VRAM de sobra y genuinamente necesitas la precision extra.

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

Gemma 4 GGUF: ¿Que Cuantizacion Deberia Elegir? | Blog