Hugging Face es el hub principal para descargar los pesos del modelo Gemma 4. Ya sea que quieras los pesos originales FP16 para fine-tuning o archivos cuantizados GGUF para inferencia local, todo vive en HF. Esta guia recorre cada metodo de descarga y te muestra como comenzar a usar los modelos de inmediato.
Repositorios Oficiales
Google publica los pesos originales de Gemma 4 en Hugging Face:
| Modelo | Hugging Face Repo | Tamano | Formato |
|---|---|---|---|
| Gemma 4 1B IT | google/gemma-4-1b-it | ~2 GB | SafeTensors |
| Gemma 4 4B IT | google/gemma-4-4b-it | ~8 GB | SafeTensors |
| Gemma 4 12B IT | google/gemma-4-12b-it | ~24 GB | SafeTensors |
| Gemma 4 27B IT | google/gemma-4-27b-it | ~54 GB | SafeTensors |
| Gemma 4 E2B IT | google/gemma-4-e2b-it | ~4 GB | SafeTensors |
| Gemma 4 E4B IT | google/gemma-4-e4b-it | ~8 GB | SafeTensors |
Los modelos base (pre-entrenados, no ajustados a instrucciones) tambien estan disponibles con el sufijo -pt en lugar de -it.
Repositorios GGUF
Para ejecutar con llama.cpp, Ollama o LM Studio, toma las versiones GGUF de Unsloth:
| Modelo | Hugging Face Repo | Cuantizaciones Disponibles |
|---|---|---|
| Gemma 4 1B | unsloth/gemma-4-1b-it-GGUF | Q4_K_M, Q5_K_M, Q8_0, IQ4_XS |
| Gemma 4 4B | unsloth/gemma-4-4b-it-GGUF | Q4_K_M, Q5_K_M, Q8_0, IQ4_XS |
| Gemma 4 12B | unsloth/gemma-4-12b-it-GGUF | Q4_K_M, Q5_K_M, Q6_K, Q8_0, IQ4_XS |
| Gemma 4 27B | unsloth/gemma-4-27b-it-GGUF | Q4_K_M, Q5_K_M, Q6_K, Q8_0, IQ4_XS |
Metodos de Descarga
Metodo 1: huggingface-cli (Recomendado)
El CLI de Hugging Face es la forma mas confiable de descargar grandes archivos de modelo:
# Instalar el CLI
pip install huggingface_hub
# Login (requerido para modelos con acceso restringido)
huggingface-cli login
# Descargar un archivo GGUF especifico
huggingface-cli download unsloth/gemma-4-12b-it-GGUF \
gemma-4-12b-it-Q4_K_M.gguf \
--local-dir ./models
# Descargar el modelo oficial completo
huggingface-cli download google/gemma-4-12b-it \
--local-dir ./models/gemma-4-12b-it
# Reanudar descargas interrumpidas automaticamente
# Solo ejecuta el mismo comando de nuevo — retoma donde se quedoMetodo 2: Git LFS
Para descargar repositorios completos incluyendo todos los archivos:
# Instalar git-lfs
# macOS
brew install git-lfs
# Ubuntu
sudo apt install git-lfs
# Inicializar git-lfs
git lfs install
# Clonar el repo del modelo
git clone https://huggingface.co/google/gemma-4-12b-it
# Para GGUF — clonar solo el archivo que necesitas
GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/unsloth/gemma-4-12b-it-GGUF
cd gemma-4-12b-it-GGUF
git lfs pull --include="gemma-4-12b-it-Q4_K_M.gguf"El truco GIT_LFS_SKIP_SMUDGE=1 clona los metadatos del repo sin descargar los archivos grandes, luego extraes selectivamente solo la cuantizacion que quieres. Esto ahorra ancho de banda cuando un repo tiene multiples archivos grandes.
Metodo 3: API de Python
Descarga programaticamente en tus scripts:
from huggingface_hub import hf_hub_download, snapshot_download
# Download a single file
path = hf_hub_download(
repo_id="unsloth/gemma-4-12b-it-GGUF",
filename="gemma-4-12b-it-Q4_K_M.gguf",
local_dir="./models"
)
print(f"Downloaded to: {path}")
# Download entire model
snapshot_download(
repo_id="google/gemma-4-12b-it",
local_dir="./models/gemma-4-12b-it"
)Usando con la Biblioteca Transformers
Una vez que has descargado los pesos oficiales, cargalos directamente con la biblioteca transformers:
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
# Load model and tokenizer
model_id = "google/gemma-4-12b-it"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto" # Automatically distribute across available GPUs
)
# Generate text
messages = [
{"role": "user", "content": "Explain quantum computing in simple terms."}
]
input_ids = tokenizer.apply_chat_template(
messages,
return_tensors="pt",
add_generation_prompt=True
).to(model.device)
outputs = model.generate(
input_ids,
max_new_tokens=512,
temperature=0.7,
do_sample=True
)
response = tokenizer.decode(outputs[0][input_ids.shape[-1]:], skip_special_tokens=True)
print(response)Con Cuantizacion de 4 bits (BitsAndBytes)
Ejecuta el modelo completo en menos VRAM usando cuantizacion sobre la marcha:
from transformers import AutoModelForCausalLM, BitsAndBytesConfig
quantization_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_compute_dtype=torch.bfloat16,
bnb_4bit_quant_type="nf4"
)
model = AutoModelForCausalLM.from_pretrained(
"google/gemma-4-12b-it",
quantization_config=quantization_config,
device_map="auto"
)
# Now runs on ~8GB VRAM instead of ~26GBUsando con Text Generation Inference (TGI)
Para servicio en produccion, TGI de Hugging Face proporciona inferencia optimizada:
# Run with Docker
docker run --gpus all \
-p 8080:80 \
-v ./models:/data \
ghcr.io/huggingface/text-generation-inference:latest \
--model-id google/gemma-4-12b-it \
--max-input-tokens 4096 \
--max-total-tokens 8192 \
--dtype bfloat16
# Query the API
curl http://localhost:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "google/gemma-4-12b-it",
"messages": [{"role": "user", "content": "Hello!"}],
"max_tokens": 256
}'Mirror HF para Usuarios en China
Si estas en China y Hugging Face es lento o esta bloqueado, usa el mirror oficial:
# Set the mirror endpoint
export HF_ENDPOINT=https://hf-mirror.com
# Now all huggingface-cli commands use the mirror
huggingface-cli download unsloth/gemma-4-12b-it-GGUF \
gemma-4-12b-it-Q4_K_M.gguf \
--local-dir ./models
# Or in Python
import os
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"
from huggingface_hub import hf_hub_download
path = hf_hub_download(
repo_id="unsloth/gemma-4-12b-it-GGUF",
filename="gemma-4-12b-it-Q4_K_M.gguf"
)El mirror se sincroniza con el hub principal de HF, por lo que todos los modelos y archivos estan disponibles.
Consejos de Descarga
| Consejo | Detalles |
|---|---|
Usa huggingface-cli sobre git clone | Mejor soporte de reanudacion, barras de progreso y manejo de errores |
| Descarga archivos especificos cuando sea posible | No clones repos enteros con mas de 10 archivos de cuantizacion |
| Verifica el espacio en disco primero | El modelo FP16 27B necesita mas de 54GB de espacio libre |
Usa --cache-dir para ubicacion de cache personalizada | Por defecto es ~/.cache/huggingface/ que puede estar en una unidad pequena |
| Verifica la integridad del archivo | huggingface-cli verifica SHA256 automaticamente |
Siguientes Pasos
- ¿No estas seguro que GGUF elegir? Lee nuestra Guia de Cuantizacion GGUF para comparaciones detalladas de formato
- ¿Quieres todas las opciones de descarga en un solo lugar? Consulta la Guia de Descarga Completa que cubre Ollama, LM Studio y descargas directas
- ¿Listo para ejecutar el modelo? Sigue nuestro tutorial de Ollama para la configuracion mas rapida
Hugging Face hace que la distribucion de modelos sea indolora. Ya sea que estes obteniendo un GGUF rapido para Ollama o los pesos completos para un proyecto de investigacion, el proceso de descarga es directo y reanudable.
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


