Quieres poner Gemma 4 a funcionar. Buenas noticias: hay varias formas de hacerlo, y al menos una sera perfecta para tu situacion. Ya sea que prefieras un comando en la terminal o una interfaz grafica, esta guia cubre todas las opciones.
Veamos cada metodo, del mas facil al mas avanzado.
Metodo 1: Ollama (recomendado para la mayoria)
Esta es la forma mas rapida de pasar de cero a ejecutar Gemma 4. Un comando y ya estas chateando.
# Instala Ollama primero (macOS)
brew install ollama
# Luego ejecuta Gemma 4 — se descarga automaticamente
ollama run gemma4Eso es literalmente todo. Ollama se encarga de la descarga, la configuracion del modelo y te da un chat interactivo directamente en tu terminal.
¿Quieres un tamano de modelo especifico? Solo anade una etiqueta:
ollama run gemma4:e2b # El mas pequeno y rapido
ollama run gemma4:e4b # El mejor para la mayoria de portatiles
ollama run gemma4:26b # MoE, gran eficiencia
ollama run gemma4:31b # Calidad maximaPara la guia completa de configuracion con Ollama, consulta nuestra guia detallada de Ollama.
Ideal para: Desarrolladores, usuarios de terminal, cualquiera que quiera la configuracion mas rapida.
Metodo 2: LM Studio (la mejor experiencia con interfaz grafica)
Si prefieres no tocar la terminal, LM Studio es tu aliado. Es una app de escritorio con una interfaz limpia para descargar y ejecutar modelos locales.
Pasos:
- Descarga LM Studio desde lmstudio.ai
- Abre la app y busca "gemma4" en el explorador de modelos
- Haz clic en el boton de descarga junto al tamano de modelo que quieras
- Una vez descargado, haz clic en "Chat" y empieza a conversar
LM Studio tambien te permite ajustar configuraciones como temperatura, longitud de contexto y prompts del sistema a traves de una barra lateral intuitiva — sin archivos de configuracion.
Para una guia completa, consulta nuestra guia de LM Studio.
Ideal para: No desarrolladores, personas que prefieren interfaz grafica, cualquiera que quiera experimentar visualmente con la configuracion del modelo.
Metodo 3: Hugging Face (descarga directa de pesos)
Esta es la ruta para ingenieros de ML e investigadores que quieren los pesos crudos del modelo. Descargaras los archivos directamente y los cargaras en tu propio pipeline de inferencia.
# Instala la CLI de Hugging Face
pip install huggingface-hub
# Descarga Gemma 4 E4B
huggingface-cli download google/gemma-4-e4b
# O descarga una cuantizacion GGUF especifica
huggingface-cli download google/gemma-4-e4b-GGUF \
--include "gemma-4-e4b-Q4_K_M.gguf"Tambien puedes navegar y descargar desde la interfaz web en huggingface.co/google — solo busca "gemma-4".
Nota: Necesitaras aceptar el acuerdo de licencia de Google en Hugging Face antes de descargar. Es Apache 2.0, asi que no hay restricciones raras — solo un clic unico.
Cargar en Python con Transformers:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "google/gemma-4-e4b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
device_map="auto",
torch_dtype="auto"
)
input_text = "Explain quantum computing in simple terms"
inputs = tokenizer(input_text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))Ideal para: Investigadores de ML, fine-tuning, pipelines de inferencia personalizados, integracion con bases de codigo ML existentes.
Metodo 4: Google AI Studio (sin descarga necesaria)
¿No quieres descargar nada? Google AI Studio te permite usar Gemma 4 directamente en tu navegador. Sin configuracion, sin requisitos de hardware.
Ve a aistudio.google.com y selecciona Gemma 4 en el menu desplegable de modelos. Tendras una interfaz de chat completa, un playground de prompts e incluso generacion de claves API.
# Tambien puedes usar la API despues de obtener una clave
import google.generativeai as genai
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemma-4-e4b")
response = model.generate_content("Write a haiku about coding")
print(response.text)Consulta nuestra guia de Google AI Studio para la guia completa.
Ideal para: Pruebas rapidas, exploracion sin configuracion, personas con hardware limitado.
Metodo 5: Kaggle (fuente de descarga alternativa)
Kaggle tambien aloja modelos de Gemma 4. Esto es especialmente util si ya estas en el ecosistema de Kaggle o quieres notebooks con GPU gratuita para probar.
Pasos:
- Ve a kaggle.com/models/google/gemma-4
- Acepta la licencia
- Descarga los pesos directamente, o usalos en un notebook de Kaggle con GPU gratuita
# En un notebook de Kaggle con GPU
import kagglehub
model_path = kagglehub.model_download("google/gemma-4/transformers/e4b")
print(f"Model downloaded to: {model_path}")Ideal para: Usuarios de Kaggle, acceso gratuito a GPU para pruebas, investigacion academica.
¿Que metodo deberia elegir?
Aqui tienes la matriz de decision rapida:
| Metodo | Tiempo de config. | Dificultad | ¿GPU necesaria? | ¿Sin conexion? | Ideal para |
|---|---|---|---|---|---|
| Ollama | 2 min | Facil | No (pero ayuda) | Si | Desarrolladores, uso diario |
| LM Studio | 5 min | Muy facil | No (pero ayuda) | Si | Amantes de GUI, principiantes |
| Hugging Face | 10-15 min | Avanzado | Recomendada | Si | Ingenieros ML, fine-tuning |
| Google AI Studio | 30 seg | Muy facil | No | No | Pruebas rapidas, sin hardware |
| Kaggle | 5-10 min | Moderado | ¡GPUs gratis! | No | Investigacion, experimentacion |
Mi recomendacion
- ¿Solo quieres probarlo? → Google AI Studio. Cero configuracion.
- ¿Quieres ejecutarlo a diario en tu maquina? → Ollama. Un comando y listo.
- ¿Prefieres interfaz grafica? → LM Studio. Limpio y simple.
- ¿Construyendo algo personalizado? → Hugging Face. Control total.
- ¿Necesitas tiempo de GPU gratis? → Kaggle. GPUs T4/P100 gratuitas.
Requisitos de almacenamiento
Antes de descargar, asegurate de tener suficiente espacio en disco:
| Modelo | GGUF (Q4_K_M) | Pesos completos (FP16) |
|---|---|---|
| E2B | ~1.5 GB | ~4 GB |
| E4B | ~3 GB | ~8 GB |
| 26B MoE | ~8 GB | ~52 GB |
| 31B Dense | ~18 GB | ~62 GB |
La mayoria de personas deberian descargar las versiones cuantizadas GGUF — son mucho mas pequenas y la diferencia de calidad es minima para uso cotidiano. ¿No estas seguro de si tu maquina puede con un tamano de modelo particular? Consulta nuestra guia de requisitos de hardware antes de descargar.
Solucion de problemas de descarga
¿Descarga demasiado lenta?
- Hugging Face: Prueba configurando
HF_HUB_ENABLE_HF_TRANSFER=1despues de instalarpip install hf-transfer - Ollama: Las descargas suelen ser rapidas, pero verifica tu conexion a internet
- Prueba un mirror si estas en una region con acceso lento a los servidores predeterminados
¿No hay suficiente espacio en disco?
- Empieza con E2B o E4B — son mucho mas pequenos
- Usa versiones cuantizadas (GGUF Q4) en lugar de pesos de precision completa
- Limpia modelos antiguos:
ollama rm <model_name>
¿Problemas de licencia en Hugging Face?
- Asegurate de haber iniciado sesion:
huggingface-cli login - Acepta la licencia en la pagina del modelo antes de intentar descargar
Siguientes pasos
Una vez que tengas Gemma 4 descargado, aqui tienes a donde ir:
- Configurar Ollama correctamente → Como ejecutar Gemma 4 con Ollama
- Configurar LM Studio → Guia de LM Studio
- Elegir el tamano de modelo correcto → ¿Que modelo de Gemma 4 deberia usar?
- ¿Tienes problemas? → Guia de solucion de problemas de Gemma 4



