Ejecutar Gemma 4 localmente significa que tus datos nunca salen de tu maquina. Sin costes de API, sin limites de uso, privacidad total. Esta guia te muestra como poner Gemma 4 en marcha en menos de 5 minutos usando Ollama.
Lo que necesitas
- Un ordenador con al menos 8GB de RAM (16GB recomendados para modelos mas grandes)
- macOS, Windows o Linux
- Unos 2-5GB de espacio libre en disco (dependiendo del tamano del modelo)
Paso 1: Instalar Ollama
Visita ollama.com y descarga el instalador para tu sistema operativo.
macOS:
# O instala via Homebrew
brew install ollamaLinux:
curl -fsSL https://ollama.com/install.sh | shWindows: Descarga el instalador desde ollama.com/download.
Paso 2: Ejecutar Gemma 4
Una vez instalado Ollama, ejecutar Gemma 4 es literalmente un comando:
ollama run gemma4Eso es todo. Ollama descargara automaticamente el modelo e iniciara una sesion de chat interactiva. Para otros metodos de descarga (Hugging Face, LM Studio, Kaggle), consulta nuestra guia completa de descarga.
Elegir el tamano de modelo correcto
Gemma 4 viene en cuatro tamanos. Asi puedes elegir:
| Modelo | Parametros | RAM necesaria | Ideal para | Comando |
|---|---|---|---|---|
| E2B | 2B | ~4GB | Movil, tareas rapidas | ollama run gemma4:e2b |
| E4B | 4B | ~6GB | Portatiles, uso diario | ollama run gemma4:e4b |
| 26B MoE | 26B | ~16GB | Mejor eficiencia | ollama run gemma4:26b |
| 31B Dense | 31B | ~20GB | Calidad maxima | ollama run gemma4:31b |
Recomendacion: Empieza con E4B si tienes un portatil moderno. Ofrece el mejor equilibrio entre velocidad y calidad. ¿No sabes que tamano se adapta a tu caso de uso? Lee nuestra guia detallada de comparacion de modelos.
Paso 3: Usar Gemma 4 para diferentes tareas
Chat de texto
ollama run gemma4
>>> Explicame la computacion cuantica en terminos simplesGeneracion de codigo
ollama run gemma4
>>> Escribe una funcion en Python para ordenar una lista de diccionarios por una claveComprension de imagenes (multimodal)
Gemma 4 puede analizar imagenes:
ollama run gemma4
>>> Describe this image: /path/to/image.jpgUsando la API
Ollama tambien proporciona una API local en http://localhost:11434:
curl http://localhost:11434/api/generate -d '{
"model": "gemma4",
"prompt": "What is machine learning?"
}'Consejos de rendimiento
- Cierra otras aplicaciones — libera RAM para el modelo
- Usa modelos cuantizados — Ollama sirve versiones cuantizadas por defecto, que son mucho mas rapidas
- Aceleracion por GPU — si tienes una GPU NVIDIA, Ollama la usara automaticamente
- Ajusta la longitud de contexto — para conversaciones mas largas, configura
/set parameter num_ctx 8192
Gemma 4 vs APIs en la nube
| Caracteristica | Gemma 4 Local (Ollama) | API en la nube (ChatGPT, Gemini) |
|---|---|---|
| Coste | Gratis para siempre | Pago por token |
| Privacidad | 100% local | Datos enviados al servidor |
| Velocidad | Depende del hardware | Generalmente mas rapido |
| Internet | No necesario | Necesario |
| Limites de uso | Ninguno | Si |
| Personalizacion | Control total | Limitada |
Solucion de problemas
"Not enough memory" — Prueba un modelo mas pequeno: ollama run gemma4:e2b
Respuesta lenta — Asegurate de que no hay otras apps pesadas ejecutandose. Verifica si se esta usando la GPU: ollama ps
Modelo no encontrado — Actualiza Ollama: ollama update, luego intentalo de nuevo.
Para soluciones mas detalladas a estos y otros problemas, consulta nuestra guia de solucion de problemas de Gemma 4.
Siguientes pasos
- Compara los modelos de Gemma 4 en detalle en nuestra pagina de modelos
- Prueba LM Studio para una interfaz grafica
- Explora Google AI Studio para acceso en la nube
Gemma 4 esta desarrollado por Google DeepMind y publicado bajo la licencia Apache 2.0. Esta guia es proporcionada por la comunidad de Gemma 4 AI.



