0% read

Como Ejecutar Gemma 4 con LM Studio: Guia Amigable para Principiantes (2026)

abr. 6, 2026
|Updated: abr. 7, 2026

No a todo el mundo le encanta la linea de comandos. Si quieres ejecutar Gemma 4 localmente con una interfaz visual pulida, LM Studio es la herramienta perfecta. Te da una experiencia tipo ChatGPT — completamente offline, completamente gratuita y completamente privada.

Esta guia te lleva por cada paso, desde descargar LM Studio hasta tener tu primera conversacion con Gemma 4.

¿Que es LM Studio?

LM Studio es una aplicacion de escritorio gratuita que te permite descargar y ejecutar modelos de IA en tu propia computadora. Piensalo como una tienda de aplicaciones para modelos de IA de codigo abierto combinada con una hermosa interfaz de chat.

Caracteristicas clave:

  • No se requiere linea de comandos — todo sucede a traves de una interfaz grafica
  • Busqueda de modelos integrada — encuentra y descarga modelos directamente desde la app
  • UI de chat estilo ChatGPT — interfaz de conversacion familiar y facil de usar
  • Ajustes personalizables — temperatura, longitud de contexto, prompts del sistema y mas
  • Servidor API local — compatible con el formato de API de OpenAI para desarrolladores

Lo Que Necesitas

  • Una computadora con al menos 8GB RAM (16GB recomendado)
  • macOS, Windows o Linux
  • Aproximadamente 3-6GB de espacio libre en disco (dependiendo del tamano del modelo Gemma 4)
  • No se requiere conexion a internet despues de la descarga del modelo

Paso 1: Descargar e Instalar LM Studio

Visita lmstudio.ai y descarga el instalador para tu sistema operativo.

macOS: Descarga el archivo .dmg, abrelo y arrastra LM Studio a tu carpeta de Aplicaciones.

Windows: Descarga el instalador .exe y ejecutalo. Sigue el asistente de instalacion estandar.

Linux: Descarga el archivo .AppImage. Hazlo ejecutable y ejecutalo:

chmod +x LM-Studio-*.AppImage
./LM-Studio-*.AppImage

Lanza LM Studio despues de la instalacion. Veras una pantalla de inicio limpia con una barra de busqueda en la parte superior.

Paso 2: Buscar y Descargar Gemma 4

Una vez que LM Studio este abierto:

  1. Haz clic en la barra de busqueda en la parte superior de la app (o navega a la pestana Discover/Models)
  2. Escribe "gemma 4" en el campo de busqueda
  3. Navega los resultados — veras varias versiones cuantizadas de Gemma 4

Eligiendo la Version Correcta

LM Studio ofrece multiples versiones cuantizadas de cada modelo. La cuantizacion reduce el tamano del modelo y el uso de memoria con una perdida minima de calidad.

CuantizacionTamano ArchivoRAM NecesariaCalidadMejor Para
Q4_K_M~2.5GB~5GBBuenaLa mayoria de usuarios, equilibrado
Q5_K_M~3GB~6GBMejorEnfocado en calidad
Q6_K~3.5GB~7GBGenialRespuestas de alta calidad
Q8_0~4.5GB~8GBCercana a originalMaxima calidad

Recomendacion: Comienza con la version Q4_K_M de Gemma 4 E4B. Es el punto dulce entre calidad y rendimiento para la mayoria de los laptops.

  1. Haz clic en el boton de descarga junto a la version elegida
  2. Espera la descarga — el progreso se muestra en la app. Esto tipicamente toma 2-10 minutos dependiendo de tu velocidad de internet.

Paso 3: Comenzar a Chatear

Despues de que el modelo termine de descargarse:

  1. Ve a la pestana Chat (el icono de burbuja de chat en la barra lateral izquierda)
  2. Selecciona Gemma 4 del menu desplegable de modelos en la parte superior
  3. Espera a que el modelo se cargue — esto toma unos segundos mientras LM Studio carga el modelo en memoria
  4. Escribe tu mensaje en la caja de texto en la parte inferior y presiona Enter

Eso es todo — ahora estas chateando con Gemma 4 localmente en tu propia maquina.

Tu Primera Conversacion

Prueba estos prompts para probar las capacidades de Gemma 4:

Explain quantum computing to a 10-year-old.
Write a Python function that finds the longest palindrome in a string.
Summarize the pros and cons of remote work in a table format.

Paso 4: Personalizar Ajustes

LM Studio te da control detallado sobre el comportamiento del modelo. Haz clic en el icono de ajustes (engranaje) en el panel de chat para acceder a:

Ajustes Clave Que Debes Conocer

Temperature (0.0 - 2.0)

  • Valores mas bajos (0.1-0.3): Respuestas mas enfocadas y deterministicas. Mejor para programacion y preguntas factuales.
  • Valores mas altos (0.7-1.0): Respuestas mas creativas y variadas. Mejor para escritura y lluvia de ideas.
  • Predeterminado: 0.7

Context Length

  • Gemma 4 soporta hasta 128K tokens de contexto
  • LM Studio te permite establecer esto segun tu RAM disponible
  • Comienza con 4096 y aumenta si necesitas conversaciones mas largas

System Prompt

  • Establece un prompt del sistema personalizado para definir el comportamiento de Gemma 4
  • Ejemplo: "You are a helpful coding assistant. Always provide code examples with explanations."

GPU Offloading

  • Si tienes una GPU compatible, LM Studio puede descargar capas a ella para inferencia mas rapida
  • Ajusta el numero de capas de GPU en los ajustes

Paso 5: Usar el Servidor API Local

LM Studio incluye un servidor API integrado que es compatible con el formato de API de OpenAI. Esto significa que puedes usar Gemma 4 con cualquier herramienta que soporte la API de OpenAI.

  1. Ve a la pestana Developer (icono de codigo en la barra lateral)
  2. Selecciona tu modelo Gemma 4 del menu desplegable
  3. Haz clic en "Start Server"
  4. El servidor se ejecuta en http://localhost:1234 por defecto

Ahora puedes conectar cualquier aplicacion compatible con OpenAI a tu Gemma 4 local:

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:1234/v1",
    api_key="lm-studio"  # Any string works
)

response = client.chat.completions.create(
    model="gemma-4",
    messages=[
        {"role": "user", "content": "What is the capital of France?"}
    ]
)

print(response.choices[0].message.content)
// Node.js / JavaScript
const response = await fetch("http://localhost:1234/v1/chat/completions", {
  method: "POST",
  headers: { "Content-Type": "application/json" },
  body: JSON.stringify({
    model: "gemma-4",
    messages: [{ role: "user", content: "Hello, Gemma 4!" }]
  })
});

const data = await response.json();
console.log(data.choices[0].message.content);

LM Studio vs Ollama: ¿Cual Deberias Elegir?

Ambas son excelentes herramientas para ejecutar Gemma 4 localmente. Asi es como se comparan:

CaracteristicaLM StudioOllama
InterfazApp GUI completaLinea de comandos
Facilidad de usoApuntar y hacer clicEscribir comandos
Busqueda de modelosNavegador integradoBusqueda manual o CLI
AjustesSliders y toggles visualesArchivos de configuracion
Servidor APIInicio con un clicAuto-inicia al instalar
Uso de recursosLigeramente mas RAM (sobrecarga GUI)Huella mas ligera
Mejor paraPrincipiantes, aprendices visualesDesarrolladores, automatizacion
Formato de modeloGGUFFormato Ollama (basado en GGUF)
PrecioGratisGratis

Elige LM Studio si:

  • Prefieres una interfaz visual sobre la terminal
  • Quieres comparar facilmente diferentes versiones de modelos
  • Eres nuevo en ejecutar modelos de IA localmente
  • Quieres una experiencia tipo ChatGPT en tu escritorio

Elige Ollama si:

  • Te sientes comodo con la linea de comandos
  • Quieres integrar modelos en scripts y automatizacion
  • Necesitas menor sobrecarga de recursos
  • Quieres un servicio en segundo plano mas simple

Pro tip: Puedes usar ambos. Muchos desarrolladores usan LM Studio para chat interactivo y experimentacion, luego cambian a Ollama para scripts de produccion y automatizacion.

Solucion de Problemas Comunes

El modelo no carga

  • Verifica que tengas suficiente RAM libre. Cierra otras apps que usen mucha memoria.
  • Prueba una cuantizacion mas pequena (Q4_K_M en lugar de Q8_0).
  • Reinicia LM Studio.

Respuestas lentas

  • Reduce la longitud del contexto en los ajustes.
  • Usa una variante de modelo mas pequena (E2B en lugar de 26B).
  • Habilita el offloading de GPU si tienes una GPU compatible.
  • Cierra otras aplicaciones para liberar RAM.

Error "Out of memory"

  • Cambia a una cuantizacion mas pequena.
  • Reduce la longitud del contexto a 2048 o 4096.
  • Usa Gemma 4 E2B en lugar de variantes mas grandes.

El servidor API no se conecta

  • Asegurate de que el servidor este iniciado (indicador verde en la pestana Developer).
  • Verifica que estes usando http://localhost:1234 como URL base.
  • Verifica que ningun firewall este bloqueando el puerto 1234.

¿Que Sigue?

Ahora que tienes Gemma 4 ejecutandose en LM Studio, prueba estos siguientes pasos:

  • Experimenta con diferentes tamanos de modelo — prueba E2B para tareas rapidas y 26B para razonamiento complejo
  • Crea prompts de sistema personalizados para diferentes casos de uso (asistente de programacion, ayudante de escritura, traductor)
  • Conecta tus herramientas favoritas usando el servidor API local
  • Compara Gemma 4 con otros modelos — LM Studio facilita cambiar entre modelos

Ejecutar IA localmente te pone en control completo. Sin suscripciones, sin compartir datos, sin limites de tasa — solo tu y Gemma 4 en tu propio hardware.


Lecturas relacionadas

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

Como Ejecutar Gemma 4 con LM Studio: Guia Amigable para Principiantes (2026) | Blog