0% read

Modo de Pensamiento de Gemma 4: Que Hace y Cuando Usarlo

abr. 7, 2026

Gemma 4 tiene un modo de pensamiento integrado que permite al modelo "razonar en voz alta" antes de darte una respuesta. Es como pedirle a alguien que muestre su trabajo en un problema matematico — los pasos extra a menudo llevan a una mejor respuesta.

Pero no siempre vale la pena el compromiso. Vamos a desglosar cuando usarlo y cuando omitirlo.

¿Que es el Modo de Pensamiento?

En el modo de pensamiento, Gemma 4 genera una cadena de razonamiento antes de producir la respuesta final. El modelo esencialmente tiene un bloc de notas interno donde trabaja el problema paso a paso.

Sin pensamiento:

User: What's 17 × 23?
Gemma 4: 391

Con pensamiento:

User: What's 17 × 23?
Gemma 4: <think>
17 × 23
= 17 × 20 + 17 × 3
= 340 + 51
= 391
</think>
391

El pensamiento ocurre dentro de etiquetas <think>. Tu aplicacion puede mostrar este razonamiento al usuario o eliminarlo y usar solo la respuesta final.

Como Habilitar el Modo de Pensamiento

Con Ollama

# Usa la variante de pensamiento del modelo
ollama run gemma4:26b-thinking

O via la API con un parametro de presupuesto de tokens:

import requests

response = requests.post("http://localhost:11434/api/chat", json={
    "model": "gemma4:26b",
    "messages": [
        {"role": "user", "content": "Solve: If 3x + 7 = 22, what is x?"}
    ],
    "options": {
        "num_predict": 2048,  # Allow enough tokens for thinking
    },
    "stream": False,
})

print(response.json()["message"]["content"])

Con el Prompt del Sistema

Tambien puedes activar el comportamiento de pensamiento a traves del prompt del sistema:

messages = [
    {
        "role": "system",
        "content": "Think step by step before answering. Show your reasoning in <think> tags, then provide the final answer."
    },
    {
        "role": "user",
        "content": "A train leaves Chicago at 9 AM traveling 60 mph. Another leaves New York at 10 AM traveling 80 mph toward Chicago. The distance is 800 miles. When do they meet?"
    }
]

Presupuesto de Tokens

Algunas implementaciones te permiten controlar cuanto pensamiento hace el modelo con un presupuesto:

# More budget = more thinking = slower but better
response = requests.post("http://localhost:11434/api/chat", json={
    "model": "gemma4:26b",
    "messages": [{"role": "user", "content": "Complex reasoning task here..."}],
    "options": {
        "num_predict": 4096,  # Higher budget for more thinking room
    },
})

Cuando Ayuda el Modo de Pensamiento

El modo de pensamiento brilla en tareas que requieren razonamiento de multiples pasos:

Problemas matematicos y logicos:

Sin pensamiento: "The answer is 42" (a veces incorrecto)
Con pensamiento: Trabajo paso a paso → respuesta correcta

Programacion compleja:

Sin pensamiento: Genera codigo que parece correcto pero tiene bugs sutiles
Con pensamiento: Razona sobre casos limite, flujo de datos, luego genera codigo mas limpio

Analisis y comparacion:

Sin pensamiento: Respuesta superficial
Con pensamiento: Considera multiples angulos, pondera compromisos

Aqui tienes una comparacion practica en los mismos problemas:

Tipo de ProblemaSin PensamientoCon PensamientoMejora
Matematicas basicas (2+2)CorrectoCorrectoNinguna
Matematicas multi-paso~70% correcto~90% correctoSignificativa
Puzzles logicos~50% correcto~80% correctoImportante
Debugging de codigoEncuentra bugs obviosEncuentra bugs sutilesSignificativa
Q&A simpleRapido, correctoMas lento, correctoNinguna (peor: mas lento)
TraduccionBuenaMisma calidadNinguna
Escritura creativaFlujo naturalPuede sentirse sobre-pensadoPeor

Cuando Omitir el Modo de Pensamiento

No uses el modo de pensamiento para:

  • Q&A simple: "¿Cual es la capital de Francia?" no necesita una cadena de pensamiento
  • Traduccion: El modo de pensamiento agrega latencia sin mejorar la calidad de la traduccion
  • Escritura creativa: El razonamiento extra puede hacer que la salida se sienta rigida y sobre-planificada
  • Conversaciones de chat: El ir y venir natural no se beneficia del razonamiento formal
  • Extraccion de datos: Sacar nombres, fechas y numeros de texto es coincidencia de patrones, no razonamiento
  • Aplicaciones de alto rendimiento: Si estas procesando miles de solicitudes, la ralentizacion de 2-3x importa. Ve nuestra guia de procesamiento por lotes.

Impacto en el Rendimiento

El modo de pensamiento tiene un costo real:

MetricaSin PensamientoCon Pensamiento
Tokens generados100-500300-2000
Tiempo para respuesta1-5 segundos3-15 segundos
Uso de VRAMBaseMismo (ligeramente mas cache KV)
Calidad de respuesta (razonamiento)BuenaMejor
Calidad de respuesta (simple)BuenaMisma

El modelo genera 2-5x mas tokens en el modo de pensamiento porque esta escribiendo su razonamiento. En un Mac con Apple Silicon, esto significa:

  • M2 Pro 16GB: Respuesta simple en 2s → Respuesta con pensamiento en 6-8s
  • M4 Max 64GB: Respuesta simple en 1s → Respuesta con pensamiento en 3-4s

Para chat interactivo, el retraso es notable. Para procesamiento por lotes, puede duplicar o triplicar tu tiempo de procesamiento.

Ejemplo Practico: Con vs Sin

Veamos un problema real:

Prompt: "Tengo 3 bolas rojas, 5 bolas azules y 2 bolas verdes en una bolsa. Si saco 2 bolas sin reemplazo, ¿cual es la probabilidad de que ambas sean azules?"

Sin pensamiento:

The probability is 5/10 × 4/9 = 20/90 = 2/9 ≈ 0.222

Correcto, pero si el problema fuera mas complicado, el modelo podria saltarse un paso y equivocarse.

Con pensamiento:

<think>
Total balls: 3 + 5 + 2 = 10
Blue balls: 5

Probability of first ball being blue: 5/10
After drawing one blue ball:
- Remaining balls: 9
- Remaining blue: 4

Probability of second ball being blue: 4/9

Combined probability: 5/10 × 4/9 = 20/90 = 2/9
</think>

The probability of drawing 2 blue balls is 2/9, or approximately 22.2%.

Misma respuesta, pero la version con pensamiento tiene mas probabilidades de atrapar errores en problemas mas dificiles porque rastrea explicitamente el estado en cada paso.

Combinando Pensamiento con Otras Caracteristicas

Pensamiento + salida JSON: Usa el modo de pensamiento para el razonamiento, luego emite JSON estructurado:

messages = [
    {
        "role": "system",
        "content": """Think through the problem in <think> tags.
Then output your final answer as JSON (no other text after the JSON):
{"answer": number, "confidence": number, "reasoning_summary": string}"""
    },
    {"role": "user", "content": "Complex problem here..."}
]

Para mas sobre salida estructurada, ve nuestra guia de salida JSON.

Pensamiento + modelos con fine-tuning: Si has hecho fine-tuning de Gemma 4 para un dominio especifico, el modo de pensamiento aun puede mejorar la calidad del razonamiento en problemas complejos especificos del dominio.

Siguientes Pasos

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

Modo de Pensamiento de Gemma 4: Que Hace y Cuando Usarlo | Blog