Modo de Pensamiento de Gemma 4: Que Hace y Cuando Usarlo

Gemma 4 tiene un modo de pensamiento integrado que permite al modelo "razonar en voz alta" antes de darte una respuesta. Es como pedirle a alguien que muestre su trabajo en un problema matematico — los pasos extra a menudo llevan a una mejor respuesta.

Pero no siempre vale la pena el compromiso. Vamos a desglosar cuando usarlo y cuando omitirlo.

¿Que es el Modo de Pensamiento?

En el modo de pensamiento, Gemma 4 genera una cadena de razonamiento antes de producir la respuesta final. El modelo esencialmente tiene un bloc de notas interno donde trabaja el problema paso a paso.

Sin pensamiento:

User: What's 17 × 23?
Gemma 4: 391

Con pensamiento:

User: What's 17 × 23?
Gemma 4: <think>
17 × 23
= 17 × 20 + 17 × 3
= 340 + 51
= 391
</think>
391

El pensamiento ocurre dentro de etiquetas <think>. Tu aplicacion puede mostrar este razonamiento al usuario o eliminarlo y usar solo la respuesta final.

Como Habilitar el Modo de Pensamiento

Con Ollama

# Usa la variante de pensamiento del modelo
ollama run gemma4:26b-thinking

O via la API con un parametro de presupuesto de tokens:

import requests

response = requests.post("http://localhost:11434/api/chat", json={
    "model": "gemma4:26b",
    "messages": [
        {"role": "user", "content": "Solve: If 3x + 7 = 22, what is x?"}
    ],
    "options": {
        "num_predict": 2048,  # Allow enough tokens for thinking
    },
    "stream": False,
})

print(response.json()["message"]["content"])

Con el Prompt del Sistema

Tambien puedes activar el comportamiento de pensamiento a traves del prompt del sistema:

messages = [
    {
        "role": "system",
        "content": "Think step by step before answering. Show your reasoning in <think> tags, then provide the final answer."
    },
    {
        "role": "user",
        "content": "A train leaves Chicago at 9 AM traveling 60 mph. Another leaves New York at 10 AM traveling 80 mph toward Chicago. The distance is 800 miles. When do they meet?"
    }
]

Presupuesto de Tokens

Algunas implementaciones te permiten controlar cuanto pensamiento hace el modelo con un presupuesto:

# More budget = more thinking = slower but better
response = requests.post("http://localhost:11434/api/chat", json={
    "model": "gemma4:26b",
    "messages": [{"role": "user", "content": "Complex reasoning task here..."}],
    "options": {
        "num_predict": 4096,  # Higher budget for more thinking room
    },
})

Cuando Ayuda el Modo de Pensamiento

El modo de pensamiento brilla en tareas que requieren razonamiento de multiples pasos:

Problemas matematicos y logicos:

Sin pensamiento: "The answer is 42" (a veces incorrecto)
Con pensamiento: Trabajo paso a paso → respuesta correcta

Programacion compleja:

Sin pensamiento: Genera codigo que parece correcto pero tiene bugs sutiles
Con pensamiento: Razona sobre casos limite, flujo de datos, luego genera codigo mas limpio

Analisis y comparacion:

Sin pensamiento: Respuesta superficial
Con pensamiento: Considera multiples angulos, pondera compromisos

Aqui tienes una comparacion practica en los mismos problemas:

Tipo de Problema	Sin Pensamiento	Con Pensamiento	Mejora
Matematicas basicas (2+2)	Correcto	Correcto	Ninguna
Matematicas multi-paso	~70% correcto	~90% correcto	Significativa
Puzzles logicos	~50% correcto	~80% correcto	Importante
Debugging de codigo	Encuentra bugs obvios	Encuentra bugs sutiles	Significativa
Q&A simple	Rapido, correcto	Mas lento, correcto	Ninguna (peor: mas lento)
Traduccion	Buena	Misma calidad	Ninguna
Escritura creativa	Flujo natural	Puede sentirse sobre-pensado	Peor

Cuando Omitir el Modo de Pensamiento

No uses el modo de pensamiento para:

Q&A simple: "¿Cual es la capital de Francia?" no necesita una cadena de pensamiento
Traduccion: El modo de pensamiento agrega latencia sin mejorar la calidad de la traduccion
Escritura creativa: El razonamiento extra puede hacer que la salida se sienta rigida y sobre-planificada
Conversaciones de chat: El ir y venir natural no se beneficia del razonamiento formal
Extraccion de datos: Sacar nombres, fechas y numeros de texto es coincidencia de patrones, no razonamiento
Aplicaciones de alto rendimiento: Si estas procesando miles de solicitudes, la ralentizacion de 2-3x importa. Ve nuestra guia de procesamiento por lotes.

Impacto en el Rendimiento

El modo de pensamiento tiene un costo real:

Metrica	Sin Pensamiento	Con Pensamiento
Tokens generados	100-500	300-2000
Tiempo para respuesta	1-5 segundos	3-15 segundos
Uso de VRAM	Base	Mismo (ligeramente mas cache KV)
Calidad de respuesta (razonamiento)	Buena	Mejor
Calidad de respuesta (simple)	Buena	Misma

El modelo genera 2-5x mas tokens en el modo de pensamiento porque esta escribiendo su razonamiento. En un Mac con Apple Silicon, esto significa:

M2 Pro 16GB: Respuesta simple en 2s → Respuesta con pensamiento en 6-8s
M4 Max 64GB: Respuesta simple en 1s → Respuesta con pensamiento en 3-4s

Para chat interactivo, el retraso es notable. Para procesamiento por lotes, puede duplicar o triplicar tu tiempo de procesamiento.

Ejemplo Practico: Con vs Sin

Veamos un problema real:

Prompt: "Tengo 3 bolas rojas, 5 bolas azules y 2 bolas verdes en una bolsa. Si saco 2 bolas sin reemplazo, ¿cual es la probabilidad de que ambas sean azules?"

Sin pensamiento:

The probability is 5/10 × 4/9 = 20/90 = 2/9 ≈ 0.222

Correcto, pero si el problema fuera mas complicado, el modelo podria saltarse un paso y equivocarse.

Con pensamiento:

<think>
Total balls: 3 + 5 + 2 = 10
Blue balls: 5

Probability of first ball being blue: 5/10
After drawing one blue ball:
- Remaining balls: 9
- Remaining blue: 4

Probability of second ball being blue: 4/9

Combined probability: 5/10 × 4/9 = 20/90 = 2/9
</think>

The probability of drawing 2 blue balls is 2/9, or approximately 22.2%.

Misma respuesta, pero la version con pensamiento tiene mas probabilidades de atrapar errores en problemas mas dificiles porque rastrea explicitamente el estado en cada paso.

Combinando Pensamiento con Otras Caracteristicas

Pensamiento + salida JSON: Usa el modo de pensamiento para el razonamiento, luego emite JSON estructurado:

messages = [
    {
        "role": "system",
        "content": """Think through the problem in <think> tags.
Then output your final answer as JSON (no other text after the JSON):
{"answer": number, "confidence": number, "reasoning_summary": string}"""
    },
    {"role": "user", "content": "Complex problem here..."}
]

Para mas sobre salida estructurada, ve nuestra guia de salida JSON.

Pensamiento + modelos con fine-tuning: Si has hecho fine-tuning de Gemma 4 para un dominio especifico, el modo de pensamiento aun puede mejorar la calidad del razonamiento en problemas complejos especificos del dominio.

Siguientes Pasos

Prueba el modo de pensamiento con diferentes modelos: Guia de seleccion de modelos
Combina con salida estructurada: Guia de salida JSON
Ejecuta el modo de pensamiento localmente: Guia de configuracion de Ollama
Ve el rendimiento en tu hardware: Guia de rendimiento en Mac

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />