Ejecutar agentes de IA a través de APIs en la nube cuesta dinero, filtra tus datos y deja de funcionar cuando pierdes internet. Con Gemma 4 + Ollama + OpenClaw, puedes construir un agente de IA completamente local que llama herramientas, busca en la web de forma privada y ejecuta un bot de Telegram — todo en tu propio hardware, gratis.
Este es consistentemente el tema de tutorial más solicitado que vemos en X. Aquí tienes la configuración completa.
Por qué importan los agentes locales
Tres razones por las que la gente construye localmente en lugar de llamar a las APIs de GPT-4 o Claude:
- Costo cero. Sin facturación por token. Ejecuta tantas consultas como quieras. Deja tu agente funcionando 24/7 sin vigilar un medidor.
- Privacidad. Tus prompts, documentos y resultados de herramientas nunca salen de tu máquina. Sin sorpresas en los términos de servicio.
- Offline. Funciona en un avión, en una cabaña, detrás de un firewall corporativo. El modelo se ejecuta localmente, y herramientas como SearXNG te dan búsqueda local sin tocar Google.
La limitación siempre ha sido la calidad — los modelos locales solían ser demasiado tontos para trabajo real de agentes. Gemma 4 cambia eso. El modelo 26B maneja cadenas de llamadas a herramientas de 5 pasos sin fallar, lo cual es genuinamente impresionante para un modelo que cabe en una sola GPU.
La configuración en 3 pasos
Paso 1: Descargar Gemma 4 con Ollama
Si aún no tienes Ollama instalado, descárgalo de ollama.com. Luego descarga el modelo recomendado:
ollama pull gemma4:26b-a4b¿Por qué 26B-A4B específicamente? Es un modelo Mixture-of-Experts — solo 4 mil millones de parámetros están activos en cualquier momento, pero extrae de 26 mil millones en total. Esto te da la mejor calidad por parámetro activo de cualquier variante de Gemma 4. En un MacBook M1, usa alrededor de 13GB de RAM y funciona a 20-40 tokens por segundo.
Si quieres entender la línea completa de modelos y elegir el tamaño adecuado para tu hardware, consulta ¿Qué modelo Gemma 4 deberías usar?.
Para los detalles de configuración de Ollama (parámetros personalizados, configuración de GPU, ajustes de ventana de contexto), revisa Cómo ejecutar Gemma 4 con Ollama.
Paso 2: Instalar OpenClaw
OpenClaw es un framework de agentes open-source diseñado para LLMs locales. Maneja las partes difíciles: registro de herramientas, gestión de conversaciones multi-turno e integraciones con servicios como Telegram y SearXNG.
git clone https://github.com/AstraBert/OpenClaw.git
cd OpenClaw
pip install -r requirements.txt
cp .env.example .envEdita el archivo .env para apuntar a tu instancia local de Ollama:
LLM_BASE_URL=http://localhost:11434/v1
LLM_MODEL=gemma4:26b-a4b
LLM_API_KEY=ollama # Ollama no necesita una clave real, pero el campo es obligatorioPaso 3: Conectar herramientas y ejecutar
OpenClaw viene con herramientas integradas que puedes habilitar en la configuración:
tools:
- name: searxng
enabled: true
base_url: http://localhost:8888 # Instancia local de SearXNG
- name: calculator
enabled: true
- name: web_scraper
enabled: true
- name: code_executor
enabled: trueInicia el agente:
python main.pyEso es todo. Ahora tienes un agente de IA local con llamadas multi-herramienta, alimentado por Gemma 4.
Qué te da OpenClaw
OpenClaw no es solo un wrapper alrededor de la API de Ollama. Maneja varias cosas que son tediosas de construir por tu cuenta:
Integración con Telegram. Conecta tu agente como un bot de Telegram. Tus amigos o equipo pueden chatear con él desde sus teléfonos mientras se ejecuta en tu máquina.
Búsqueda local con SearXNG. En lugar de llamar a la API de Google (que cuesta dinero y te rastrea), OpenClaw se conecta a una instancia local de SearXNG. Obtienes búsqueda web sin ninguna llamada a APIs externas.
Llamadas multi-herramienta. El soporte nativo de function calling de Gemma 4 significa que el agente puede encadenar múltiples herramientas en una sola consulta. Pregunta "busca los últimos benchmarks de Gemma 4 y calcula la puntuación promedio" y llamará a búsqueda, luego a calculadora, y te dará la respuesta.
Memoria de conversación. OpenClaw gestiona el historial de conversación y maneja el ciclo tool-call-response automáticamente. No tienes que agregar mensajes manualmente y reenviarlos.
Rendimiento en el mundo real
Lo que la gente realmente reporta en X y GitHub:
| Configuración | Rendimiento |
|---|---|
| MacBook M1 16GB | Modelo 26B, 13GB RAM, 20-40 tok/s |
| RTX 3090 24GB | Modelo 26B, offload completo a GPU, 50+ tok/s |
| MacBook M2 Pro 32GB | Modelo 26B con ventana de contexto de 128K, margen cómodo |
| RTX 4060 8GB | Se recomienda modelo 12B, el 26B no cabe |
Los usuarios reportan que el modelo 26B completa de manera confiable cadenas de 5 pasos de llamadas a herramientas — buscar, parsear, calcular, formatear, responder — sin perder coherencia ni fallar. Esto es un avance significativo respecto a modelos locales anteriores que alucinaban formatos de llamadas a herramientas después de 2-3 pasos.
Problema conocido: Bug del KV Cache
Hay un bug conocido en algunas versiones de llama.cpp (que Ollama usa internamente) que causa problemas con conversaciones multi-turno. El KV cache puede corromperse después de muchas rondas de llamadas a herramientas, produciendo salidas ilegibles o crashes.
Solución alternativa:
# Establece una ventana de contexto más baja para reducir la presión del KV cache
ollama run gemma4:26b-a4b --num-ctx 8192
# O en tu Modelfile de Ollama:
PARAMETER num_ctx 8192Si estás experimentando este problema, mantener la ventana de contexto en 8K-16K en lugar de los 256K completos reduce significativamente la probabilidad de corrupción del KV cache. El equipo de Ollama está rastreando esto y se espera una corrección en próximas versiones.
Para conversaciones largas, también puedes reiniciar periódicamente la conversación o implementar una ventana deslizante en tu código de agente que solo mantenga los últimos N intercambios.
Ejemplos de uso
Bot de Telegram local
La configuración más popular. Ejecuta un bot de Telegram en tu servidor doméstico al que tu familia o equipo pueda enviar mensajes. Busca en la web, responde preguntas, hace cálculos — todo sin costos de API ni datos saliendo de tu red.
TELEGRAM_BOT_TOKEN=your_bot_token_here
TELEGRAM_ALLOWED_USERS=user_id_1,user_id_2Automatización web con Playwright
Combina OpenClaw con Playwright para automatización de navegador. El agente puede navegar sitios web, llenar formularios, extraer datos y tomar capturas de pantalla — todo orquestado por las llamadas a herramientas de Gemma 4.
tools = [
{
"type": "function",
"function": {
"name": "browse_url",
"description": "Open a URL in a headless browser and return the page content",
"parameters": {
"type": "object",
"properties": {
"url": {"type": "string", "description": "URL to visit"},
"action": {"type": "string", "enum": ["read", "screenshot", "click"], "description": "What to do on the page"}
},
"required": ["url"]
}
}
}
]Asistente de código local
Apunta el agente a tu base de código y deja que responda preguntas, encuentre bugs o genere código. Con 256K de contexto, Gemma 4 puede mantener un proyecto mediano completo en contexto.
# Alimenta tus archivos del proyecto como contexto
find ./src -name "*.py" -exec cat {} \; | python openclaw_cli.py \
"Review this code for potential bugs and suggest fixes"Consejos para loops de agente estables
| Consejo | Por qué |
|---|---|
| Usa 26B-A4B, no 12B, para trabajo de agentes | La arquitectura MoE maneja mejor las llamadas a herramientas |
| Mantén el contexto bajo 16K para multi-turno | Evita problemas de KV cache en llama.cpp actual |
Establece max_steps en 10 | Previene loops infinitos de llamadas a herramientas |
| Escribe descripciones detalladas de herramientas | Gemma 4 depende mucho de las descripciones para elegir la herramienta correcta |
| Prueba las herramientas individualmente primero | Asegúrate de que cada herramienta funcione antes de encadenarlas |
Próximos pasos
- ¿Nuevo con Ollama? Comienza con Cómo ejecutar Gemma 4 con Ollama para lo básico
- ¿Quieres entender las llamadas a herramientas primero? Lee Gemma 4 Function Calling para la API subyacente
- ¿Necesitas elegir el tamaño de modelo correcto? Consulta ¿Qué modelo Gemma 4? — el 26B A4B es nuestra recomendación para agentes
Los agentes de IA locales pasaron de ser una novedad a ser genuinamente útiles en 2026. La confiabilidad del function calling de Gemma 4, combinada con el enfoque todo-incluido de OpenClaw, significa que puedes tener un agente de calidad productiva funcionando en tu propio hardware en menos de 10 minutos. Sin claves de API, sin facturas mensuales, sin datos saliendo de tu máquina.
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


