Construye un agente de IA local con Gemma 4 + OpenClaw en 3 pasos (sin costos de API)

Ejecutar agentes de IA a través de APIs en la nube cuesta dinero, filtra tus datos y deja de funcionar cuando pierdes internet. Con Gemma 4 + Ollama + OpenClaw, puedes construir un agente de IA completamente local que llama herramientas, busca en la web de forma privada y ejecuta un bot de Telegram — todo en tu propio hardware, gratis.

Este es consistentemente el tema de tutorial más solicitado que vemos en X. Aquí tienes la configuración completa.

Por qué importan los agentes locales

Tres razones por las que la gente construye localmente en lugar de llamar a las APIs de GPT-4 o Claude:

Costo cero. Sin facturación por token. Ejecuta tantas consultas como quieras. Deja tu agente funcionando 24/7 sin vigilar un medidor.
Privacidad. Tus prompts, documentos y resultados de herramientas nunca salen de tu máquina. Sin sorpresas en los términos de servicio.
Offline. Funciona en un avión, en una cabaña, detrás de un firewall corporativo. El modelo se ejecuta localmente, y herramientas como SearXNG te dan búsqueda local sin tocar Google.

La limitación siempre ha sido la calidad — los modelos locales solían ser demasiado tontos para trabajo real de agentes. Gemma 4 cambia eso. El modelo 26B maneja cadenas de llamadas a herramientas de 5 pasos sin fallar, lo cual es genuinamente impresionante para un modelo que cabe en una sola GPU.

La configuración en 3 pasos

Paso 1: Descargar Gemma 4 con Ollama

Si aún no tienes Ollama instalado, descárgalo de ollama.com. Luego descarga el modelo recomendado:

ollama pull gemma4:26b-a4b

¿Por qué 26B-A4B específicamente? Es un modelo Mixture-of-Experts — solo 4 mil millones de parámetros están activos en cualquier momento, pero extrae de 26 mil millones en total. Esto te da la mejor calidad por parámetro activo de cualquier variante de Gemma 4. En un MacBook M1, usa alrededor de 13GB de RAM y funciona a 20-40 tokens por segundo.

Si quieres entender la línea completa de modelos y elegir el tamaño adecuado para tu hardware, consulta ¿Qué modelo Gemma 4 deberías usar?.

Para los detalles de configuración de Ollama (parámetros personalizados, configuración de GPU, ajustes de ventana de contexto), revisa Cómo ejecutar Gemma 4 con Ollama.

Paso 2: Instalar OpenClaw

OpenClaw es un framework de agentes open-source diseñado para LLMs locales. Maneja las partes difíciles: registro de herramientas, gestión de conversaciones multi-turno e integraciones con servicios como Telegram y SearXNG.

git clone https://github.com/AstraBert/OpenClaw.git
cd OpenClaw
pip install -r requirements.txt
cp .env.example .env

Edita el archivo .env para apuntar a tu instancia local de Ollama:

LLM_BASE_URL=http://localhost:11434/v1
LLM_MODEL=gemma4:26b-a4b
LLM_API_KEY=ollama          # Ollama no necesita una clave real, pero el campo es obligatorio

Paso 3: Conectar herramientas y ejecutar

OpenClaw viene con herramientas integradas que puedes habilitar en la configuración:

tools:
  - name: searxng
    enabled: true
    base_url: http://localhost:8888  # Instancia local de SearXNG
  - name: calculator
    enabled: true
  - name: web_scraper
    enabled: true
  - name: code_executor
    enabled: true

Inicia el agente:

python main.py

Eso es todo. Ahora tienes un agente de IA local con llamadas multi-herramienta, alimentado por Gemma 4.

Qué te da OpenClaw

OpenClaw no es solo un wrapper alrededor de la API de Ollama. Maneja varias cosas que son tediosas de construir por tu cuenta:

Integración con Telegram. Conecta tu agente como un bot de Telegram. Tus amigos o equipo pueden chatear con él desde sus teléfonos mientras se ejecuta en tu máquina.

Búsqueda local con SearXNG. En lugar de llamar a la API de Google (que cuesta dinero y te rastrea), OpenClaw se conecta a una instancia local de SearXNG. Obtienes búsqueda web sin ninguna llamada a APIs externas.

Llamadas multi-herramienta. El soporte nativo de function calling de Gemma 4 significa que el agente puede encadenar múltiples herramientas en una sola consulta. Pregunta "busca los últimos benchmarks de Gemma 4 y calcula la puntuación promedio" y llamará a búsqueda, luego a calculadora, y te dará la respuesta.

Memoria de conversación. OpenClaw gestiona el historial de conversación y maneja el ciclo tool-call-response automáticamente. No tienes que agregar mensajes manualmente y reenviarlos.

Rendimiento en el mundo real

Lo que la gente realmente reporta en X y GitHub:

Configuración	Rendimiento
MacBook M1 16GB	Modelo 26B, 13GB RAM, 20-40 tok/s
RTX 3090 24GB	Modelo 26B, offload completo a GPU, 50+ tok/s
MacBook M2 Pro 32GB	Modelo 26B con ventana de contexto de 128K, margen cómodo
RTX 4060 8GB	Se recomienda modelo 12B, el 26B no cabe

Los usuarios reportan que el modelo 26B completa de manera confiable cadenas de 5 pasos de llamadas a herramientas — buscar, parsear, calcular, formatear, responder — sin perder coherencia ni fallar. Esto es un avance significativo respecto a modelos locales anteriores que alucinaban formatos de llamadas a herramientas después de 2-3 pasos.

Problema conocido: Bug del KV Cache

Hay un bug conocido en algunas versiones de llama.cpp (que Ollama usa internamente) que causa problemas con conversaciones multi-turno. El KV cache puede corromperse después de muchas rondas de llamadas a herramientas, produciendo salidas ilegibles o crashes.

Solución alternativa:

# Establece una ventana de contexto más baja para reducir la presión del KV cache
ollama run gemma4:26b-a4b --num-ctx 8192

# O en tu Modelfile de Ollama:
PARAMETER num_ctx 8192

Si estás experimentando este problema, mantener la ventana de contexto en 8K-16K en lugar de los 256K completos reduce significativamente la probabilidad de corrupción del KV cache. El equipo de Ollama está rastreando esto y se espera una corrección en próximas versiones.

Para conversaciones largas, también puedes reiniciar periódicamente la conversación o implementar una ventana deslizante en tu código de agente que solo mantenga los últimos N intercambios.

Ejemplos de uso

Bot de Telegram local

La configuración más popular. Ejecuta un bot de Telegram en tu servidor doméstico al que tu familia o equipo pueda enviar mensajes. Busca en la web, responde preguntas, hace cálculos — todo sin costos de API ni datos saliendo de tu red.

TELEGRAM_BOT_TOKEN=your_bot_token_here
TELEGRAM_ALLOWED_USERS=user_id_1,user_id_2

Automatización web con Playwright

Combina OpenClaw con Playwright para automatización de navegador. El agente puede navegar sitios web, llenar formularios, extraer datos y tomar capturas de pantalla — todo orquestado por las llamadas a herramientas de Gemma 4.

tools = [
    {
        "type": "function",
        "function": {
            "name": "browse_url",
            "description": "Open a URL in a headless browser and return the page content",
            "parameters": {
                "type": "object",
                "properties": {
                    "url": {"type": "string", "description": "URL to visit"},
                    "action": {"type": "string", "enum": ["read", "screenshot", "click"], "description": "What to do on the page"}
                },
                "required": ["url"]
            }
        }
    }
]

Asistente de código local

Apunta el agente a tu base de código y deja que responda preguntas, encuentre bugs o genere código. Con 256K de contexto, Gemma 4 puede mantener un proyecto mediano completo en contexto.

# Alimenta tus archivos del proyecto como contexto
find ./src -name "*.py" -exec cat {} \; | python openclaw_cli.py \
  "Review this code for potential bugs and suggest fixes"

Consejos para loops de agente estables

Consejo	Por qué
Usa 26B-A4B, no 12B, para trabajo de agentes	La arquitectura MoE maneja mejor las llamadas a herramientas
Mantén el contexto bajo 16K para multi-turno	Evita problemas de KV cache en llama.cpp actual
Establece `max_steps` en 10	Previene loops infinitos de llamadas a herramientas
Escribe descripciones detalladas de herramientas	Gemma 4 depende mucho de las descripciones para elegir la herramienta correcta
Prueba las herramientas individualmente primero	Asegúrate de que cada herramienta funcione antes de encadenarlas

Próximos pasos

¿Nuevo con Ollama? Comienza con Cómo ejecutar Gemma 4 con Ollama para lo básico
¿Quieres entender las llamadas a herramientas primero? Lee Gemma 4 Function Calling para la API subyacente
¿Necesitas elegir el tamaño de modelo correcto? Consulta ¿Qué modelo Gemma 4? — el 26B A4B es nuestra recomendación para agentes

Los agentes de IA locales pasaron de ser una novedad a ser genuinamente útiles en 2026. La confiabilidad del function calling de Gemma 4, combinada con el enfoque todo-incluido de OpenClaw, significa que puedes tener un agente de calidad productiva funcionando en tu propio hardware en menos de 10 minutos. Sin claves de API, sin facturas mensuales, sin datos saliendo de tu máquina.

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />