Construire un agent IA local avec Gemma 4 + OpenClaw en 3 étapes (sans frais d'API)

Faire tourner des agents IA via des APIs cloud coûte de l'argent, laisse fuiter vos données et cesse de fonctionner quand vous perdez internet. Avec Gemma 4 + Ollama + OpenClaw, vous pouvez construire un agent IA entièrement local qui appelle des outils, cherche sur le web de manière privée et fait tourner un bot Telegram — le tout sur votre propre matériel, gratuitement.

C'est systématiquement le sujet de tutoriel le plus demandé que nous voyons sur X. Voici la configuration complète.

Pourquoi les agents locaux comptent

Trois raisons pour lesquelles les gens construisent en local plutôt que d'appeler les APIs GPT-4 ou Claude :

Zéro coût. Pas de facturation par token. Exécutez autant de requêtes que vous voulez. Laissez votre agent tourner 24h/24 sans surveiller un compteur.
Confidentialité. Vos prompts, documents et résultats d'outils ne quittent jamais votre machine. Pas de surprises dans les conditions d'utilisation.
Hors ligne. Fonctionne dans un avion, dans un chalet, derrière un pare-feu d'entreprise. Le modèle tourne en local, et des outils comme SearXNG vous donnent la recherche locale sans passer par Google.

Le frein a toujours été la qualité — les modèles locaux étaient trop limités pour du vrai travail d'agent. Gemma 4 change la donne. Le modèle 26B gère des chaînes d'appels d'outils en 5 étapes sans planter, ce qui est véritablement impressionnant pour un modèle qui tient sur un seul GPU.

La configuration en 3 étapes

Étape 1 : Télécharger Gemma 4 avec Ollama

Si vous n'avez pas encore Ollama, récupérez-le sur ollama.com. Puis téléchargez le modèle recommandé :

ollama pull gemma4:26b-a4b

Pourquoi 26B-A4B précisément ? C'est un modèle Mixture-of-Experts — seuls 4 milliards de paramètres sont actifs à tout moment, mais il puise dans un total de 26 milliards. Cela vous donne la meilleure qualité par paramètre actif de toutes les variantes Gemma 4. Sur un MacBook M1, il utilise environ 13 Go de RAM et tourne à 20-40 tokens par seconde.

Pour comprendre la gamme complète de modèles et choisir la bonne taille pour votre matériel, consultez Quel modèle Gemma 4 utiliser ?.

Pour les détails de configuration Ollama (paramètres personnalisés, configuration GPU, réglages de fenêtre de contexte), consultez Comment exécuter Gemma 4 avec Ollama.

Étape 2 : Installer OpenClaw

OpenClaw est un framework d'agents open-source conçu pour les LLM locaux. Il gère les parties compliquées : enregistrement des outils, gestion des conversations multi-tours, et intégrations avec des services comme Telegram et SearXNG.

git clone https://github.com/AstraBert/OpenClaw.git
cd OpenClaw
pip install -r requirements.txt
cp .env.example .env

Éditez le fichier .env pour pointer vers votre instance Ollama locale :

LLM_BASE_URL=http://localhost:11434/v1
LLM_MODEL=gemma4:26b-a4b
LLM_API_KEY=ollama          # Ollama n'a pas besoin d'une vraie clé, mais le champ est obligatoire

Étape 3 : Connecter les outils et lancer

OpenClaw est livré avec des outils intégrés que vous pouvez activer dans la configuration :

tools:
  - name: searxng
    enabled: true
    base_url: http://localhost:8888  # Instance SearXNG locale
  - name: calculator
    enabled: true
  - name: web_scraper
    enabled: true
  - name: code_executor
    enabled: true

Lancez l'agent :

python main.py

C'est tout. Vous avez maintenant un agent IA local avec appels multi-outils, propulsé par Gemma 4.

Ce qu'OpenClaw vous apporte

OpenClaw n'est pas qu'un simple wrapper autour de l'API Ollama. Il gère plusieurs choses pénibles à construire soi-même :

Intégration Telegram. Connectez votre agent comme bot Telegram. Vos amis ou votre équipe peuvent discuter avec depuis leurs téléphones pendant qu'il tourne sur votre machine.

Recherche locale SearXNG. Au lieu d'appeler l'API Google (qui coûte de l'argent et vous piste), OpenClaw se connecte à une instance SearXNG locale. Vous obtenez la recherche web sans aucun appel à des APIs externes.

Appels multi-outils. Le support natif de function calling de Gemma 4 signifie que l'agent peut chaîner plusieurs outils en une seule requête. Demandez "cherche les derniers benchmarks Gemma 4 et calcule le score moyen" et il appellera la recherche, puis la calculatrice, puis vous donnera la réponse.

Mémoire de conversation. OpenClaw gère l'historique de conversation et le cycle appel-outil-réponse automatiquement. Vous n'avez pas à ajouter manuellement des messages et les renvoyer.

Performances réelles

Ce que les gens rapportent réellement sur X et GitHub :

Configuration	Performance
MacBook M1 16 Go	Modèle 26B, 13 Go RAM, 20-40 tok/s
RTX 3090 24 Go	Modèle 26B, offload GPU complet, 50+ tok/s
MacBook M2 Pro 32 Go	Modèle 26B avec fenêtre de contexte 128K, marge confortable
RTX 4060 8 Go	Modèle 12B recommandé, le 26B ne rentre pas

Les utilisateurs rapportent que le modèle 26B complète de manière fiable des chaînes d'appels d'outils en 5 étapes — chercher, parser, calculer, formater, répondre — sans perdre la cohérence ni planter. C'est une avancée significative par rapport aux anciens modèles locaux qui hallucinaient les formats d'appels d'outils après 2-3 étapes.

Problème connu : Bug du KV Cache

Il existe un bug connu dans certaines versions de llama.cpp (qu'Ollama utilise en interne) qui cause des problèmes avec les conversations multi-tours. Le KV cache peut se corrompre après de nombreuses séries d'appels d'outils, entraînant des sorties illisibles ou des plantages.

Solution de contournement :

# Définir une fenêtre de contexte plus basse pour réduire la pression sur le KV cache
ollama run gemma4:26b-a4b --num-ctx 8192

# Ou dans votre Modelfile Ollama :
PARAMETER num_ctx 8192

Si vous rencontrez ce problème, maintenir la fenêtre de contexte à 8K-16K au lieu des 256K complets réduit considérablement le risque de corruption du KV cache. L'équipe Ollama suit le problème et un correctif est attendu dans les prochaines versions.

Pour les longues conversations, vous pouvez aussi redémarrer périodiquement la conversation ou implémenter une fenêtre glissante dans votre code d'agent qui ne conserve que les N derniers échanges.

Exemples d'utilisation

Bot Telegram local

La configuration la plus populaire. Faites tourner un bot Telegram sur votre serveur domestique que votre famille ou équipe peut contacter. Il cherche sur le web, répond aux questions, fait des calculs — le tout sans frais d'API ni données quittant votre réseau.

TELEGRAM_BOT_TOKEN=your_bot_token_here
TELEGRAM_ALLOWED_USERS=user_id_1,user_id_2

Automatisation web avec Playwright

Combinez OpenClaw avec Playwright pour l'automatisation de navigateur. L'agent peut naviguer sur des sites web, remplir des formulaires, extraire des données et prendre des captures d'écran — le tout orchestré par les appels d'outils de Gemma 4.

tools = [
    {
        "type": "function",
        "function": {
            "name": "browse_url",
            "description": "Open a URL in a headless browser and return the page content",
            "parameters": {
                "type": "object",
                "properties": {
                    "url": {"type": "string", "description": "URL to visit"},
                    "action": {"type": "string", "enum": ["read", "screenshot", "click"], "description": "What to do on the page"}
                },
                "required": ["url"]
            }
        }
    }
]

Assistant de code local

Pointez l'agent vers votre base de code et laissez-le répondre aux questions, trouver des bugs ou générer du code. Avec 256K de contexte, Gemma 4 peut tenir un projet de taille moyenne entier en contexte.

# Fournir vos fichiers projet comme contexte
find ./src -name "*.py" -exec cat {} \; | python openclaw_cli.py \
  "Review this code for potential bugs and suggest fixes"

Conseils pour des boucles d'agent stables

Conseil	Pourquoi
Utilisez 26B-A4B, pas 12B, pour le travail d'agent	L'architecture MoE gère mieux les appels d'outils
Gardez le contexte sous 16K pour le multi-tour	Évite les problèmes de KV cache dans llama.cpp actuel
Réglez `max_steps` à 10	Empêche les boucles infinies d'appels d'outils
Rédigez des descriptions d'outils détaillées	Gemma 4 s'appuie fortement sur les descriptions pour choisir le bon outil
Testez les outils individuellement d'abord	Assurez-vous que chaque outil fonctionne avant de les chaîner

Prochaines étapes

Nouveau avec Ollama ? Commencez par Comment exécuter Gemma 4 avec Ollama pour les bases
Vous voulez d'abord comprendre les appels d'outils ? Lisez Gemma 4 Function Calling pour l'API sous-jacente
Besoin de choisir la bonne taille de modèle ? Consultez Quel modèle Gemma 4 ? — le 26B A4B est notre recommandation pour les agents

Les agents IA locaux sont passés d'une curiosité à quelque chose de véritablement utile en 2026. La fiabilité du function calling de Gemma 4, combinée à l'approche tout-en-un d'OpenClaw, signifie que vous pouvez avoir un agent de qualité production tournant sur votre propre matériel en moins de 10 minutes. Pas de clés API, pas de factures mensuelles, pas de données quittant votre machine.

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />