Bangun AI Agent Lokal dengan Gemma 4 + OpenClaw dalam 3 Langkah (Tanpa Biaya API)

Menjalankan AI agent lewat API cloud menghabiskan uang, membocorkan data, dan berhenti bekerja saat internet mati. Dengan Gemma 4 + Ollama + OpenClaw, Anda bisa membangun AI agent yang sepenuhnya lokal — memanggil tools, mencari web secara privat, dan menjalankan bot Telegram — semua di hardware Anda sendiri, gratis.

Ini adalah topik tutorial yang paling banyak diminta di X. Berikut setup lengkapnya.

Mengapa Agent Lokal Penting

Tiga alasan orang membangun secara lokal alih-alih memanggil API GPT-4 atau Claude:

Tanpa biaya. Tidak ada tagihan per token. Jalankan sebanyak mungkin query. Biarkan agent Anda berjalan 24/7 tanpa memperhatikan meter.
Privasi. Prompt, dokumen, dan hasil tool Anda tidak pernah meninggalkan mesin Anda. Tidak ada kejutan terms-of-service.
Offline. Bekerja di pesawat, di kabin, di balik firewall perusahaan. Model berjalan secara lokal, dan tools seperti SearXNG memberi Anda pencarian lokal tanpa menghubungi Google.

Kendalanya selalu kualitas — model lokal dulu terlalu bodoh untuk pekerjaan agent yang serius. Gemma 4 mengubah itu. Model 26B menangani rantai tool calling 5 langkah tanpa crash, yang benar-benar mengesankan untuk model yang muat di satu GPU.

Setup 3 Langkah

Langkah 1: Pull Gemma 4 dengan Ollama

Kalau belum punya Ollama, ambil dari ollama.com. Lalu pull model yang direkomendasikan:

ollama pull gemma4:26b-a4b

Mengapa 26B-A4B? Ini adalah model Mixture-of-Experts — hanya 4 miliar parameter yang aktif setiap saat, tapi mengambil dari total 26 miliar. Ini memberikan kualitas terbaik per parameter aktif dari semua varian Gemma 4. Di MacBook M1, menggunakan sekitar 13GB RAM dan berjalan di 20-40 token per detik.

Untuk memahami lineup model lengkap dan memilih ukuran yang tepat untuk hardware Anda, lihat Gemma 4 Model Mana yang Harus Dipakai?.

Untuk detail setup Ollama (parameter kustom, konfigurasi GPU, pengaturan context window), cek Cara Menjalankan Gemma 4 dengan Ollama.

Langkah 2: Instal OpenClaw

OpenClaw adalah framework agent open-source yang dirancang untuk LLM lokal. Framework ini menangani bagian-bagian sulit: registrasi tool, manajemen percakapan multi-turn, dan integrasi dengan layanan seperti Telegram dan SearXNG.

git clone https://github.com/AstraBert/OpenClaw.git
cd OpenClaw
pip install -r requirements.txt
cp .env.example .env

Edit file .env untuk mengarahkan ke instance Ollama lokal Anda:

LLM_BASE_URL=http://localhost:11434/v1
LLM_MODEL=gemma4:26b-a4b
LLM_API_KEY=ollama          # Ollama tidak butuh key asli, tapi field ini wajib ada

Langkah 3: Hubungkan Tools dan Jalankan

OpenClaw dilengkapi tools bawaan yang bisa Anda aktifkan di konfigurasi:

tools:
  - name: searxng
    enabled: true
    base_url: http://localhost:8888  # Instance SearXNG lokal
  - name: calculator
    enabled: true
  - name: web_scraper
    enabled: true
  - name: code_executor
    enabled: true

Jalankan agent:

python main.py

Selesai. Anda sekarang punya AI agent lokal dengan multi-tool calling, ditenagai oleh Gemma 4.

Apa yang Diberikan OpenClaw

OpenClaw bukan sekadar wrapper di atas API Ollama. Framework ini menangani beberapa hal yang menyusahkan kalau dibangun sendiri:

Integrasi Telegram. Hubungkan agent Anda sebagai bot Telegram. Teman atau tim Anda bisa chat dengannya dari ponsel mereka sementara agent berjalan di mesin Anda.

Pencarian lokal SearXNG. Alih-alih memanggil API Google (yang berbayar dan melacak Anda), OpenClaw terhubung ke instance SearXNG lokal. Anda mendapat pencarian web tanpa panggilan API eksternal sama sekali.

Multi-tool calling. Dukungan function calling native Gemma 4 berarti agent bisa merangkai beberapa tools dalam satu query. Tanya "cari benchmark Gemma 4 terbaru dan hitung skor rata-ratanya" dan agent akan memanggil search, lalu calculator, lalu memberikan jawabannya.

Memori percakapan. OpenClaw mengelola riwayat percakapan dan menangani loop tool-call-response secara otomatis. Anda tidak perlu menambahkan pesan secara manual dan mengirim ulang.

Performa Dunia Nyata

Yang sebenarnya dilaporkan orang di X dan GitHub:

Setup	Performa
MacBook M1 16GB	Model 26B, 13GB RAM, 20-40 tok/s
RTX 3090 24GB	Model 26B, full GPU offload, 50+ tok/s
MacBook M2 Pro 32GB	Model 26B dengan 128K context window, headroom nyaman
RTX 4060 8GB	Disarankan model 12B, 26B tidak muat

Pengguna melaporkan model 26B secara andal menyelesaikan rantai tool calling 5 langkah — search, parse, calculate, format, respond — tanpa kehilangan koherensi atau crash. Ini peningkatan signifikan dari model lokal sebelumnya yang sering berhalusinasi format tool call setelah 2-3 langkah.

Masalah Diketahui: Bug KV Cache

Ada bug yang diketahui di beberapa versi llama.cpp (yang digunakan Ollama di balik layar) yang menyebabkan masalah dengan percakapan multi-turn. KV cache bisa corrupt setelah banyak round tool call, mengakibatkan output kacau atau crash.

Solusi:

# Set context window lebih rendah untuk mengurangi tekanan KV cache
ollama run gemma4:26b-a4b --num-ctx 8192

# Atau di Ollama Modelfile Anda:
PARAMETER num_ctx 8192

Kalau Anda mengalami masalah ini, menjaga context window di 8K-16K alih-alih 256K penuh secara signifikan mengurangi kemungkinan korupsi KV cache. Tim Ollama sedang melacak ini dan perbaikan diharapkan di rilis mendatang.

Untuk percakapan panjang, Anda juga bisa secara berkala me-restart percakapan atau mengimplementasikan sliding window di kode agent yang hanya menyimpan N pertukaran terakhir.

Contoh Kasus Penggunaan

Bot Telegram Lokal

Setup paling populer. Jalankan bot Telegram di home server Anda yang bisa dikirim pesan oleh keluarga atau tim. Bot ini mencari web, menjawab pertanyaan, melakukan kalkulasi — semua tanpa biaya API atau data meninggalkan jaringan Anda.

TELEGRAM_BOT_TOKEN=your_bot_token_here
TELEGRAM_ALLOWED_USERS=user_id_1,user_id_2

Otomasi Web dengan Playwright

Gabungkan OpenClaw dengan Playwright untuk otomasi browser. Agent bisa menavigasi website, mengisi form, mengekstrak data, dan mengambil screenshot — semua diorchestrasi oleh tool calling Gemma 4.

tools = [
    {
        "type": "function",
        "function": {
            "name": "browse_url",
            "description": "Open a URL in a headless browser and return the page content",
            "parameters": {
                "type": "object",
                "properties": {
                    "url": {"type": "string", "description": "URL to visit"},
                    "action": {"type": "string", "enum": ["read", "screenshot", "click"], "description": "What to do on the page"}
                },
                "required": ["url"]
            }
        }
    }
]

Asisten Kode Lokal

Arahkan agent ke codebase Anda dan biarkan ia menjawab pertanyaan, menemukan bug, atau menghasilkan kode. Dengan konteks 256K, Gemma 4 bisa menampung seluruh proyek berukuran sedang dalam konteks.

# Masukkan file proyek sebagai konteks
find ./src -name "*.py" -exec cat {} \; | python openclaw_cli.py \
  "Review this code for potential bugs and suggest fixes"

Tips untuk Loop Agent yang Stabil

Tips	Alasan
Gunakan 26B-A4B, bukan 12B, untuk pekerjaan agent	Arsitektur MoE menangani tool calling lebih baik
Jaga konteks di bawah 16K untuk multi-turn	Menghindari masalah KV cache di llama.cpp saat ini
Set `max_steps` ke 10	Mencegah loop tool calling tak terbatas
Tulis deskripsi tool yang detail	Gemma 4 sangat bergantung pada deskripsi untuk memilih tool yang tepat
Tes tools secara individual dulu	Pastikan setiap tool bekerja sebelum merangkainya

Langkah Selanjutnya

Baru mengenal Ollama? Mulai dengan Cara Menjalankan Gemma 4 dengan Ollama untuk dasar-dasarnya
Ingin memahami tool calling dulu? Baca Gemma 4 Function Calling untuk API yang mendasarinya
Perlu memilih ukuran model yang tepat? Lihat Gemma 4 Model Mana? — 26B A4B adalah rekomendasi kami untuk agent

AI agent lokal berubah dari sekadar kebaruan menjadi benar-benar berguna di 2026. Keandalan function calling Gemma 4, dikombinasikan dengan pendekatan batteries-included OpenClaw, berarti Anda bisa menjalankan agent berkualitas produksi di hardware Anda sendiri dalam waktu kurang dari 10 menit. Tanpa API key, tanpa tagihan bulanan, tanpa data meninggalkan mesin Anda.

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />