用 Gemma 4 + OpenClaw 三步驟打造本機 AI Agent（零 API 費用）

透過雲端 API 跑 AI Agent 要花錢、會洩漏你的資料，而且斷網就停擺。用 Gemma 4 + Ollama + OpenClaw，你可以在自己的硬體上免費打造一個完全本機的 AI Agent——呼叫工具、私密搜尋網頁、跑 Telegram 機器人，全部搞定。

這是我們在 X 上最常被要求的教學主題。以下是完整的設定方式。

為什麼本機 Agent 很重要

三個人們選擇在本機建置而非呼叫 GPT-4 或 Claude API 的理由：

零費用。 沒有按 token 計費。想跑多少查詢就跑多少。讓你的 Agent 全天候運行而不用盯著帳單。
隱私。 你的提示詞、文件和工具結果永遠不會離開你的機器。沒有服務條款的意外驚喜。
離線。 在飛機上、小木屋裡、企業防火牆後面都能用。模型在本機執行，SearXNG 之類的工具讓你不用碰 Google 就能搜尋。

一直以來的障礙是品質——本機模型以前太笨了，做不了真正的 Agent 工作。Gemma 4 改變了這一切。26B 模型能處理 5 步驟的工具呼叫鏈而不會崩潰，對一個能塞進單張 GPU 的模型來說，這真的令人印象深刻。

三步驟設定

步驟 1：用 Ollama 拉取 Gemma 4

還沒安裝 Ollama 的話，從 ollama.com 下載。然後拉取推薦的模型：

ollama pull gemma4:26b-a4b

為什麼特別選 26B-A4B？這是個混合專家（MoE）模型——任何時候只有 40 億參數在活動，但它從總共 260 億參數中汲取。這給你所有 Gemma 4 變體中最佳的「每活動參數品質」。在 MacBook M1 上，它用大約 13GB 記憶體，推論速度 20-40 tokens/秒。

想了解完整模型陣容並為你的硬體挑選合適的大小，請看該用哪個 Gemma 4 模型？。

Ollama 的詳細設定（自訂參數、GPU 設定、上下文視窗設定），請查看如何用 Ollama 執行 Gemma 4。

步驟 2：安裝 OpenClaw

OpenClaw 是一個專為本機 LLM 設計的開源 Agent 框架。它處理困難的部分：工具註冊、多輪對話管理，以及與 Telegram 和 SearXNG 等服務的整合。

git clone https://github.com/AstraBert/OpenClaw.git
cd OpenClaw
pip install -r requirements.txt
cp .env.example .env

編輯 .env 檔案，指向你本機的 Ollama 實例：

LLM_BASE_URL=http://localhost:11434/v1
LLM_MODEL=gemma4:26b-a4b
LLM_API_KEY=ollama          # Ollama 不需要真的 key，但這個欄位必須填

步驟 3：連接工具並啟動

OpenClaw 附帶內建工具，你可以在設定中啟用：

tools:
  - name: searxng
    enabled: true
    base_url: http://localhost:8888  # 本機 SearXNG 實例
  - name: calculator
    enabled: true
  - name: web_scraper
    enabled: true
  - name: code_executor
    enabled: true

啟動 Agent：

python main.py

搞定。你現在有一個由 Gemma 4 驅動、支援多工具呼叫的本機 AI Agent 了。

OpenClaw 給你什麼

OpenClaw 不只是 Ollama API 的包裝。它處理了幾件自己做會很痛苦的事：

Telegram 整合。 把你的 Agent 接成 Telegram 機器人。你的朋友或團隊可以從手機上跟它聊天，而它跑在你的機器上。

SearXNG 本機搜尋。 不用呼叫 Google API（要錢又被追蹤），OpenClaw 連接到本機的 SearXNG 實例。完全不需要外部 API 呼叫就能搜尋網頁。

多工具呼叫。 Gemma 4 原生的函式呼叫支援，代表 Agent 可以在單一查詢中串接多個工具。問「搜尋最新的 Gemma 4 基準測試並計算平均分數」，它就會呼叫搜尋、然後計算機、然後給你答案。

對話記憶。 OpenClaw 管理對話歷史並自動處理工具呼叫-回應迴圈。你不用手動附加訊息再重新發送。

真實世界效能

大家在 X 和 GitHub 上實際回報的數據：

配置	效能
MacBook M1 16GB	26B 模型、13GB 記憶體、20-40 tok/s
RTX 3090 24GB	26B 模型、完整 GPU 卸載、50+ tok/s
MacBook M2 Pro 32GB	26B 模型搭配 128K 上下文視窗，空間充裕
RTX 4060 8GB	建議改用 12B 模型，26B 放不下

使用者回報 26B 模型能穩定完成 5 步驟工具呼叫鏈——搜尋、解析、計算、格式化、回應——不會失去連貫性或崩潰。這比之前的本機模型進步很大，那些模型在 2-3 步之後就會開始幻覺工具呼叫格式。

已知問題：KV 快取 Bug

llama.cpp（Ollama 底層使用的）某些版本有個已知 bug，會導致多輪對話出問題。經過多輪工具呼叫後，KV 快取可能損壞，導致亂碼輸出或崩潰。

因應方法：

# 設定較低的上下文視窗來減少 KV 快取壓力
ollama run gemma4:26b-a4b --num-ctx 8192

# 或在你的 Ollama Modelfile 中：
PARAMETER num_ctx 8192

如果你遇到這個問題，把上下文視窗控制在 8K-16K 而非完整的 256K，可以大幅降低 KV 快取損壞的機率。Ollama 團隊正在追蹤此問題，預計在後續版本中修復。

對於長對話，你也可以定期重新開始對話，或在 Agent 程式碼中實作一個滑動視窗，只保留最近 N 輪交流。

使用案例

本機 Telegram 機器人

最受歡迎的設定。在你的家用伺服器上跑一個 Telegram 機器人，家人或團隊都能發訊息。它搜尋網頁、回答問題、做計算——完全沒有 API 費用，資料也不會離開你的網路。

TELEGRAM_BOT_TOKEN=your_bot_token_here
TELEGRAM_ALLOWED_USERS=user_id_1,user_id_2

用 Playwright 做網頁自動化

結合 OpenClaw 和 Playwright 做瀏覽器自動化。Agent 可以瀏覽網站、填寫表單、擷取資料、截圖——全由 Gemma 4 的工具呼叫來編排。

tools = [
    {
        "type": "function",
        "function": {
            "name": "browse_url",
            "description": "Open a URL in a headless browser and return the page content",
            "parameters": {
                "type": "object",
                "properties": {
                    "url": {"type": "string", "description": "URL to visit"},
                    "action": {"type": "string", "enum": ["read", "screenshot", "click"], "description": "What to do on the page"}
                },
                "required": ["url"]
            }
        }
    }
]

本機程式碼助手

把 Agent 指向你的程式碼庫，讓它回答問題、找 bug 或產生程式碼。有了 256K 上下文，Gemma 4 可以把整個中型專案放進上下文裡。

# 把專案檔案當作上下文輸入
find ./src -name "*.py" -exec cat {} \; | python openclaw_cli.py \
  "Review this code for potential bugs and suggest fixes"

穩定 Agent 迴圈的技巧

技巧	原因
Agent 工作用 26B-A4B，不要用 12B	MoE 架構處理工具呼叫更好
多輪對話時保持上下文在 16K 以下	避開目前 llama.cpp 的 KV 快取問題
把 `max_steps` 設為 10	防止無限工具呼叫迴圈
寫詳細的工具描述	Gemma 4 非常依賴描述來選擇正確的工具
先個別測試每個工具	確保每個工具正常運作後再串接