Gemma 4 + OpenClawで3ステップでローカルAIエージェントを構築（APIコストゼロ）

クラウドAPIでAIエージェントを動かすと、お金がかかり、データが漏洩し、インターネットが切れると止まります。Gemma 4 + Ollama + OpenClawなら、ツールを呼び出し、プライベートにウェブ検索し、Telegramボットを動かす完全ローカルなAIエージェントを、自分のハードウェアで無料で構築できます。

これはXで最もリクエストの多いチュートリアルです。完全なセットアップ方法をご紹介します。

ローカルエージェントが重要な理由

GPT-4やClaude APIを呼ぶ代わりにローカルで構築する3つの理由：

コストゼロ。 トークン単位の課金なし。好きなだけクエリを実行。メーターを気にせず24時間365日エージェントを稼働。
プライバシー。 プロンプト、ドキュメント、ツールの結果が一切マシンの外に出ません。利用規約の罠もなし。
オフライン。 飛行機の中、山小屋、企業ファイアウォールの内側でも動作。モデルはローカルで動き、SearXNGのようなツールでGoogleを叩かずにローカル検索も可能。

これまでの課題は品質でした — ローカルモデルは本格的なエージェント作業には力不足でした。Gemma 4がそれを変えます。26Bモデルは5ステップのツール呼び出しチェーンをクラッシュせずに処理でき、単一GPUに収まるモデルとしては本当に印象的です。

3ステップセットアップ

ステップ1：OllamaでGemma 4をプル

Ollamaがまだインストールされていなければ、ollama.comから入手してください。そして推奨モデルをプル：

ollama pull gemma4:26b-a4b

なぜ26B-A4Bなのか？これはMixture-of-Expertsモデルで、一度にアクティブになるのは40億パラメータだけですが、合計260億から引き出します。Gemma 4の全バリアントの中で、アクティブパラメータあたりの品質が最も高くなります。MacBook M1で約13GBのメモリを使用し、20〜40トークン/秒で動作します。

フルモデルラインナップとハードウェアに合ったサイズの選び方はGemma 4モデルの選び方をご覧ください。

Ollamaのセットアップ詳細（カスタムパラメータ、GPU設定、コンテキストウィンドウ設定）はOllamaでGemma 4を動かす方法をチェック。

ステップ2：OpenClawをインストール

OpenClawはローカルLLM向けに設計されたオープンソースのエージェントフレームワークです。ツール登録、マルチターン会話管理、TelegramやSearXNGとの連携など、面倒な部分を処理します。

git clone https://github.com/AstraBert/OpenClaw.git
cd OpenClaw
pip install -r requirements.txt
cp .env.example .env

.envファイルを編集してローカルのOllamaインスタンスを指定：

LLM_BASE_URL=http://localhost:11434/v1
LLM_MODEL=gemma4:26b-a4b
LLM_API_KEY=ollama          # Ollamaは本物のキーは不要ですが、フィールドは必須です

ステップ3：ツールを接続して実行

OpenClawには設定で有効化できるビルトインツールが付属：

tools:
  - name: searxng
    enabled: true
    base_url: http://localhost:8888  # ローカルのSearXNGインスタンス
  - name: calculator
    enabled: true
  - name: web_scraper
    enabled: true
  - name: code_executor
    enabled: true

エージェントを起動：

python main.py

以上です。Gemma 4搭載のマルチツール呼び出し対応ローカルAIエージェントの完成です。

OpenClawが提供するもの

OpenClawはOllama APIの単なるラッパーではありません。自分で作ると面倒ないくつかの機能を処理します：

Telegram連携。 エージェントをTelegramボットとして接続。あなたのマシンで動かしながら、友達やチームがスマートフォンからチャットできます。

SearXNGローカル検索。 Google APIを叩く（有料でトラッキングされる）代わりに、OpenClawはローカルのSearXNGインスタンスに接続。外部API呼び出しなしでウェブ検索ができます。

マルチツール呼び出し。 Gemma 4のネイティブ関数呼び出しサポートにより、エージェントは単一のクエリで複数のツールをチェーンできます。「最新のGemma 4ベンチマークを検索して平均スコアを計算して」と聞けば、検索を呼び出し、次に電卓を呼び出し、答えを返します。

会話メモリ。 OpenClawが会話履歴を管理し、ツール呼び出し-応答ループを自動処理。手動でメッセージを追加して再送信する必要はありません。

実際のパフォーマンス

XやGitHubで実際にレポートされている内容：

構成	パフォーマンス
MacBook M1 16GB	26Bモデル、13GB RAM、20-40 tok/s
RTX 3090 24GB	26Bモデル、フルGPUオフロード、50+ tok/s
MacBook M2 Pro 32GB	26Bモデル、128Kコンテキストウィンドウ、余裕あり
RTX 4060 8GB	12Bモデル推奨、26Bは収まらない

ユーザーの報告では、26Bモデルは5ステップのツール呼び出しチェーン — 検索、解析、計算、フォーマット、応答 — を一貫性を失わずクラッシュせずに確実にこなします。2〜3ステップ後にツール呼び出し形式を幻覚する以前のローカルモデルからの大きな進歩です。

既知の問題：KVキャッシュバグ

llama.cpp（Ollamaが内部で使用）の一部バージョンに、マルチターン会話で問題を引き起こす既知のバグがあります。多くのツール呼び出しラウンド後にKVキャッシュが破損し、文字化けやクラッシュにつながることがあります。

回避策：

# KVキャッシュの負荷を軽減するため、低めのコンテキストウィンドウを設定
ollama run gemma4:26b-a4b --num-ctx 8192

# またはOllamaのModelfileで：
PARAMETER num_ctx 8192

この問題が発生している場合、コンテキストウィンドウを完全な256Kではなく8K〜16Kに保つことで、KVキャッシュの破損確率が大幅に減少します。Ollamaチームがこれを追跡しており、今後のリリースで修正が予定されています。

長い会話の場合、会話を定期的にリスタートするか、直近のN回のやり取りのみを保持するスライディングウィンドウをエージェントコードに実装することもできます。

使用例

ローカルTelegramボット

最も人気のあるセットアップ。自宅サーバーでTelegramボットを動かし、家族やチームがメッセージを送れるようにします。ウェブ検索、質問への回答、計算 — すべてAPIコストもデータ漏洩もなし。

TELEGRAM_BOT_TOKEN=your_bot_token_here
TELEGRAM_ALLOWED_USERS=user_id_1,user_id_2

PlaywrightによるWeb自動化

OpenClawとPlaywrightを組み合わせてブラウザ自動化。エージェントがウェブサイトを操作し、フォームに入力し、データを抽出し、スクリーンショットを撮影 — すべてGemma 4のツール呼び出しで制御。

tools = [
    {
        "type": "function",
        "function": {
            "name": "browse_url",
            "description": "Open a URL in a headless browser and return the page content",
            "parameters": {
                "type": "object",
                "properties": {
                    "url": {"type": "string", "description": "URL to visit"},
                    "action": {"type": "string", "enum": ["read", "screenshot", "click"], "description": "What to do on the page"}
                },
                "required": ["url"]
            }
        }
    }
]

ローカルコードアシスタント

エージェントをコードベースに向けて、質問に答えたり、バグを見つけたり、コードを生成させます。256Kコンテキストがあれば、Gemma 4は中規模プロジェクト全体をコンテキストに保持できます。

# プロジェクトファイルをコンテキストとして投入
find ./src -name "*.py" -exec cat {} \; | python openclaw_cli.py \
  "Review this code for potential bugs and suggest fixes"

安定したエージェントループのためのヒント

ヒント	理由
エージェント作業には12Bではなく26B-A4Bを使用	MoEアーキテクチャがツール呼び出しをより適切に処理
マルチターンではコンテキストを16K以下に	現在のllama.cppのKVキャッシュ問題を回避
`max_steps`を10に設定	無限ツール呼び出しループを防止
詳細なツール説明を記述	Gemma 4は適切なツール選択に説明文を大きく依存
先にツールを個別テスト	チェーンする前に各ツールが動作することを確認

次のステップ

Ollamaが初めて？ OllamaでGemma 4を動かす方法で基本を学ぶ
先にツール呼び出しを理解したい？ Gemma 4関数呼び出しでAPIの仕組みを確認
適切なモデルサイズを選びたい？ Gemma 4モデルの選び方 — エージェントには26B A4Bを推奨

ローカルAIエージェントは2026年に目新しさから本当に便利なものへと進化しました。Gemma 4の関数呼び出しの信頼性とOpenClawのバッテリー込みアプローチにより、自分のハードウェアで本番品質のエージェントを10分以内で稼働させられます。APIキー不要、月額料金なし、データはマシンの外に出ません。

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />