クラウドAPIでAIエージェントを動かすと、お金がかかり、データが漏洩し、インターネットが切れると止まります。Gemma 4 + Ollama + OpenClawなら、ツールを呼び出し、プライベートにウェブ検索し、Telegramボットを動かす完全ローカルなAIエージェントを、自分のハードウェアで無料で構築できます。
これはXで最もリクエストの多いチュートリアルです。完全なセットアップ方法をご紹介します。
ローカルエージェントが重要な理由
GPT-4やClaude APIを呼ぶ代わりにローカルで構築する3つの理由:
- コストゼロ。 トークン単位の課金なし。好きなだけクエリを実行。メーターを気にせず24時間365日エージェントを稼働。
- プライバシー。 プロンプト、ドキュメント、ツールの結果が一切マシンの外に出ません。利用規約の罠もなし。
- オフライン。 飛行機の中、山小屋、企業ファイアウォールの内側でも動作。モデルはローカルで動き、SearXNGのようなツールでGoogleを叩かずにローカル検索も可能。
これまでの課題は品質でした — ローカルモデルは本格的なエージェント作業には力不足でした。Gemma 4がそれを変えます。26Bモデルは5ステップのツール呼び出しチェーンをクラッシュせずに処理でき、単一GPUに収まるモデルとしては本当に印象的です。
3ステップセットアップ
ステップ1:OllamaでGemma 4をプル
Ollamaがまだインストールされていなければ、ollama.comから入手してください。そして推奨モデルをプル:
ollama pull gemma4:26b-a4bなぜ26B-A4Bなのか? これはMixture-of-Expertsモデルで、一度にアクティブになるのは40億パラメータだけですが、合計260億から引き出します。Gemma 4の全バリアントの中で、アクティブパラメータあたりの品質が最も高くなります。MacBook M1で約13GBのメモリを使用し、20〜40トークン/秒で動作します。
フルモデルラインナップとハードウェアに合ったサイズの選び方はGemma 4モデルの選び方をご覧ください。
Ollamaのセットアップ詳細(カスタムパラメータ、GPU設定、コンテキストウィンドウ設定)はOllamaでGemma 4を動かす方法をチェック。
ステップ2:OpenClawをインストール
OpenClawはローカルLLM向けに設計されたオープンソースのエージェントフレームワークです。ツール登録、マルチターン会話管理、TelegramやSearXNGとの連携など、面倒な部分を処理します。
git clone https://github.com/AstraBert/OpenClaw.git
cd OpenClaw
pip install -r requirements.txt
cp .env.example .env.envファイルを編集してローカルのOllamaインスタンスを指定:
LLM_BASE_URL=http://localhost:11434/v1
LLM_MODEL=gemma4:26b-a4b
LLM_API_KEY=ollama # Ollamaは本物のキーは不要ですが、フィールドは必須ですステップ3:ツールを接続して実行
OpenClawには設定で有効化できるビルトインツールが付属:
tools:
- name: searxng
enabled: true
base_url: http://localhost:8888 # ローカルのSearXNGインスタンス
- name: calculator
enabled: true
- name: web_scraper
enabled: true
- name: code_executor
enabled: trueエージェントを起動:
python main.py以上です。Gemma 4搭載のマルチツール呼び出し対応ローカルAIエージェントの完成です。
OpenClawが提供するもの
OpenClawはOllama APIの単なるラッパーではありません。自分で作ると面倒ないくつかの機能を処理します:
Telegram連携。 エージェントをTelegramボットとして接続。あなたのマシンで動かしながら、友達やチームがスマートフォンからチャットできます。
SearXNGローカル検索。 Google APIを叩く(有料でトラッキングされる)代わりに、OpenClawはローカルのSearXNGインスタンスに接続。外部API呼び出しなしでウェブ検索ができます。
マルチツール呼び出し。 Gemma 4のネイティブ関数呼び出しサポートにより、エージェントは単一のクエリで複数のツールをチェーンできます。「最新のGemma 4ベンチマークを検索して平均スコアを計算して」と聞けば、検索を呼び出し、次に電卓を呼び出し、答えを返します。
会話メモリ。 OpenClawが会話履歴を管理し、ツール呼び出し-応答ループを自動処理。手動でメッセージを追加して再送信する必要はありません。
実際のパフォーマンス
XやGitHubで実際にレポートされている内容:
| 構成 | パフォーマンス |
|---|---|
| MacBook M1 16GB | 26Bモデル、13GB RAM、20-40 tok/s |
| RTX 3090 24GB | 26Bモデル、フルGPUオフロード、50+ tok/s |
| MacBook M2 Pro 32GB | 26Bモデル、128Kコンテキストウィンドウ、余裕あり |
| RTX 4060 8GB | 12Bモデル推奨、26Bは収まらない |
ユーザーの報告では、26Bモデルは5ステップのツール呼び出しチェーン — 検索、解析、計算、フォーマット、応答 — を一貫性を失わずクラッシュせずに確実にこなします。2〜3ステップ後にツール呼び出し形式を幻覚する以前のローカルモデルからの大きな進歩です。
既知の問題:KVキャッシュバグ
llama.cpp(Ollamaが内部で使用)の一部バージョンに、マルチターン会話で問題を引き起こす既知のバグがあります。多くのツール呼び出しラウンド後にKVキャッシュが破損し、文字化けやクラッシュにつながることがあります。
回避策:
# KVキャッシュの負荷を軽減するため、低めのコンテキストウィンドウを設定
ollama run gemma4:26b-a4b --num-ctx 8192
# またはOllamaのModelfileで:
PARAMETER num_ctx 8192この問題が発生している場合、コンテキストウィンドウを完全な256Kではなく8K〜16Kに保つことで、KVキャッシュの破損確率が大幅に減少します。Ollamaチームがこれを追跡しており、今後のリリースで修正が予定されています。
長い会話の場合、会話を定期的にリスタートするか、直近のN回のやり取りのみを保持するスライディングウィンドウをエージェントコードに実装することもできます。
使用例
ローカルTelegramボット
最も人気のあるセットアップ。自宅サーバーでTelegramボットを動かし、家族やチームがメッセージを送れるようにします。ウェブ検索、質問への回答、計算 — すべてAPIコストもデータ漏洩もなし。
TELEGRAM_BOT_TOKEN=your_bot_token_here
TELEGRAM_ALLOWED_USERS=user_id_1,user_id_2PlaywrightによるWeb自動化
OpenClawとPlaywrightを組み合わせてブラウザ自動化。エージェントがウェブサイトを操作し、フォームに入力し、データを抽出し、スクリーンショットを撮影 — すべてGemma 4のツール呼び出しで制御。
tools = [
{
"type": "function",
"function": {
"name": "browse_url",
"description": "Open a URL in a headless browser and return the page content",
"parameters": {
"type": "object",
"properties": {
"url": {"type": "string", "description": "URL to visit"},
"action": {"type": "string", "enum": ["read", "screenshot", "click"], "description": "What to do on the page"}
},
"required": ["url"]
}
}
}
]ローカルコードアシスタント
エージェントをコードベースに向けて、質問に答えたり、バグを見つけたり、コードを生成させます。256Kコンテキストがあれば、Gemma 4は中規模プロジェクト全体をコンテキストに保持できます。
# プロジェクトファイルをコンテキストとして投入
find ./src -name "*.py" -exec cat {} \; | python openclaw_cli.py \
"Review this code for potential bugs and suggest fixes"安定したエージェントループのためのヒント
| ヒント | 理由 |
|---|---|
| エージェント作業には12Bではなく26B-A4Bを使用 | MoEアーキテクチャがツール呼び出しをより適切に処理 |
| マルチターンではコンテキストを16K以下に | 現在のllama.cppのKVキャッシュ問題を回避 |
max_stepsを10に設定 | 無限ツール呼び出しループを防止 |
| 詳細なツール説明を記述 | Gemma 4は適切なツール選択に説明文を大きく依存 |
| 先にツールを個別テスト | チェーンする前に各ツールが動作することを確認 |
次のステップ
- Ollamaが初めて? OllamaでGemma 4を動かす方法で基本を学ぶ
- 先にツール呼び出しを理解したい? Gemma 4関数呼び出しでAPIの仕組みを確認
- 適切なモデルサイズを選びたい? Gemma 4モデルの選び方 — エージェントには26B A4Bを推奨
ローカルAIエージェントは2026年に目新しさから本当に便利なものへと進化しました。Gemma 4の関数呼び出しの信頼性とOpenClawのバッテリー込みアプローチにより、自分のハードウェアで本番品質のエージェントを10分以内で稼働させられます。APIキー不要、月額料金なし、データはマシンの外に出ません。
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


