誰もがコマンドラインを愛するわけではありません。洗練されたビジュアルインターフェースでGemma 4をローカル実行したいなら、LM Studioは完璧なツールです。ChatGPTのような体験を提供 — 完全にオフライン、完全に無料、完全にプライベート。
このガイドでは、LM Studioのダウンロードから初めての会話まで、すべてのステップを案内します。
LM Studioとは?
LM Studioは、自分のコンピューターにAIモデルをダウンロードして実行できる無料デスクトップアプリです。オープンソースAIモデル用のアプリストアと美しいチャットインターフェースを組み合わせたものと考えてください。
主な機能:
- コマンドライン不要 — すべてグラフィカルインターフェースで
- 内蔵モデル検索 — アプリから直接モデルを見つけてダウンロード
- ChatGPTスタイルのチャットUI — 親しみやすく使いやすい会話インターフェース
- 調整可能な設定 — temperature、コンテキスト長、システムプロンプトなど
- ローカルAPIサーバー — 開発者向けOpenAI API形式互換
必要なもの
- 少なくとも8GB RAM(16GB推奨)のコンピューター
- macOS、Windows、またはLinux
- 約3-6GBの空きディスク容量(Gemma 4モデルサイズによる)
- モデルダウンロード後はインターネット接続不要
ステップ1:LM Studioのダウンロードとインストール
lmstudio.aiを訪問し、OS用のインストーラーをダウンロード。
macOS: .dmgファイルをダウンロードし、開いてLM Studioをアプリケーションフォルダにドラッグ。
Windows: .exeインストーラーをダウンロードして実行。標準のインストールウィザードに従う。
Linux: .AppImageファイルをダウンロード。実行可能にして実行:
chmod +x LM-Studio-*.AppImage
./LM-Studio-*.AppImageインストール後にLM Studioを起動。上部に検索バーのあるクリーンなホームスクリーンが表示されます。
ステップ2:Gemma 4を検索してダウンロード
LM Studioが開いたら:
- アプリ上部の検索バーをクリック(またはDiscover/Modelsタブに移動)
- 検索フィールドに**"gemma 4"と入力**
- 結果を閲覧 — Gemma 4のさまざまな量子化バージョンが表示されます
適切なバージョンの選択
LM Studioは各モデルの複数の量子化バージョンを提供します。量子化は最小の品質損失でモデルサイズとメモリ使用量を減らします。
| 量子化 | ファイルサイズ | 必要RAM | 品質 | 最適 |
|---|---|---|---|---|
| Q4_K_M | 約2.5GB | 約5GB | 良い | ほとんどのユーザー、バランス型 |
| Q5_K_M | 約3GB | 約6GB | より良い | 品質重視 |
| Q6_K | 約3.5GB | 約7GB | 素晴らしい | 高品質レスポンス |
| Q8_0 | 約4.5GB | 約8GB | ほぼオリジナル | 最高品質 |
推奨: Gemma 4 E4BのQ4_K_Mバージョンから始めましょう。ほとんどのノートPCで品質とパフォーマンスの最適解です。
- 選んだバージョンの横のダウンロードボタンをクリック
- ダウンロードを待つ — プログレスがアプリに表示されます。通常、インターネット速度によって2-10分かかります。
ステップ3:チャットを開始
モデルのダウンロードが終わったら:
- Chatタブに移動(左サイドバーのチャットバブルアイコン)
- 上部のモデルドロップダウンからGemma 4を選択
- モデルがロードされるのを待つ — LM Studioがモデルをメモリにロードする数秒かかります
- 下のテキストボックスにメッセージを入力してEnterを押す
これだけ — 自分のマシンでGemma 4とローカルチャットしています。
最初の会話
これらのプロンプトを試してGemma 4の能力をテスト:
Explain quantum computing to a 10-year-old.Write a Python function that finds the longest palindrome in a string.Summarize the pros and cons of remote work in a table format.ステップ4:設定をカスタマイズ
LM Studioはモデル動作の細かい制御を提供します。チャットパネルの設定アイコン(歯車)をクリックしてアクセス:
知っておくべき主要設定
Temperature (0.0 - 2.0)
- 低い値(0.1-0.3):より集中した決定論的レスポンス。コーディングと事実質問に最適。
- 高い値(0.7-1.0):よりクリエイティブで多様なレスポンス。ライティングとブレインストーミングに最適。
- デフォルト:0.7
Context Length
- Gemma 4は最大128Kトークンのコンテキストをサポート
- LM Studioは利用可能なRAMに基づいてこれを設定できる
- 4096から始めて、より長い会話が必要なら増やす
System Prompt
- カスタムシステムプロンプトを設定してGemma 4の動作を定義
- 例:"You are a helpful coding assistant. Always provide code examples with explanations."
GPU Offloading
- 互換GPUがある場合、LM Studioはより速い推論のためにそこに層をオフロードできる
- 設定でGPU層の数を調整
ステップ5:ローカルAPIサーバーを使う
LM StudioにはOpenAIのAPI形式と互換性のある内蔵APIサーバーが含まれています。これは、OpenAI APIをサポートする任意のツールでGemma 4を使えることを意味します。
- Developerタブに移動(サイドバーのコードアイコン)
- ドロップダウンからGemma 4モデルを選択
- "Start Server"をクリック
- サーバーはデフォルトで
http://localhost:1234で動作
これで任意のOpenAI互換アプリケーションをローカルGemma 4に接続できます:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:1234/v1",
api_key="lm-studio" # 任意の文字列が動作
)
response = client.chat.completions.create(
model="gemma-4",
messages=[
{"role": "user", "content": "What is the capital of France?"}
]
)
print(response.choices[0].message.content)// Node.js / JavaScript
const response = await fetch("http://localhost:1234/v1/chat/completions", {
method: "POST",
headers: { "Content-Type": "application/json" },
body: JSON.stringify({
model: "gemma-4",
messages: [{ role: "user", content: "Hello, Gemma 4!" }]
})
});
const data = await response.json();
console.log(data.choices[0].message.content);LM Studio vs Ollama:どちらを選ぶべき?
両方ともGemma 4をローカル実行する優れたツールです。比較はこちら:
| 機能 | LM Studio | Ollama |
|---|---|---|
| インターフェース | フルGUIアプリ | コマンドライン |
| 使いやすさ | ポイント&クリック | コマンド入力 |
| モデル検索 | 内蔵ブラウザ | 手動またはCLI検索 |
| 設定 | ビジュアルスライダーとトグル | 設定ファイル |
| APIサーバー | ワンクリック起動 | インストール時に自動起動 |
| リソース使用量 | やや多いRAM(GUIオーバーヘッド) | 軽いフットプリント |
| 最適 | 初心者、ビジュアル学習者 | 開発者、自動化 |
| モデル形式 | GGUF | Ollama形式(GGUFベース) |
| 価格 | 無料 | 無料 |
LM Studioを選ぶ:
- ターミナルよりビジュアルインターフェースを好む
- 異なるモデルバージョンを簡単に比較したい
- ローカルAIモデルの実行に慣れていない
- デスクトップでChatGPTライクな体験が欲しい
Ollamaを選ぶ:
- コマンドラインに慣れている
- モデルをスクリプトと自動化に統合したい
- より低いリソースオーバーヘッドが必要
- シンプルなバックグラウンドサービスが欲しい
プロのヒント: 両方を使えます。多くの開発者はインタラクティブチャットと実験にLM Studioを使用し、本番スクリプトと自動化にOllamaに切り替えます。
よくある問題のトラブルシューティング
モデルがロードしない
- 十分な空きRAMがあるか確認。メモリ重いアプリを閉じる。
- より小さな量子化を試す(Q8_0ではなくQ4_K_M)。
- LM Studioを再起動する。
遅いレスポンス
- 設定でコンテキスト長を減らす。
- より小さなモデルバリアント(26BではなくE2B)を使用。
- 互換GPUがある場合はGPUオフロードを有効にする。
- 他のアプリを閉じてRAMを解放する。
「Out of memory」エラー
- より小さな量子化に切り替える。
- コンテキスト長を2048または4096に減らす。
- 大きなバリアントではなくGemma 4 E2Bを使用。
APIサーバーが接続しない
- サーバーが起動していることを確認(Developerタブの緑のインジケーター)。
- ベースURLとして
http://localhost:1234を使用していることを確認。 - ファイアウォールがポート1234をブロックしていないか確認。
次は?
LM StudioでGemma 4が動作するようになったので、これらの次のステップを試してみてください:
- 異なるモデルサイズを実験 — クイックタスクにはE2B、複雑な推論には26Bを試す
- 異なるユースケース用のカスタムシステムプロンプトを作成(コーディングアシスタント、ライティングヘルパー、翻訳者)
- ローカルAPIサーバーを使ってお気に入りのツールを接続
- Gemma 4を他のモデルと比較 — LM Studioはモデル間の切り替えを簡単にする
AIをローカルで実行することで、完全な制御が手に入ります。サブスクリプションなし、データ共有なし、レート制限なし — あなたと自分のハードウェアのGemma 4だけ。
関連記事
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


