如何用 LM Studio 執行 Gemma 4：新手友善指南（2026）

不是每個人都愛命令列。如果你想用精緻的視覺介面在本機執行 Gemma 4，LM Studio 是完美的工具。它給你類似 ChatGPT 的體驗——完全離線、完全免費、完全私有。

本指南帶你走過每一步，從下載 LM Studio 到與 Gemma 4 進行第一次對話。

什麼是 LM Studio？

LM Studio 是一個免費的桌面應用程式，讓你在自己的電腦上下載和執行 AI 模型。把它想成開源 AI 模型的 App Store 加上漂亮的聊天介面。

主要功能：

不需要命令列 — 一切透過圖形介面進行
內建模型搜尋 — 直接從 App 中尋找和下載模型
ChatGPT 風格的聊天 UI — 熟悉、易用的對話介面
可調整設定 — temperature、上下文長度、system prompt 等等
本機 API 伺服器 — 相容於 OpenAI 的 API 格式供開發者使用

你需要什麼

至少 8GB RAM 的電腦（建議 16GB）
macOS、Windows 或 Linux
約 3-6GB 可用磁碟空間（取決於 Gemma 4 模型大小）
模型下載後不需要網路連線

步驟 1：下載並安裝 LM Studio

造訪 lmstudio.ai 並下載你作業系統的安裝程式。

macOS： 下載 .dmg 檔案，開啟它，將 LM Studio 拖到你的「應用程式」資料夾。

Windows： 下載 .exe 安裝程式並執行。跟著標準安裝精靈走。

Linux： 下載 .AppImage 檔案。讓它可執行並執行：

chmod +x LM-Studio-*.AppImage
./LM-Studio-*.AppImage

安裝後啟動 LM Studio。你會看到一個乾淨的主畫面，頂部有搜尋列。

步驟 2：搜尋並下載 Gemma 4

LM Studio 開啟後：

點擊頂部的搜尋列（或前往 Discover/Models 分頁）
輸入「gemma 4」 在搜尋欄位
瀏覽結果 — 你會看到 Gemma 4 的各種量化版本

選擇正確的版本

LM Studio 為每個模型提供多種量化版本。量化用最小的品質損失減少模型大小和記憶體使用。

量化	檔案大小	所需記憶體	品質	最適合
Q4_K_M	~2.5GB	~5GB	良好	大多數使用者、平衡
Q5_K_M	~3GB	~6GB	較佳	重視品質
Q6_K	~3.5GB	~7GB	很好	高品質回應
Q8_0	~4.5GB	~8GB	接近原始	最大品質

建議： 從 Gemma 4 E4B 的 Q4_K_M 版本開始。這是大多數筆電品質和效能之間的最佳點。

點擊下載按鈕 在你選擇的版本旁
等待下載 — 進度顯示在 App 中。根據你的網路速度通常需要 2-10 分鐘。

步驟 3：開始聊天

模型下載完成後：

前往 Chat 分頁（左側欄的聊天氣泡圖示）
從頂部的模型下拉選單中選擇 Gemma 4
等模型載入 — 這需要幾秒鐘，LM Studio 將模型載入記憶體
在底部的文字框中輸入訊息 並按 Enter

就這樣——你現在在自己的機器上本機與 Gemma 4 聊天。

你的第一次對話

試試這些提示詞測試 Gemma 4 的能力：

Explain quantum computing to a 10-year-old.

Write a Python function that finds the longest palindrome in a string.

Summarize the pros and cons of remote work in a table format.

步驟 4：自訂設定

LM Studio 給你對模型行為的細緻控制。點擊聊天面板中的設定圖示（齒輪）存取：

要了解的關鍵設定

Temperature (0.0 - 2.0)

較低值 (0.1-0.3)：更聚焦、確定性的回應。最適合程式設計和事實問題。
較高值 (0.7-1.0)：更有創意、多樣的回應。最適合寫作和腦力激盪。
預設：0.7

Context Length

Gemma 4 支援高達 128K tokens 的上下文
LM Studio 讓你根據可用 RAM 設定這個
從 4096 開始，如果需要更長對話再增加

System Prompt

設定自訂 system prompt 來定義 Gemma 4 的行為
範例：「你是有用的程式設計助理。一律提供程式碼範例與解釋。」

GPU Offloading

如果你有相容的 GPU，LM Studio 可以將層卸載到它以加快推論
在設定中調整 GPU 層的數量

步驟 5：使用本機 API 伺服器

LM Studio 包含一個與 OpenAI 的 API 格式相容的內建 API 伺服器。這意味著你可以將 Gemma 4 與任何支援 OpenAI API 的工具一起使用。

前往 Developer 分頁（側欄中的程式碼圖示）
從下拉選單中選擇你的 Gemma 4 模型
點擊「Start Server」
伺服器預設在 http://localhost:1234 執行

現在你可以將任何 OpenAI 相容的應用程式連接到你的本機 Gemma 4：

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:1234/v1",
    api_key="lm-studio"  # 任何字串都可以
)

response = client.chat.completions.create(
    model="gemma-4",
    messages=[
        {"role": "user", "content": "What is the capital of France?"}
    ]
)

print(response.choices[0].message.content)

// Node.js / JavaScript
const response = await fetch("http://localhost:1234/v1/chat/completions", {
  method: "POST",
  headers: { "Content-Type": "application/json" },
  body: JSON.stringify({
    model: "gemma-4",
    messages: [{ role: "user", content: "Hello, Gemma 4!" }]
  })
});

const data = await response.json();
console.log(data.choices[0].message.content);

LM Studio vs Ollama：該選哪個？

兩者都是在本機執行 Gemma 4 的出色工具。以下是它們的比較：

功能	LM Studio	Ollama
介面	完整 GUI App	命令列
易用性	點擊	輸入指令
模型搜尋	內建瀏覽器	手動或 CLI 搜尋
設定	視覺滑桿和開關	設定檔
API 伺服器	一鍵啟動	安裝時自動啟動
資源使用	稍多 RAM（GUI 開銷）	較輕的佔用
最適合	新手、視覺學習者	開發者、自動化
模型格式	GGUF	Ollama 格式（基於 GGUF）
價格	免費	免費