用 LM Studio 运行 Gemma 4：零命令行小白教程（2026）

不是所有人都喜欢敲命令。如果你想在自己电脑上运行 Gemma 4，又希望有一个好看好用的图形界面，LM Studio 就是最佳选择。它能给你 ChatGPT 一样的体验——完全离线、完全免费、完全隐私。

本教程从零开始，带你完成从安装到对话的每一步。

LM Studio 是什么？

LM Studio 是一款免费的桌面应用，让你在自己的电脑上下载和运行 AI 模型。你可以把它理解为一个「AI 模型的应用商店 + 聊天客户端」。

核心特点：

无需命令行 — 所有操作都在图形界面完成
内置模型搜索 — 直接在应用内搜索和下载模型
类 ChatGPT 聊天界面 — 熟悉的对话交互，上手零成本
参数随心调 — 温度、上下文长度、系统提示词等一应俱全
本地 API 服务器 — 兼容 OpenAI API 格式，开发者友好

你需要什么

至少 8GB 内存的电脑（推荐 16GB）
macOS、Windows 或 Linux
约 3-6GB 磁盘空间（取决于模型大小）
模型下载完成后无需网络连接

第一步：下载安装 LM Studio

访问 lmstudio.ai 下载对应你操作系统的安装包。

macOS： 下载 .dmg 文件，打开后将 LM Studio 拖到「应用程序」文件夹。

Windows： 下载 .exe 安装包，双击运行，按提示完成安装。

Linux： 下载 .AppImage 文件，赋予执行权限后运行：

chmod +x LM-Studio-*.AppImage
./LM-Studio-*.AppImage

安装完成后启动 LM Studio，你会看到一个简洁的主界面，顶部有搜索栏。

第二步：搜索并下载 Gemma 4

打开 LM Studio 后：

点击顶部搜索栏（或进入 Discover/Models 标签页）
输入「gemma 4」 搜索
浏览搜索结果 — 你会看到多个 Gemma 4 的量化版本

怎么选版本？

LM Studio 提供每个模型的多种量化版本。量化会在几乎不影响质量的前提下，大幅减小模型体积和内存占用。

量化格式	文件大小	内存需求	质量	适合谁
Q4_K_M	~2.5GB	~5GB	良好	大多数用户，均衡之选
Q5_K_M	~3GB	~6GB	较好	追求质量
Q6_K	~3.5GB	~7GB	很好	高质量场景
Q8_0	~4.5GB	~8GB	接近原版	极致质量

建议： 从 Gemma 4 E4B 的 Q4_K_M 版本开始。对大多数笔记本来说，这是质量和性能的最佳平衡点。

点击下载按钮
等待下载完成 — 进度会在应用内显示，一般需要 2-10 分钟

第三步：开始聊天

模型下载完成后：

点击左侧的聊天标签（对话气泡图标）
在顶部下拉菜单选择 Gemma 4
等待模型加载 — 通常只需几秒，LM Studio 会将模型载入内存
在底部输入框打字，按回车发送

搞定 — 你现在正在本地和 Gemma 4 对话。

试试这些提示词

用小学生能听懂的方式解释量子计算。

写一个 Python 函数，找出字符串中最长的回文子串。

用表格对比远程办公的优缺点。

第四步：调整设置

点击聊天面板中的设置图标（齿轮），可以精细调节模型行为：

几个关键参数

Temperature（温度 0.0 - 2.0）

低值（0.1-0.3）：输出更确定、更聚焦。适合编程和问答。
高值（0.7-1.0）：输出更有创意和多样性。适合写作和头脑风暴。
默认值：0.7

Context Length（上下文长度）

Gemma 4 最高支持 128K tokens 的上下文
LM Studio 允许你根据可用内存来设置
建议先设 4096，有需要再增加

System Prompt（系统提示词）

自定义系统提示词来定义 Gemma 4 的行为
例如："你是一个编程助手，回答时总是附带代码示例和解释。"

GPU Offloading（GPU 卸载）

如果你有兼容的 GPU，LM Studio 可以将部分计算卸载到 GPU 来加速推理
在设置中调整 GPU 层数

第五步：使用本地 API 服务器

LM Studio 自带 API 服务器，兼容 OpenAI API 格式。这意味着任何支持 OpenAI API 的工具都能直接对接你本地的 Gemma 4。

进入 Developer 标签页（左侧代码图标）
选择 Gemma 4 模型
点击「Start Server」
服务器默认运行在 http://localhost:1234

接下来就可以用代码调用了：

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:1234/v1",
    api_key="lm-studio"  # 随便填一个字符串就行
)

response = client.chat.completions.create(
    model="gemma-4",
    messages=[
        {"role": "user", "content": "法国的首都是哪里？"}
    ]
)

print(response.choices[0].message.content)

// Node.js / JavaScript
const response = await fetch("http://localhost:1234/v1/chat/completions", {
  method: "POST",
  headers: { "Content-Type": "application/json" },
  body: JSON.stringify({
    model: "gemma-4",
    messages: [{ role: "user", content: "你好，Gemma 4！" }]
  })
});

const data = await response.json();
console.log(data.choices[0].message.content);

LM Studio 和 Ollama 怎么选？

两者都能出色地在本地运行 Gemma 4，但定位不同：

对比项	LM Studio	Ollama
操作界面	完整图形界面	命令行
上手难度	点点鼠标就行	需要打字敲命令
模型搜索	内置浏览器搜索	CLI 搜索或手动下载
参数调节	可视化滑块和开关	配置文件
API 服务	一键启动	安装后自动启动
资源占用	略高（图形界面开销）	更轻量
适合谁	新手、视觉型用户	开发者、自动化场景
模型格式	GGUF	Ollama 格式（基于 GGUF）
价格	免费	免费