不是所有人都喜欢敲命令。如果你想在自己电脑上运行 Gemma 4,又希望有一个好看好用的图形界面,LM Studio 就是最佳选择。它能给你 ChatGPT 一样的体验——完全离线、完全免费、完全隐私。
本教程从零开始,带你完成从安装到对话的每一步。
LM Studio 是什么?
LM Studio 是一款免费的桌面应用,让你在自己的电脑上下载和运行 AI 模型。你可以把它理解为一个「AI 模型的应用商店 + 聊天客户端」。
核心特点:
- 无需命令行 — 所有操作都在图形界面完成
- 内置模型搜索 — 直接在应用内搜索和下载模型
- 类 ChatGPT 聊天界面 — 熟悉的对话交互,上手零成本
- 参数随心调 — 温度、上下文长度、系统提示词等一应俱全
- 本地 API 服务器 — 兼容 OpenAI API 格式,开发者友好
你需要什么
- 至少 8GB 内存的电脑(推荐 16GB)
- macOS、Windows 或 Linux
- 约 3-6GB 磁盘空间(取决于模型大小)
- 模型下载完成后无需网络连接
第一步:下载安装 LM Studio
访问 lmstudio.ai 下载对应你操作系统的安装包。
macOS: 下载 .dmg 文件,打开后将 LM Studio 拖到「应用程序」文件夹。
Windows: 下载 .exe 安装包,双击运行,按提示完成安装。
Linux: 下载 .AppImage 文件,赋予执行权限后运行:
chmod +x LM-Studio-*.AppImage
./LM-Studio-*.AppImage安装完成后启动 LM Studio,你会看到一个简洁的主界面,顶部有搜索栏。
第二步:搜索并下载 Gemma 4
打开 LM Studio 后:
- 点击顶部搜索栏(或进入 Discover/Models 标签页)
- 输入「gemma 4」 搜索
- 浏览搜索结果 — 你会看到多个 Gemma 4 的量化版本
怎么选版本?
LM Studio 提供每个模型的多种量化版本。量化会在几乎不影响质量的前提下,大幅减小模型体积和内存占用。
| 量化格式 | 文件大小 | 内存需求 | 质量 | 适合谁 |
|---|---|---|---|---|
| Q4_K_M | ~2.5GB | ~5GB | 良好 | 大多数用户,均衡之选 |
| Q5_K_M | ~3GB | ~6GB | 较好 | 追求质量 |
| Q6_K | ~3.5GB | ~7GB | 很好 | 高质量场景 |
| Q8_0 | ~4.5GB | ~8GB | 接近原版 | 极致质量 |
建议: 从 Gemma 4 E4B 的 Q4_K_M 版本开始。对大多数笔记本来说,这是质量和性能的最佳平衡点。
- 点击下载按钮
- 等待下载完成 — 进度会在应用内显示,一般需要 2-10 分钟
第三步:开始聊天
模型下载完成后:
- 点击左侧的聊天标签(对话气泡图标)
- 在顶部下拉菜单选择 Gemma 4
- 等待模型加载 — 通常只需几秒,LM Studio 会将模型载入内存
- 在底部输入框打字,按回车发送
搞定 — 你现在正在本地和 Gemma 4 对话。
试试这些提示词
用小学生能听懂的方式解释量子计算。写一个 Python 函数,找出字符串中最长的回文子串。用表格对比远程办公的优缺点。第四步:调整设置
点击聊天面板中的设置图标(齿轮),可以精细调节模型行为:
几个关键参数
Temperature(温度 0.0 - 2.0)
- 低值(0.1-0.3):输出更确定、更聚焦。适合编程和问答。
- 高值(0.7-1.0):输出更有创意和多样性。适合写作和头脑风暴。
- 默认值:0.7
Context Length(上下文长度)
- Gemma 4 最高支持 128K tokens 的上下文
- LM Studio 允许你根据可用内存来设置
- 建议先设 4096,有需要再增加
System Prompt(系统提示词)
- 自定义系统提示词来定义 Gemma 4 的行为
- 例如:"你是一个编程助手,回答时总是附带代码示例和解释。"
GPU Offloading(GPU 卸载)
- 如果你有兼容的 GPU,LM Studio 可以将部分计算卸载到 GPU 来加速推理
- 在设置中调整 GPU 层数
第五步:使用本地 API 服务器
LM Studio 自带 API 服务器,兼容 OpenAI API 格式。这意味着任何支持 OpenAI API 的工具都能直接对接你本地的 Gemma 4。
- 进入 Developer 标签页(左侧代码图标)
- 选择 Gemma 4 模型
- 点击「Start Server」
- 服务器默认运行在
http://localhost:1234
接下来就可以用代码调用了:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:1234/v1",
api_key="lm-studio" # 随便填一个字符串就行
)
response = client.chat.completions.create(
model="gemma-4",
messages=[
{"role": "user", "content": "法国的首都是哪里?"}
]
)
print(response.choices[0].message.content)// Node.js / JavaScript
const response = await fetch("http://localhost:1234/v1/chat/completions", {
method: "POST",
headers: { "Content-Type": "application/json" },
body: JSON.stringify({
model: "gemma-4",
messages: [{ role: "user", content: "你好,Gemma 4!" }]
})
});
const data = await response.json();
console.log(data.choices[0].message.content);LM Studio 和 Ollama 怎么选?
两者都能出色地在本地运行 Gemma 4,但定位不同:
| 对比项 | LM Studio | Ollama |
|---|---|---|
| 操作界面 | 完整图形界面 | 命令行 |
| 上手难度 | 点点鼠标就行 | 需要打字敲命令 |
| 模型搜索 | 内置浏览器搜索 | CLI 搜索或手动下载 |
| 参数调节 | 可视化滑块和开关 | 配置文件 |
| API 服务 | 一键启动 | 安装后自动启动 |
| 资源占用 | 略高(图形界面开销) | 更轻量 |
| 适合谁 | 新手、视觉型用户 | 开发者、自动化场景 |
| 模型格式 | GGUF | Ollama 格式(基于 GGUF) |
| 价格 | 免费 | 免费 |
选 LM Studio 如果你:
- 更喜欢图形界面而非终端
- 想方便地浏览和比较不同模型版本
- 刚接触本地 AI,想要最低门槛
- 想在桌面上拥有 ChatGPT 般的体验
选 Ollama 如果你:
- 习惯使用命令行
- 需要把模型集成到脚本和自动化流程中
- 希望占用更少系统资源
- 想要一个简洁的后台服务
进阶玩法: 两个都装。很多开发者用 LM Studio 做日常聊天和模型测试,用 Ollama 跑脚本和自动化任务。
常见问题排查
模型加载不了
- 检查可用内存是否足够,关掉其他吃内存的应用。
- 换一个更小的量化版本(比如 Q4_K_M)。
- 重启 LM Studio。
回复速度太慢
- 减小上下文长度。
- 换更小的模型(比如 E2B)。
- 开启 GPU 卸载(如果你有独显)。
- 关闭其他应用释放内存。
内存不足报错
- 换更小的量化版本。
- 把上下文长度降到 2048 或 4096。
- 使用 Gemma 4 E2B。
API 服务器连不上
- 确认服务器已启动(Developer 标签页中显示绿色指示灯)。
- 确认 base URL 是
http://localhost:1234。 - 检查防火墙是否拦截了 1234 端口。
接下来做什么?
LM Studio + Gemma 4 已经跑起来了,可以进一步探索:
- 试试不同大小的模型 — 轻量任务用 E2B,复杂推理用 26B
- 为不同场景创建系统提示词 — 编程助手、写作帮手、翻译工具
- 通过 API 连接更多工具 — 让 Gemma 4 融入你的工作流
- 横向对比其他模型 — LM Studio 让你轻松切换模型
本地跑 AI,一切尽在掌握。没有订阅费、没有数据外传、没有速率限制——只有你和 Gemma 4。



