用 LM Studio 运行 Gemma 4:零命令行小白教程(2026)

2026/04/06
|Updated: 2026/04/07

不是所有人都喜欢敲命令。如果你想在自己电脑上运行 Gemma 4,又希望有一个好看好用的图形界面,LM Studio 就是最佳选择。它能给你 ChatGPT 一样的体验——完全离线、完全免费、完全隐私。

本教程从零开始,带你完成从安装到对话的每一步。

LM Studio 是什么?

LM Studio 是一款免费的桌面应用,让你在自己的电脑上下载和运行 AI 模型。你可以把它理解为一个「AI 模型的应用商店 + 聊天客户端」。

核心特点:

  • 无需命令行 — 所有操作都在图形界面完成
  • 内置模型搜索 — 直接在应用内搜索和下载模型
  • 类 ChatGPT 聊天界面 — 熟悉的对话交互,上手零成本
  • 参数随心调 — 温度、上下文长度、系统提示词等一应俱全
  • 本地 API 服务器 — 兼容 OpenAI API 格式,开发者友好

你需要什么

  • 至少 8GB 内存的电脑(推荐 16GB)
  • macOS、Windows 或 Linux
  • 约 3-6GB 磁盘空间(取决于模型大小)
  • 模型下载完成后无需网络连接

第一步:下载安装 LM Studio

访问 lmstudio.ai 下载对应你操作系统的安装包。

macOS: 下载 .dmg 文件,打开后将 LM Studio 拖到「应用程序」文件夹。

Windows: 下载 .exe 安装包,双击运行,按提示完成安装。

Linux: 下载 .AppImage 文件,赋予执行权限后运行:

chmod +x LM-Studio-*.AppImage
./LM-Studio-*.AppImage

安装完成后启动 LM Studio,你会看到一个简洁的主界面,顶部有搜索栏。

第二步:搜索并下载 Gemma 4

打开 LM Studio 后:

  1. 点击顶部搜索栏(或进入 Discover/Models 标签页)
  2. 输入「gemma 4」 搜索
  3. 浏览搜索结果 — 你会看到多个 Gemma 4 的量化版本

怎么选版本?

LM Studio 提供每个模型的多种量化版本。量化会在几乎不影响质量的前提下,大幅减小模型体积和内存占用。

量化格式文件大小内存需求质量适合谁
Q4_K_M~2.5GB~5GB良好大多数用户,均衡之选
Q5_K_M~3GB~6GB较好追求质量
Q6_K~3.5GB~7GB很好高质量场景
Q8_0~4.5GB~8GB接近原版极致质量

建议: 从 Gemma 4 E4B 的 Q4_K_M 版本开始。对大多数笔记本来说,这是质量和性能的最佳平衡点。

  1. 点击下载按钮
  2. 等待下载完成 — 进度会在应用内显示,一般需要 2-10 分钟

第三步:开始聊天

模型下载完成后:

  1. 点击左侧的聊天标签(对话气泡图标)
  2. 在顶部下拉菜单选择 Gemma 4
  3. 等待模型加载 — 通常只需几秒,LM Studio 会将模型载入内存
  4. 在底部输入框打字,按回车发送

搞定 — 你现在正在本地和 Gemma 4 对话。

试试这些提示词

用小学生能听懂的方式解释量子计算。
写一个 Python 函数,找出字符串中最长的回文子串。
用表格对比远程办公的优缺点。

第四步:调整设置

点击聊天面板中的设置图标(齿轮),可以精细调节模型行为:

几个关键参数

Temperature(温度 0.0 - 2.0)

  • 低值(0.1-0.3):输出更确定、更聚焦。适合编程和问答。
  • 高值(0.7-1.0):输出更有创意和多样性。适合写作和头脑风暴。
  • 默认值:0.7

Context Length(上下文长度)

  • Gemma 4 最高支持 128K tokens 的上下文
  • LM Studio 允许你根据可用内存来设置
  • 建议先设 4096,有需要再增加

System Prompt(系统提示词)

  • 自定义系统提示词来定义 Gemma 4 的行为
  • 例如:"你是一个编程助手,回答时总是附带代码示例和解释。"

GPU Offloading(GPU 卸载)

  • 如果你有兼容的 GPU,LM Studio 可以将部分计算卸载到 GPU 来加速推理
  • 在设置中调整 GPU 层数

第五步:使用本地 API 服务器

LM Studio 自带 API 服务器,兼容 OpenAI API 格式。这意味着任何支持 OpenAI API 的工具都能直接对接你本地的 Gemma 4。

  1. 进入 Developer 标签页(左侧代码图标)
  2. 选择 Gemma 4 模型
  3. 点击「Start Server」
  4. 服务器默认运行在 http://localhost:1234

接下来就可以用代码调用了:

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:1234/v1",
    api_key="lm-studio"  # 随便填一个字符串就行
)

response = client.chat.completions.create(
    model="gemma-4",
    messages=[
        {"role": "user", "content": "法国的首都是哪里?"}
    ]
)

print(response.choices[0].message.content)
// Node.js / JavaScript
const response = await fetch("http://localhost:1234/v1/chat/completions", {
  method: "POST",
  headers: { "Content-Type": "application/json" },
  body: JSON.stringify({
    model: "gemma-4",
    messages: [{ role: "user", content: "你好,Gemma 4!" }]
  })
});

const data = await response.json();
console.log(data.choices[0].message.content);

LM Studio 和 Ollama 怎么选?

两者都能出色地在本地运行 Gemma 4,但定位不同:

对比项LM StudioOllama
操作界面完整图形界面命令行
上手难度点点鼠标就行需要打字敲命令
模型搜索内置浏览器搜索CLI 搜索或手动下载
参数调节可视化滑块和开关配置文件
API 服务一键启动安装后自动启动
资源占用略高(图形界面开销)更轻量
适合谁新手、视觉型用户开发者、自动化场景
模型格式GGUFOllama 格式(基于 GGUF)
价格免费免费

选 LM Studio 如果你:

  • 更喜欢图形界面而非终端
  • 想方便地浏览和比较不同模型版本
  • 刚接触本地 AI,想要最低门槛
  • 想在桌面上拥有 ChatGPT 般的体验

选 Ollama 如果你:

  • 习惯使用命令行
  • 需要把模型集成到脚本和自动化流程中
  • 希望占用更少系统资源
  • 想要一个简洁的后台服务

进阶玩法: 两个都装。很多开发者用 LM Studio 做日常聊天和模型测试,用 Ollama 跑脚本和自动化任务。

常见问题排查

模型加载不了

  • 检查可用内存是否足够,关掉其他吃内存的应用。
  • 换一个更小的量化版本(比如 Q4_K_M)。
  • 重启 LM Studio。

回复速度太慢

  • 减小上下文长度。
  • 换更小的模型(比如 E2B)。
  • 开启 GPU 卸载(如果你有独显)。
  • 关闭其他应用释放内存。

内存不足报错

  • 换更小的量化版本。
  • 把上下文长度降到 2048 或 4096。
  • 使用 Gemma 4 E2B。

API 服务器连不上

  • 确认服务器已启动(Developer 标签页中显示绿色指示灯)。
  • 确认 base URL 是 http://localhost:1234
  • 检查防火墙是否拦截了 1234 端口。

接下来做什么?

LM Studio + Gemma 4 已经跑起来了,可以进一步探索:

  • 试试不同大小的模型 — 轻量任务用 E2B,复杂推理用 26B
  • 为不同场景创建系统提示词 — 编程助手、写作帮手、翻译工具
  • 通过 API 连接更多工具 — 让 Gemma 4 融入你的工作流
  • 横向对比其他模型 — LM Studio 让你轻松切换模型

本地跑 AI,一切尽在掌握。没有订阅费、没有数据外传、没有速率限制——只有你和 Gemma 4。

Gemma 4 AI

Gemma 4 AI

相关教程