在本地运行 Gemma 4 意味着你的数据永远不会离开你的电脑。零 API 费用、无速率限制、完全隐私。本教程教你如何在 5 分钟内用 Ollama 跑起 Gemma 4。
你需要什么
- 至少 8GB 内存的电脑(推荐 16GB 以运行更大的模型)
- macOS、Windows 或 Linux 系统
- 约 2-5GB 可用磁盘空间(取决于模型大小)
第一步:安装 Ollama
访问 ollama.com 下载适合你操作系统的安装包。
macOS:
# 或通过 Homebrew 安装
brew install ollamaLinux:
curl -fsSL https://ollama.com/install.sh | shWindows: 从 ollama.com/download 下载安装包。
第二步:运行 Gemma 4
安装好 Ollama 后,运行 Gemma 4 只需一行命令:
ollama run gemma4就这么简单。Ollama 会自动下载模型并启动交互式对话。其他下载方式(Hugging Face、LM Studio、Kaggle)可以看下载安装全攻略。
选择合适的模型大小
Gemma 4 有四种规格,按需选择:
| 模型 | 参数量 | 内存需求 | 适用场景 | 命令 |
|---|---|---|---|---|
| E2B | 20亿 | ~4GB | 手机、轻量任务 | ollama run gemma4:e2b |
| E4B | 40亿 | ~6GB | 笔记本、日常使用 | ollama run gemma4:e4b |
| 26B MoE | 260亿 | ~16GB | 最佳性价比 | ollama run gemma4:26b |
| 31B Dense | 310亿 | ~20GB | 最高质量 | ollama run gemma4:31b |
建议: 如果你有一台现代笔记本,从 E4B 开始。它在速度和质量之间取得了最佳平衡。不知道选哪个?看看模型选择指南。
第三步:不同场景的使用方法
文字聊天
ollama run gemma4
>>> 用简单的话解释一下量子计算代码生成
ollama run gemma4
>>> 写一个 Python 函数,按字典的某个键对列表排序图片理解(多模态)
Gemma 4 可以分析图片:
ollama run gemma4
>>> 描述这张图片:/path/to/image.jpg使用 API
Ollama 还提供本地 API,地址为 http://localhost:11434:
curl http://localhost:11434/api/generate -d '{
"model": "gemma4",
"prompt": "什么是机器学习?"
}'性能优化技巧
- 关闭其他应用 — 为模型腾出更多内存
- 使用量化模型 — Ollama 默认提供量化版本,速度更快
- GPU 加速 — 如果有 NVIDIA GPU,Ollama 会自动使用
- 调整上下文长度 — 如需更长对话,设置
/set parameter num_ctx 8192
Gemma 4 本地运行 vs 云端 API
| 特性 | Gemma 4 本地(Ollama) | 云端 API(ChatGPT、Gemini) |
|---|---|---|
| 费用 | 永久免费 | 按 token 付费 |
| 隐私 | 100% 本地 | 数据发送到服务器 |
| 速度 | 取决于硬件 | 通常更快 |
| 网络 | 不需要 | 必须联网 |
| 速率限制 | 无 | 有 |
| 可定制性 | 完全控制 | 有限 |
常见问题
"内存不足" — 试试更小的模型:ollama run gemma4:e2b
响应很慢 — 确保没有其他重型应用在运行。检查 GPU 是否在使用:ollama ps
找不到模型 — 更新 Ollama:ollama update,然后重试。
更多问题的详细解决方案,看Gemma 4 常见问题排查。
下一步
- 在我们的 首页 对比 Gemma 4 不同模型
- 试试 LM Studio 的图形化界面
- 探索 Google AI Studio 的云端访问
Gemma 4 由 Google DeepMind 开发,采用 Apache 2.0 协议发布。本教程由 Gemma 4 AI 社区提供。



