如何用 Ollama 在本地运行 Gemma 4:完整教程(2026)

2026/04/06
|Updated: 2026/04/07

在本地运行 Gemma 4 意味着你的数据永远不会离开你的电脑。零 API 费用、无速率限制、完全隐私。本教程教你如何在 5 分钟内用 Ollama 跑起 Gemma 4。

你需要什么

  • 至少 8GB 内存的电脑(推荐 16GB 以运行更大的模型)
  • macOS、Windows 或 Linux 系统
  • 约 2-5GB 可用磁盘空间(取决于模型大小)

第一步:安装 Ollama

访问 ollama.com 下载适合你操作系统的安装包。

macOS:

# 或通过 Homebrew 安装
brew install ollama

Linux:

curl -fsSL https://ollama.com/install.sh | sh

Windows:ollama.com/download 下载安装包。

第二步:运行 Gemma 4

安装好 Ollama 后,运行 Gemma 4 只需一行命令:

ollama run gemma4

就这么简单。Ollama 会自动下载模型并启动交互式对话。其他下载方式(Hugging Face、LM Studio、Kaggle)可以看下载安装全攻略

选择合适的模型大小

Gemma 4 有四种规格,按需选择:

模型参数量内存需求适用场景命令
E2B20亿~4GB手机、轻量任务ollama run gemma4:e2b
E4B40亿~6GB笔记本、日常使用ollama run gemma4:e4b
26B MoE260亿~16GB最佳性价比ollama run gemma4:26b
31B Dense310亿~20GB最高质量ollama run gemma4:31b

建议: 如果你有一台现代笔记本,从 E4B 开始。它在速度和质量之间取得了最佳平衡。不知道选哪个?看看模型选择指南

第三步:不同场景的使用方法

文字聊天

ollama run gemma4
>>> 用简单的话解释一下量子计算

代码生成

ollama run gemma4
>>> 写一个 Python 函数,按字典的某个键对列表排序

图片理解(多模态)

Gemma 4 可以分析图片:

ollama run gemma4
>>> 描述这张图片:/path/to/image.jpg

使用 API

Ollama 还提供本地 API,地址为 http://localhost:11434

curl http://localhost:11434/api/generate -d '{
  "model": "gemma4",
  "prompt": "什么是机器学习?"
}'

性能优化技巧

  1. 关闭其他应用 — 为模型腾出更多内存
  2. 使用量化模型 — Ollama 默认提供量化版本,速度更快
  3. GPU 加速 — 如果有 NVIDIA GPU,Ollama 会自动使用
  4. 调整上下文长度 — 如需更长对话,设置 /set parameter num_ctx 8192

Gemma 4 本地运行 vs 云端 API

特性Gemma 4 本地(Ollama)云端 API(ChatGPT、Gemini)
费用永久免费按 token 付费
隐私100% 本地数据发送到服务器
速度取决于硬件通常更快
网络不需要必须联网
速率限制
可定制性完全控制有限

常见问题

"内存不足" — 试试更小的模型:ollama run gemma4:e2b

响应很慢 — 确保没有其他重型应用在运行。检查 GPU 是否在使用:ollama ps

找不到模型 — 更新 Ollama:ollama update,然后重试。

更多问题的详细解决方案,看Gemma 4 常见问题排查

下一步


Gemma 4 由 Google DeepMind 开发,采用 Apache 2.0 协议发布。本教程由 Gemma 4 AI 社区提供。

Gemma 4 AI

Gemma 4 AI

相关教程