想用 Gemma 4 但不知道怎么下载?别急,这篇把所有方法都给你列清楚了。不管你是命令行老手还是只想点点鼠标,总有一种方式适合你。
从最简单的开始说起。
方法一:Ollama(大多数人的首选)
Ollama 是上手最快的方式。一行命令,模型自动下载,直接就能聊。
# 先装 Ollama(macOS)
brew install ollama
# 然后一行搞定
ollama run gemma4没了,就这么简单。下载、配置、启动全自动。
想要指定模型大小?加个标签就行:
ollama run gemma4:e2b # 最小最快
ollama run gemma4:e4b # 笔记本最佳选择
ollama run gemma4:26b # MoE 架构,效率拉满
ollama run gemma4:31b # 质量最强想看完整的 Ollama 使用教程,可以看我们的 Ollama 详细指南。
适合: 开发者、终端用户、追求效率的人。
方法二:LM Studio(最好的图形界面)
不想碰命令行?LM Studio 是个桌面应用,界面干净漂亮,下载模型跟逛应用商店一样。
步骤:
- 从 lmstudio.ai 下载 LM Studio
- 打开应用,搜索 "gemma4"
- 点击你要的模型大小旁边的下载按钮
- 下完了点 "Chat" 就能开聊
LM Studio 还有个很方便的侧边栏,温度、上下文长度、系统提示词这些参数都能直接拖拉调整,不用改配置文件。
完整教程看这里:LM Studio 使用指南。
适合: 不喜欢命令行的人、想可视化调参的人、初学者。
方法三:Hugging Face(下载原始权重)
这是给搞机器学习的同学准备的。直接下载模型权重,放到自己的推理流水线里用。
# 装 Hugging Face CLI
pip install huggingface-hub
# 下载 Gemma 4 E4B
huggingface-cli download google/gemma-4-e4b
# 或者下载特定的 GGUF 量化版本
huggingface-cli download google/gemma-4-e4b-GGUF \
--include "gemma-4-e4b-Q4_K_M.gguf"也可以直接去 huggingface.co/google 网页上搜 "gemma-4" 下载。
注意: 第一次下载需要在 Hugging Face 上同意 Google 的许可协议。是 Apache 2.0 开源协议,没什么奇怪的限制,点一下就行。
用 Python Transformers 加载:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "google/gemma-4-e4b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
device_map="auto",
torch_dtype="auto"
)
input_text = "用简单的话解释量子计算"
inputs = tokenizer(input_text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))适合: ML 研究者、需要微调的人、有自己推理框架的团队。
方法四:Google AI Studio(不用下载)
什么都不想装?Google AI Studio 直接在浏览器里用,零配置。
打开 aistudio.google.com,选 Gemma 4 模型就能开聊。还能生成 API Key,拿来写代码调用。
# 拿到 API Key 后可以这样用
import google.generativeai as genai
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemma-4-e4b")
response = model.generate_content("写一首关于编程的诗")
print(response.text)详细教程看:Google AI Studio 使用指南。
适合: 快速体验、硬件不够的人、不想折腾环境的人。
方法五:Kaggle(另一个下载渠道)
Kaggle 上也有 Gemma 4。如果你本来就用 Kaggle,或者想白嫖 GPU 跑模型,这个渠道很不错。
步骤:
- 打开 kaggle.com/models/google/gemma-4
- 同意许可协议
- 直接下载,或者在 Kaggle Notebook 里用免费 GPU 跑
# 在有 GPU 的 Kaggle Notebook 里
import kagglehub
model_path = kagglehub.model_download("google/gemma-4/transformers/e4b")
print(f"模型下载到了: {model_path}")适合: Kaggle 用户、想用免费 GPU 的人、学术研究。
选哪种方法?一张表搞定
| 方法 | 配置时间 | 难度 | 需要 GPU? | 可离线? | 最适合 |
|---|---|---|---|---|---|
| Ollama | 2 分钟 | 简单 | 不需要(有更好) | 是 | 开发者、日常使用 |
| LM Studio | 5 分钟 | 很简单 | 不需要(有更好) | 是 | 喜欢 GUI 的人 |
| Hugging Face | 10-15 分钟 | 进阶 | 建议有 | 是 | ML 工程师、微调 |
| Google AI Studio | 30 秒 | 很简单 | 不需要 | 否 | 快速体验 |
| Kaggle | 5-10 分钟 | 中等 | 有免费 GPU! | 否 | 研究、实验 |
我的建议
- 只是想试试? → Google AI Studio,零配置直接用。
- 想天天本地跑? → Ollama,一行命令搞定。
- 喜欢图形界面? → LM Studio,简洁好用。
- 要做定制开发? → Hugging Face,完全控制。
- 想白嫖算力? → Kaggle,免费 T4/P100 GPU。
硬盘空间需求
下载之前看看硬盘够不够:
| 模型 | GGUF (Q4_K_M) | 完整权重 (FP16) |
|---|---|---|
| E2B | ~1.5 GB | ~4 GB |
| E4B | ~3 GB | ~8 GB |
| 26B MoE | ~8 GB | ~52 GB |
| 31B Dense | ~18 GB | ~62 GB |
日常使用的话,GGUF 量化版本完全够了,体积小很多,质量差别几乎感觉不出来。不确定自己的电脑能不能跑?先看看硬件配置要求再决定下哪个。
下载遇到问题?
下载太慢?
- Hugging Face:装
pip install hf-transfer然后设置HF_HUB_ENABLE_HF_TRANSFER=1加速 - 国内用户可以试试 Hugging Face 镜像站
- Ollama 下载一般很快,检查一下网络连接
硬盘空间不够?
- 先从 E2B 或 E4B 开始,它们小很多
- 用 GGUF Q4 量化版本代替全精度权重
- 清理旧模型:
ollama rm <模型名>
Hugging Face 显示没权限?
- 确保已登录:
huggingface-cli login - 在模型页面先点同意许可协议
下一步
模型下好了?接着看这些:
- Ollama 详细配置 → Ollama 运行 Gemma 4 完整指南
- LM Studio 设置 → LM Studio 使用指南
- 选哪个模型大小 → Gemma 4 选哪个版本?
- 遇到问题了? → Gemma 4 常见问题排查



