Gemma 4 下载安装全攻略(所有方法汇总)

2026/04/07

想用 Gemma 4 但不知道怎么下载?别急,这篇把所有方法都给你列清楚了。不管你是命令行老手还是只想点点鼠标,总有一种方式适合你。

从最简单的开始说起。

方法一:Ollama(大多数人的首选)

Ollama 是上手最快的方式。一行命令,模型自动下载,直接就能聊。

# 先装 Ollama(macOS)
brew install ollama

# 然后一行搞定
ollama run gemma4

没了,就这么简单。下载、配置、启动全自动。

想要指定模型大小?加个标签就行:

ollama run gemma4:e2b    # 最小最快
ollama run gemma4:e4b    # 笔记本最佳选择
ollama run gemma4:26b    # MoE 架构,效率拉满
ollama run gemma4:31b    # 质量最强

想看完整的 Ollama 使用教程,可以看我们的 Ollama 详细指南

适合: 开发者、终端用户、追求效率的人。

方法二:LM Studio(最好的图形界面)

不想碰命令行?LM Studio 是个桌面应用,界面干净漂亮,下载模型跟逛应用商店一样。

步骤:

  1. lmstudio.ai 下载 LM Studio
  2. 打开应用,搜索 "gemma4"
  3. 点击你要的模型大小旁边的下载按钮
  4. 下完了点 "Chat" 就能开聊

LM Studio 还有个很方便的侧边栏,温度、上下文长度、系统提示词这些参数都能直接拖拉调整,不用改配置文件。

完整教程看这里:LM Studio 使用指南

适合: 不喜欢命令行的人、想可视化调参的人、初学者。

方法三:Hugging Face(下载原始权重)

这是给搞机器学习的同学准备的。直接下载模型权重,放到自己的推理流水线里用。

# 装 Hugging Face CLI
pip install huggingface-hub

# 下载 Gemma 4 E4B
huggingface-cli download google/gemma-4-e4b

# 或者下载特定的 GGUF 量化版本
huggingface-cli download google/gemma-4-e4b-GGUF \
  --include "gemma-4-e4b-Q4_K_M.gguf"

也可以直接去 huggingface.co/google 网页上搜 "gemma-4" 下载。

注意: 第一次下载需要在 Hugging Face 上同意 Google 的许可协议。是 Apache 2.0 开源协议,没什么奇怪的限制,点一下就行。

用 Python Transformers 加载:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "google/gemma-4-e4b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    device_map="auto",
    torch_dtype="auto"
)

input_text = "用简单的话解释量子计算"
inputs = tokenizer(input_text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

适合: ML 研究者、需要微调的人、有自己推理框架的团队。

方法四:Google AI Studio(不用下载)

什么都不想装?Google AI Studio 直接在浏览器里用,零配置。

打开 aistudio.google.com,选 Gemma 4 模型就能开聊。还能生成 API Key,拿来写代码调用。

# 拿到 API Key 后可以这样用
import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemma-4-e4b")
response = model.generate_content("写一首关于编程的诗")
print(response.text)

详细教程看:Google AI Studio 使用指南

适合: 快速体验、硬件不够的人、不想折腾环境的人。

方法五:Kaggle(另一个下载渠道)

Kaggle 上也有 Gemma 4。如果你本来就用 Kaggle,或者想白嫖 GPU 跑模型,这个渠道很不错。

步骤:

  1. 打开 kaggle.com/models/google/gemma-4
  2. 同意许可协议
  3. 直接下载,或者在 Kaggle Notebook 里用免费 GPU 跑
# 在有 GPU 的 Kaggle Notebook 里
import kagglehub

model_path = kagglehub.model_download("google/gemma-4/transformers/e4b")
print(f"模型下载到了: {model_path}")

适合: Kaggle 用户、想用免费 GPU 的人、学术研究。

选哪种方法?一张表搞定

方法配置时间难度需要 GPU?可离线?最适合
Ollama2 分钟简单不需要(有更好)开发者、日常使用
LM Studio5 分钟很简单不需要(有更好)喜欢 GUI 的人
Hugging Face10-15 分钟进阶建议有ML 工程师、微调
Google AI Studio30 秒很简单不需要快速体验
Kaggle5-10 分钟中等有免费 GPU!研究、实验

我的建议

  • 只是想试试? → Google AI Studio,零配置直接用。
  • 想天天本地跑? → Ollama,一行命令搞定。
  • 喜欢图形界面? → LM Studio,简洁好用。
  • 要做定制开发? → Hugging Face,完全控制。
  • 想白嫖算力? → Kaggle,免费 T4/P100 GPU。

硬盘空间需求

下载之前看看硬盘够不够:

模型GGUF (Q4_K_M)完整权重 (FP16)
E2B~1.5 GB~4 GB
E4B~3 GB~8 GB
26B MoE~8 GB~52 GB
31B Dense~18 GB~62 GB

日常使用的话,GGUF 量化版本完全够了,体积小很多,质量差别几乎感觉不出来。不确定自己的电脑能不能跑?先看看硬件配置要求再决定下哪个。

下载遇到问题?

下载太慢?

  • Hugging Face:装 pip install hf-transfer 然后设置 HF_HUB_ENABLE_HF_TRANSFER=1 加速
  • 国内用户可以试试 Hugging Face 镜像站
  • Ollama 下载一般很快,检查一下网络连接

硬盘空间不够?

  • 先从 E2B 或 E4B 开始,它们小很多
  • 用 GGUF Q4 量化版本代替全精度权重
  • 清理旧模型:ollama rm <模型名>

Hugging Face 显示没权限?

  • 确保已登录:huggingface-cli login
  • 在模型页面先点同意许可协议

下一步

模型下好了?接着看这些:

Gemma 4 AI

Gemma 4 AI

相关教程