想用 Gemma 4 但不知道怎麼下載?別急,這篇把所有方法都幫你整理好了。不管你是指令列老手還是只想點點滑鼠,總有一種方式適合你。
從最簡單的開始說起。
方法一:Ollama(大多數人的首選)
Ollama 是上手最快的方式。一行指令,模型自動下載,直接就能聊。
# 先裝 Ollama(macOS)
brew install ollama
# 然後一行搞定
ollama run gemma4沒了,就這麼簡單。下載、設定、啟動全自動。
想要指定模型大小?加個標籤就行:
ollama run gemma4:e2b # 最小最快
ollama run gemma4:e4b # 筆電最佳選擇
ollama run gemma4:26b # MoE 架構,效率拉滿
ollama run gemma4:31b # 品質最強想看完整的 Ollama 使用教學,可以看我們的 Ollama 詳細指南。
適合: 開發者、終端機使用者、追求效率的人。
方法二:LM Studio(最好的圖形介面)
不想碰指令列?LM Studio 是個桌面應用程式,介面乾淨漂亮,下載模型跟逛應用程式商店一樣。
步驟:
- 從 lmstudio.ai 下載 LM Studio
- 打開應用程式,搜尋 "gemma4"
- 點選你要的模型大小旁邊的下載按鈕
- 下完了點 "Chat" 就能開聊
LM Studio 還有個很方便的側邊欄,溫度、上下文長度、系統提示詞這些參數都能直接拖拉調整,不用改設定檔。
完整教學看這裡:LM Studio 使用指南。
適合: 不喜歡指令列的人、想視覺化調參的人、初學者。
方法三:Hugging Face(下載原始權重)
這是給做機器學習的朋友準備的。直接下載模型權重,放到自己的推論流水線裡用。
# 裝 Hugging Face CLI
pip install huggingface-hub
# 下載 Gemma 4 E4B
huggingface-cli download google/gemma-4-e4b
# 或者下載特定的 GGUF 量化版本
huggingface-cli download google/gemma-4-e4b-GGUF \
--include "gemma-4-e4b-Q4_K_M.gguf"也可以直接去 huggingface.co/google 網頁上搜 "gemma-4" 下載。
注意: 第一次下載需要在 Hugging Face 上同意 Google 的授權條款。是 Apache 2.0 開源授權,沒什麼奇怪的限制,點一下就行。
用 Python Transformers 載入:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "google/gemma-4-e4b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
device_map="auto",
torch_dtype="auto"
)
input_text = "用簡單的話解釋量子計算"
inputs = tokenizer(input_text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))適合: ML 研究者、需要微調的人、有自己推論框架的團隊。
方法四:Google AI Studio(不用下載)
什麼都不想裝?Google AI Studio 直接在瀏覽器裡用,零設定。
打開 aistudio.google.com,選 Gemma 4 模型就能開聊。還能產生 API Key,拿來寫程式呼叫。
# 拿到 API Key 後可以這樣用
import google.generativeai as genai
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemma-4-e4b")
response = model.generate_content("寫一首關於寫程式的詩")
print(response.text)詳細教學看:Google AI Studio 使用指南。
適合: 快速體驗、硬體不夠的人、不想折騰環境的人。
方法五:Kaggle(另一個下載管道)
Kaggle 上也有 Gemma 4。如果你本來就用 Kaggle,或者想免費用 GPU 跑模型,這個管道很不錯。
步驟:
- 打開 kaggle.com/models/google/gemma-4
- 同意授權條款
- 直接下載,或者在 Kaggle Notebook 裡用免費 GPU 跑
# 在有 GPU 的 Kaggle Notebook 裡
import kagglehub
model_path = kagglehub.model_download("google/gemma-4/transformers/e4b")
print(f"模型下載到了: {model_path}")適合: Kaggle 使用者、想用免費 GPU 的人、學術研究。
選哪種方法?一張表搞定
| 方法 | 設定時間 | 難度 | 需要 GPU? | 可離線? | 最適合 |
|---|---|---|---|---|---|
| Ollama | 2 分鐘 | 簡單 | 不需要(有更好) | 是 | 開發者、日常使用 |
| LM Studio | 5 分鐘 | 很簡單 | 不需要(有更好) | 是 | 喜歡 GUI 的人 |
| Hugging Face | 10-15 分鐘 | 進階 | 建議有 | 是 | ML 工程師、微調 |
| Google AI Studio | 30 秒 | 很簡單 | 不需要 | 否 | 快速體驗 |
| Kaggle | 5-10 分鐘 | 中等 | 有免費 GPU! | 否 | 研究、實驗 |
我的建議
- 只是想試試? → Google AI Studio,零設定直接用。
- 想天天本機跑? → Ollama,一行指令搞定。
- 喜歡圖形介面? → LM Studio,簡潔好用。
- 要做客製化開發? → Hugging Face,完全掌控。
- 想免費用算力? → Kaggle,免費 T4/P100 GPU。
硬碟空間需求
下載之前看看硬碟夠不夠:
| 模型 | GGUF (Q4_K_M) | 完整權重 (FP16) |
|---|---|---|
| E2B | ~1.5 GB | ~4 GB |
| E4B | ~3 GB | ~8 GB |
| 26B MoE | ~8 GB | ~52 GB |
| 31B Dense | ~18 GB | ~62 GB |
日常使用的話,GGUF 量化版本完全夠了,檔案小很多,品質差別幾乎感覺不出來。不確定自己的電腦能不能跑?先看看硬體設定需求再決定下哪個。
下載遇到問題?
下載太慢?
- Hugging Face:裝
pip install hf-transfer然後設定HF_HUB_ENABLE_HF_TRANSFER=1加速 - 可以試試 Hugging Face 鏡像站
- Ollama 下載一般很快,檢查一下網路連線
硬碟空間不夠?
- 先從 E2B 或 E4B 開始,它們小很多
- 用 GGUF Q4 量化版本代替全精度權重
- 清理舊模型:
ollama rm <模型名>
Hugging Face 顯示沒權限?
- 確保已登入:
huggingface-cli login - 在模型頁面先點同意授權條款
下一步
模型下好了?接著看這些:
- Ollama 詳細設定 → Ollama 執行 Gemma 4 完整指南
- LM Studio 設定 → LM Studio 使用指南
- 選哪個模型大小 → Gemma 4 該選哪個版本?
- 遇到問題了? → Gemma 4 常見問題排查
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


