Docker 提供可重現、隔離的 AI 部署。同樣的容器,同樣的結果——無論是在你的筆電、測試伺服器或正式環境。不再有「在我機器上能跑」的問題。
讓我們從頭開始在 Docker 中設定 Gemma 4。
為什麼用 Docker 部署 AI?
- 可重現:鎖定你的 Ollama 版本、模型檔案和設定
- 隔離:不會搞亂你主機系統的 Python、CUDA 或其他東西
- 可攜:建構一次,到處部署
- 輕鬆清理:
docker compose down就沒了
如果你只是個人使用 Gemma 4,直接用 Ollama 更簡單。當你需要跨環境一致的部署或想將 Gemma 4 打包進更大的應用程式堆疊時,Docker 才能發光。
用 Docker Run 快速開始
在 Docker 中讓 Gemma 4 執行起來最快的方式:
# 在 Docker 中執行 Ollama
docker run -d \
--name gemma4 \
-p 11434:11434 \
-v ollama-data:/root/.ollama \
ollama/ollama
# 下載並執行 Gemma 4
docker exec gemma4 ollama pull gemma4:26b
docker exec -it gemma4 ollama run gemma4:26b就這樣——三個指令。-v ollama-data:/root/.ollama 確保你的模型在容器重啟時持久化。
使用 Ollama 的 Dockerfile
為了更多控制,建構自訂映像檔:
FROM ollama/ollama:latest
# 設定環境變數
ENV OLLAMA_HOST=0.0.0.0
ENV OLLAMA_KEEP_ALIVE=24h
# 建立啟動腳本,首次執行時下載模型
COPY <<'EOF' /start.sh
#!/bin/bash
ollama serve &
sleep 5
# 若模型尚未存在則下載
if ! ollama list | grep -q "gemma4:26b"; then
echo "Pulling Gemma 4 26B..."
ollama pull gemma4:26b
fi
# 保持容器執行
wait
EOF
RUN chmod +x /start.sh
EXPOSE 11434
CMD ["/start.sh"]建構並執行:
docker build -t gemma4-server .
docker run -d --name gemma4 -p 11434:11434 -v ollama-data:/root/.ollama gemma4-serverDocker Compose(推薦)
為了正確的設定,使用 docker-compose.yml:
version: "3.8"
services:
ollama:
image: ollama/ollama:latest
container_name: gemma4-ollama
ports:
- "11434:11434"
volumes:
- ollama-models:/root/.ollama
environment:
- OLLAMA_HOST=0.0.0.0
- OLLAMA_KEEP_ALIVE=24h
restart: unless-stopped
healthcheck:
test: ["CMD", "curl", "-f", "http://localhost:11434/api/tags"]
interval: 30s
timeout: 10s
retries: 5
start_period: 30s
webui:
image: ghcr.io/open-webui/open-webui:main
container_name: gemma4-webui
ports:
- "3000:8080"
volumes:
- webui-data:/app/backend/data
environment:
- OLLAMA_BASE_URL=http://ollama:11434
depends_on:
ollama:
condition: service_healthy
restart: unless-stopped
volumes:
ollama-models:
driver: local
webui-data:
driver: local這讓你得到 Ollama + Open WebUI——一個完整的 Gemma 4 類 ChatGPT 介面:
# 啟動全部
docker compose up -d
# 下載 Gemma 4
docker exec gemma4-ollama ollama pull gemma4:26b
# 打開網頁介面
open http://localhost:3000GPU 直通(NVIDIA)
要在 Docker 內使用 GPU,你需要 NVIDIA Container Toolkit:
# 安裝 NVIDIA Container Toolkit (Ubuntu/Debian)
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | \
sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit
# 設定 Docker 使用 NVIDIA runtime
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker
# 驗證
docker run --rm --gpus all nvidia/cuda:12.0-base nvidia-smi更新你的 docker-compose.yml 以使用 GPU:
services:
ollama:
image: ollama/ollama:latest
ports:
- "11434:11434"
volumes:
- ollama-models:/root/.ollama
environment:
- OLLAMA_HOST=0.0.0.0
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: all
capabilities: [gpu]
restart: unless-stopped注意: 在 Apple Silicon 的 Mac 上,Docker 在 Linux 虛擬機中執行,無法存取 Metal 加速。在 Mac 上,請改為原生執行 Ollama——你會自動得到 Metal GPU 加速。查看我們的 Mac 效能指南 了解詳情。
持久化模型儲存
模型是大檔案。你不會想在每次容器重啟時重新下載它們。
Named volume(推薦——Docker 管理儲存):
volumes:
ollama-models:
driver: localBind mount(你選擇路徑——適合管理硬碟空間):
volumes:
- /data/ollama-models:/root/.ollama檢查模型儲存大小:
docker exec gemma4-ollama du -sh /root/.ollama/models| 模型 | 大約大小(Q4) |
|---|---|
| Gemma 4 E2B | ~1.5 GB |
| Gemma 4 E4B | ~2.5 GB |
| Gemma 4 26B | ~15 GB |
| Gemma 4 31B | ~18 GB |
多模型設定
想為不同的使用場景執行多個 Gemma 4 大小?簡單:
# 下載多個模型
docker exec gemma4-ollama ollama pull gemma4:e4b # 快速、簡單任務
docker exec gemma4-ollama ollama pull gemma4:26b # 大多數任務
docker exec gemma4-ollama ollama pull gemma4:31b # 最高品質
# 列出所有模型
docker exec gemma4-ollama ollama listOllama 按需載入模型並卸載閒置的模型。只有活躍模型會使用 VRAM。你可以設定模型保持載入的時間:
environment:
- OLLAMA_KEEP_ALIVE=5m # 閒置 5 分鐘後卸載
- OLLAMA_MAX_LOADED_MODELS=2 # 保持最多 2 個模型載入公開 API
Ollama API 預設在 port 11434 上執行。容器執行後:
# 列出可用模型
curl http://localhost:11434/api/tags
# 生成回應
curl http://localhost:11434/api/chat -d '{
"model": "gemma4:26b",
"messages": [{"role": "user", "content": "Hello!"}]
}'
# API 也相容 OpenAI
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4:26b",
"messages": [{"role": "user", "content": "Hello!"}]
}'詳細的 API 用法請看我們的 API 教學。對於更高吞吐量的正式環境服務,考慮 Docker 中的 vLLM。
實用的 Docker 指令
# 查看 log
docker compose logs -f ollama
# 檢查資源使用
docker stats gemma4-ollama
# 進入容器
docker exec -it gemma4-ollama bash
# 停止全部
docker compose down
# 停止並移除模型資料
docker compose down -v
# 更新 Ollama 映像檔
docker compose pull && docker compose up -d下一步
- 部署到正式環境:vLLM + Docker 指南
- 在你的應用中使用 API:API 教學
- 從 Gemma 4 取得可靠的 JSON:結構化輸出指南
- 在 Mac 上原生執行:Mac 效能指南
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


