NVIDIA GPU 是在本機執行 Gemma 4 最簡單的路徑。無論你有預算型的 RTX 3060 或強悍的 RTX 4090,CUDA 生態系統讓設定變得直接。本指南涵蓋從驅動程式需求到進階 TensorRT-LLM 最佳化的一切。
CUDA 驅動程式需求
在做任何事之前,確認你的 NVIDIA 驅動程式和 CUDA toolkit 是最新的:
| 元件 | 最低版本 | 建議版本 |
|---|---|---|
| NVIDIA 驅動程式 | 535+ | 560+ |
| CUDA Toolkit | 12.1 | 12.4+ |
| cuDNN | 8.9 | 9.0+ |
| Python | 3.10 | 3.11+ |
檢查你目前的設定:
# 檢查驅動程式版本
nvidia-smi
# 檢查 CUDA 版本
nvcc --version
# 如果找不到 nvcc,CUDA toolkit 可能不在你的 PATH 中
export PATH=/usr/local/cuda/bin:$PATH更新驅動程式
在 Linux 上:
# Ubuntu/Debian
sudo apt update
sudo apt install nvidia-driver-560
sudo reboot在 Windows 上,從 nvidia.com/drivers 下載最新驅動程式或使用 GeForce Experience。
最簡單的方式:Ollama
Ollama 會自動偵測 NVIDIA GPU 並為你處理一切。不需要安裝 CUDA toolkit——Ollama 綑綁了自己的:
# 安裝 Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 執行 Gemma 4
ollama run gemma4:12b
# 驗證 GPU 正在被使用
ollama ps
# 應該在 processor 欄位看到 "GPU"就這樣。Ollama 偵測你的 NVIDIA GPU,將模型載入 VRAM,開始生成。對大多數使用者,這就是你需要的一切。
GPU 卸載設定
當你的模型無法完全塞進 VRAM 時,你可以在 GPU 和 CPU 之間分割。這叫做部分卸載:
# Ollama:控制有多少層進入 GPU
OLLAMA_NUM_GPU=35 ollama run gemma4:12b
# llama.cpp:指定 GPU 層
./llama-server -m gemma-4-12b-Q4_K_M.gguf -ngl 35
# 設為 0 表示僅 CPU,或 999 表示完全 GPU最佳點取決於你的 VRAM。一般規則:
| VRAM | 建議層數(12B Q4) | 意義 |
|---|---|---|
| 6GB | 15-20 | ~50% 在 GPU |
| 8GB | 25-30 | ~75% 在 GPU |
| 12GB | 35-40 | ~95% 在 GPU |
| 16GB+ | 999(全部) | 完全 GPU 加速 |
| 24GB+ | 999(全部) | 有空間給更長的上下文 |
RTX 效能比較
以下是不同 RTX 顯示卡在 Gemma 4 12B 推論速度的預期:
| GPU | VRAM | Q4_K_M (tok/s) | Q8_0 (tok/s) | FP16 (tok/s) | 備註 |
|---|---|---|---|---|---|
| RTX 3060 | 12GB | ~25 | ~15 | OOM | 很好的預算選擇 |
| RTX 3060 Ti | 8GB | ~20* | OOM | OOM | *部分卸載 |
| RTX 3070 | 8GB | ~22* | OOM | OOM | *部分卸載 |
| RTX 3090 | 24GB | ~40 | ~25 | ~12 | 依然出色 |
| RTX 4060 | 8GB | ~28* | OOM | OOM | *部分卸載 |
| RTX 4070 Ti | 12GB | ~38 | ~22 | OOM | 良好的中階 |
| RTX 4080 | 16GB | ~50 | ~30 | OOM | 強勁表現 |
| RTX 4090 | 24GB | ~65 | ~40 | ~20 | 消費級之王 |
OOM = 該量化層級記憶體不足
RTX 3060 12GB 老實說是 CP 值最好的——以 4090 零頭的價格提供 12GB VRAM,並以完全可用的速度執行 Q4 模型。
NVIDIA Jetson Orin 支援
Gemma 4 可在 NVIDIA 的 Jetson 平台上執行,使其可以部署在邊緣裝置:
# 在 Jetson Orin(JetPack 6.x)上
# 安裝 Ollama ARM64 版本
curl -fsSL https://ollama.com/install.sh | sh
# 執行較小的模型
ollama run gemma4:4b
# 1B 模型最適合 Jetson Orin Nano
ollama run gemma4:1b| Jetson 型號 | 記憶體 | 最佳 Gemma 4 模型 | 使用場景 |
|---|---|---|---|
| Orin Nano 8GB | 8GB | 1B 或 4B Q4 | 嵌入式 AI 助理 |
| Orin NX 16GB | 16GB | 4B 或 12B Q4 | 邊緣推論 |
| AGX Orin 64GB | 64GB | 12B FP16 或 27B Q4 | 完整功能的邊緣 AI |
DGX Spark
NVIDIA 的 DGX Spark 是一台桌面 AI 工作站,有 128GB 統一記憶體——它能以 FP16 輕鬆執行完整的 Gemma 4 27B:
# 在 DGX Spark 上,執行完整的 27B 模型
ollama run gemma4:27b
# 或以全精度執行
python -m vllm.entrypoints.openai.api_server \
--model google/gemma-4-27b-it \
--dtype float16 \
--max-model-len 32768TensorRT-LLM 最佳化
為了在 NVIDIA 硬體上達到最大吞吐量,TensorRT-LLM 專為你的 GPU 編譯模型:
# 安裝 TensorRT-LLM
pip install tensorrt-llm
# 轉換並最佳化模型
python convert_checkpoint.py \
--model_dir google/gemma-4-12b-it \
--output_dir ./gemma4-trt \
--dtype float16
# 建構 TensorRT 引擎
trtllm-build \
--checkpoint_dir ./gemma4-trt \
--output_dir ./gemma4-engine \
--max_batch_size 4 \
--max_input_len 4096 \
--max_seq_len 8192
# 執行推論
python run.py --engine_dir ./gemma4-engine --max_output_len 512TensorRT-LLM 通常比原生 PyTorch 提供 2-3 倍的吞吐量改善,但建構過程需要 10-30 分鐘,且引擎鎖定在你特定的 GPU 型號。
Flash Attention
確認 Flash Attention 已啟用以獲得更好的記憶體效率和速度:
# 安裝 Flash Attention 2
pip install flash-attn --no-build-isolation
# 驗證它正在被使用(在 Python 中)
python -c "import flash_attn; print(flash_attn.__version__)"大多數框架(vLLM、SGLang、transformers)在可用時自動使用 Flash Attention。它減少 VRAM 使用並增加速度,特別是在較長的上下文長度下。
下一步
- 需要硬體購買建議? 查看硬體需求指南 按預算的詳細建議
- 遇到錯誤? 疑難排解指南 涵蓋 CUDA 特定問題如驅動程式不匹配和 OOM 錯誤
- 想先試試 Ollama? 跟著我們的 Ollama 設定指南 走最簡單的路徑執行 Gemma 4
NVIDIA GPU 仍然是本機 AI 的黃金標準。成熟的驅動程式、廣泛的框架支援和 TensorRT-LLM 這類工具的組合,意味著你會花更少時間除錯,更多時間實際使用 Gemma 4。
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


