0% read

如何在 NVIDIA RTX 上執行 Gemma 4(CUDA 設定與最佳化)

Apr 7, 2026

NVIDIA GPU 是在本機執行 Gemma 4 最簡單的路徑。無論你有預算型的 RTX 3060 或強悍的 RTX 4090,CUDA 生態系統讓設定變得直接。本指南涵蓋從驅動程式需求到進階 TensorRT-LLM 最佳化的一切。

CUDA 驅動程式需求

在做任何事之前,確認你的 NVIDIA 驅動程式和 CUDA toolkit 是最新的:

元件最低版本建議版本
NVIDIA 驅動程式535+560+
CUDA Toolkit12.112.4+
cuDNN8.99.0+
Python3.103.11+

檢查你目前的設定:

# 檢查驅動程式版本
nvidia-smi

# 檢查 CUDA 版本
nvcc --version

# 如果找不到 nvcc,CUDA toolkit 可能不在你的 PATH 中
export PATH=/usr/local/cuda/bin:$PATH

更新驅動程式

在 Linux 上:

# Ubuntu/Debian
sudo apt update
sudo apt install nvidia-driver-560
sudo reboot

在 Windows 上,從 nvidia.com/drivers 下載最新驅動程式或使用 GeForce Experience。

最簡單的方式:Ollama

Ollama 會自動偵測 NVIDIA GPU 並為你處理一切。不需要安裝 CUDA toolkit——Ollama 綑綁了自己的:

# 安裝 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 執行 Gemma 4
ollama run gemma4:12b

# 驗證 GPU 正在被使用
ollama ps
# 應該在 processor 欄位看到 "GPU"

就這樣。Ollama 偵測你的 NVIDIA GPU,將模型載入 VRAM,開始生成。對大多數使用者,這就是你需要的一切。

GPU 卸載設定

當你的模型無法完全塞進 VRAM 時,你可以在 GPU 和 CPU 之間分割。這叫做部分卸載:

# Ollama:控制有多少層進入 GPU
OLLAMA_NUM_GPU=35 ollama run gemma4:12b

# llama.cpp:指定 GPU 層
./llama-server -m gemma-4-12b-Q4_K_M.gguf -ngl 35

# 設為 0 表示僅 CPU,或 999 表示完全 GPU

最佳點取決於你的 VRAM。一般規則:

VRAM建議層數(12B Q4)意義
6GB15-20~50% 在 GPU
8GB25-30~75% 在 GPU
12GB35-40~95% 在 GPU
16GB+999(全部)完全 GPU 加速
24GB+999(全部)有空間給更長的上下文

RTX 效能比較

以下是不同 RTX 顯示卡在 Gemma 4 12B 推論速度的預期:

GPUVRAMQ4_K_M (tok/s)Q8_0 (tok/s)FP16 (tok/s)備註
RTX 306012GB~25~15OOM很好的預算選擇
RTX 3060 Ti8GB~20*OOMOOM*部分卸載
RTX 30708GB~22*OOMOOM*部分卸載
RTX 309024GB~40~25~12依然出色
RTX 40608GB~28*OOMOOM*部分卸載
RTX 4070 Ti12GB~38~22OOM良好的中階
RTX 408016GB~50~30OOM強勁表現
RTX 409024GB~65~40~20消費級之王

OOM = 該量化層級記憶體不足

RTX 3060 12GB 老實說是 CP 值最好的——以 4090 零頭的價格提供 12GB VRAM,並以完全可用的速度執行 Q4 模型。

NVIDIA Jetson Orin 支援

Gemma 4 可在 NVIDIA 的 Jetson 平台上執行,使其可以部署在邊緣裝置:

# 在 Jetson Orin(JetPack 6.x)上
# 安裝 Ollama ARM64 版本
curl -fsSL https://ollama.com/install.sh | sh

# 執行較小的模型
ollama run gemma4:4b

# 1B 模型最適合 Jetson Orin Nano
ollama run gemma4:1b
Jetson 型號記憶體最佳 Gemma 4 模型使用場景
Orin Nano 8GB8GB1B 或 4B Q4嵌入式 AI 助理
Orin NX 16GB16GB4B 或 12B Q4邊緣推論
AGX Orin 64GB64GB12B FP16 或 27B Q4完整功能的邊緣 AI

DGX Spark

NVIDIA 的 DGX Spark 是一台桌面 AI 工作站,有 128GB 統一記憶體——它能以 FP16 輕鬆執行完整的 Gemma 4 27B:

# 在 DGX Spark 上,執行完整的 27B 模型
ollama run gemma4:27b

# 或以全精度執行
python -m vllm.entrypoints.openai.api_server \
  --model google/gemma-4-27b-it \
  --dtype float16 \
  --max-model-len 32768

TensorRT-LLM 最佳化

為了在 NVIDIA 硬體上達到最大吞吐量,TensorRT-LLM 專為你的 GPU 編譯模型:

# 安裝 TensorRT-LLM
pip install tensorrt-llm

# 轉換並最佳化模型
python convert_checkpoint.py \
  --model_dir google/gemma-4-12b-it \
  --output_dir ./gemma4-trt \
  --dtype float16

# 建構 TensorRT 引擎
trtllm-build \
  --checkpoint_dir ./gemma4-trt \
  --output_dir ./gemma4-engine \
  --max_batch_size 4 \
  --max_input_len 4096 \
  --max_seq_len 8192

# 執行推論
python run.py --engine_dir ./gemma4-engine --max_output_len 512

TensorRT-LLM 通常比原生 PyTorch 提供 2-3 倍的吞吐量改善,但建構過程需要 10-30 分鐘,且引擎鎖定在你特定的 GPU 型號。

Flash Attention

確認 Flash Attention 已啟用以獲得更好的記憶體效率和速度:

# 安裝 Flash Attention 2
pip install flash-attn --no-build-isolation

# 驗證它正在被使用(在 Python 中)
python -c "import flash_attn; print(flash_attn.__version__)"

大多數框架(vLLM、SGLang、transformers)在可用時自動使用 Flash Attention。它減少 VRAM 使用並增加速度,特別是在較長的上下文長度下。

下一步

NVIDIA GPU 仍然是本機 AI 的黃金標準。成熟的驅動程式、廣泛的框架支援和 TensorRT-LLM 這類工具的組合,意味著你會花更少時間除錯,更多時間實際使用 Gemma 4。

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

如何在 NVIDIA RTX 上執行 Gemma 4(CUDA 設定與最佳化) | 部落格