如何在 NVIDIA RTX 上執行 Gemma 4（CUDA 設定與最佳化）

NVIDIA GPU 是在本機執行 Gemma 4 最簡單的路徑。無論你有預算型的 RTX 3060 或強悍的 RTX 4090，CUDA 生態系統讓設定變得直接。本指南涵蓋從驅動程式需求到進階 TensorRT-LLM 最佳化的一切。

CUDA 驅動程式需求

在做任何事之前，確認你的 NVIDIA 驅動程式和 CUDA toolkit 是最新的：

元件	最低版本	建議版本
NVIDIA 驅動程式	535+	560+
CUDA Toolkit	12.1	12.4+
cuDNN	8.9	9.0+
Python	3.10	3.11+

檢查你目前的設定：

# 檢查驅動程式版本
nvidia-smi

# 檢查 CUDA 版本
nvcc --version

# 如果找不到 nvcc，CUDA toolkit 可能不在你的 PATH 中
export PATH=/usr/local/cuda/bin:$PATH

更新驅動程式

在 Linux 上：

# Ubuntu/Debian
sudo apt update
sudo apt install nvidia-driver-560
sudo reboot

在 Windows 上，從 nvidia.com/drivers 下載最新驅動程式或使用 GeForce Experience。

最簡單的方式：Ollama

Ollama 會自動偵測 NVIDIA GPU 並為你處理一切。不需要安裝 CUDA toolkit——Ollama 綑綁了自己的：

# 安裝 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 執行 Gemma 4
ollama run gemma4:12b

# 驗證 GPU 正在被使用
ollama ps
# 應該在 processor 欄位看到 "GPU"

就這樣。Ollama 偵測你的 NVIDIA GPU，將模型載入 VRAM，開始生成。對大多數使用者，這就是你需要的一切。

GPU 卸載設定

當你的模型無法完全塞進 VRAM 時，你可以在 GPU 和 CPU 之間分割。這叫做部分卸載：

# Ollama：控制有多少層進入 GPU
OLLAMA_NUM_GPU=35 ollama run gemma4:12b

# llama.cpp：指定 GPU 層
./llama-server -m gemma-4-12b-Q4_K_M.gguf -ngl 35

# 設為 0 表示僅 CPU，或 999 表示完全 GPU

最佳點取決於你的 VRAM。一般規則：

VRAM	建議層數（12B Q4）	意義
6GB	15-20	~50% 在 GPU
8GB	25-30	~75% 在 GPU
12GB	35-40	~95% 在 GPU
16GB+	999（全部）	完全 GPU 加速
24GB+	999（全部）	有空間給更長的上下文

RTX 效能比較

以下是不同 RTX 顯示卡在 Gemma 4 12B 推論速度的預期：

GPU	VRAM	Q4_K_M (tok/s)	Q8_0 (tok/s)	FP16 (tok/s)	備註
RTX 3060	12GB	~25	~15	OOM	很好的預算選擇
RTX 3060 Ti	8GB	~20*	OOM	OOM	*部分卸載
RTX 3070	8GB	~22*	OOM	OOM	*部分卸載
RTX 3090	24GB	~40	~25	~12	依然出色
RTX 4060	8GB	~28*	OOM	OOM	*部分卸載
RTX 4070 Ti	12GB	~38	~22	OOM	良好的中階
RTX 4080	16GB	~50	~30	OOM	強勁表現
RTX 4090	24GB	~65	~40	~20	消費級之王

OOM = 該量化層級記憶體不足

RTX 3060 12GB 老實說是 CP 值最好的——以 4090 零頭的價格提供 12GB VRAM，並以完全可用的速度執行 Q4 模型。

NVIDIA Jetson Orin 支援

Gemma 4 可在 NVIDIA 的 Jetson 平台上執行，使其可以部署在邊緣裝置：

# 在 Jetson Orin（JetPack 6.x）上
# 安裝 Ollama ARM64 版本
curl -fsSL https://ollama.com/install.sh | sh

# 執行較小的模型
ollama run gemma4:4b

# 1B 模型最適合 Jetson Orin Nano
ollama run gemma4:1b

Jetson 型號	記憶體	最佳 Gemma 4 模型	使用場景
Orin Nano 8GB	8GB	1B 或 4B Q4	嵌入式 AI 助理
Orin NX 16GB	16GB	4B 或 12B Q4	邊緣推論
AGX Orin 64GB	64GB	12B FP16 或 27B Q4	完整功能的邊緣 AI

DGX Spark

NVIDIA 的 DGX Spark 是一台桌面 AI 工作站，有 128GB 統一記憶體——它能以 FP16 輕鬆執行完整的 Gemma 4 27B：

# 在 DGX Spark 上，執行完整的 27B 模型
ollama run gemma4:27b

# 或以全精度執行
python -m vllm.entrypoints.openai.api_server \
  --model google/gemma-4-27b-it \
  --dtype float16 \
  --max-model-len 32768

TensorRT-LLM 最佳化

為了在 NVIDIA 硬體上達到最大吞吐量，TensorRT-LLM 專為你的 GPU 編譯模型：

# 安裝 TensorRT-LLM
pip install tensorrt-llm

# 轉換並最佳化模型
python convert_checkpoint.py \
  --model_dir google/gemma-4-12b-it \
  --output_dir ./gemma4-trt \
  --dtype float16

# 建構 TensorRT 引擎
trtllm-build \
  --checkpoint_dir ./gemma4-trt \
  --output_dir ./gemma4-engine \
  --max_batch_size 4 \
  --max_input_len 4096 \
  --max_seq_len 8192

# 執行推論
python run.py --engine_dir ./gemma4-engine --max_output_len 512

TensorRT-LLM 通常比原生 PyTorch 提供 2-3 倍的吞吐量改善，但建構過程需要 10-30 分鐘，且引擎鎖定在你特定的 GPU 型號。

Flash Attention

確認 Flash Attention 已啟用以獲得更好的記憶體效率和速度：

# 安裝 Flash Attention 2
pip install flash-attn --no-build-isolation

# 驗證它正在被使用（在 Python 中）
python -c "import flash_attn; print(flash_attn.__version__)"

大多數框架（vLLM、SGLang、transformers）在可用時自動使用 Flash Attention。它減少 VRAM 使用並增加速度，特別是在較長的上下文長度下。