NVIDIA 显卡怎么跑 Gemma 4？CUDA 设置与优化

NVIDIA 显卡跑 Gemma 4 是最省心的方案。不管你是 RTX 3060 还是 RTX 4090，CUDA 生态成熟，配置起来没什么坑。这篇文章从驱动安装讲到 TensorRT-LLM 优化，全部覆盖。

CUDA 驱动要求

先确认驱动和 CUDA 版本：

组件	最低版本	推荐版本
NVIDIA 驱动	535+	560+
CUDA Toolkit	12.1	12.4+
cuDNN	8.9	9.0+
Python	3.10	3.11+

查看当前环境：

# 查驱动版本
nvidia-smi

# 查 CUDA 版本
nvcc --version

# 如果找不到 nvcc，可能是 PATH 没配
export PATH=/usr/local/cuda/bin:$PATH

更新驱动

Linux 上：

# Ubuntu/Debian
sudo apt update
sudo apt install nvidia-driver-560
sudo reboot

Windows 上直接去 NVIDIA 官网下载最新驱动，或者用 GeForce Experience 自动更新。

最简单的方式：Ollama

Ollama 会自动检测 NVIDIA 显卡，不需要你手动装 CUDA Toolkit：

# 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 跑 Gemma 4
ollama run gemma4:12b

# 确认在用 GPU
ollama ps
# 处理器那一列应该显示 "GPU"

就这么简单。对大部分人来说，到这一步就够了。

GPU 分层加载

模型太大塞不进显存？可以一部分放 GPU、一部分放 CPU，叫做「部分卸载」：

# Ollama：控制多少层放到 GPU
OLLAMA_NUM_GPU=35 ollama run gemma4:12b

# llama.cpp：指定 GPU 层数
./llama-server -m gemma-4-12b-Q4_K_M.gguf -ngl 35

# 设 0 纯 CPU 跑，设 999 全部放 GPU

根据你的显存来调：

显存	建议 GPU 层数 (12B Q4)	含义
6GB	15-20	约 50% 在 GPU
8GB	25-30	约 75% 在 GPU
12GB	35-40	约 95% 在 GPU
16GB+	999（全部）	全 GPU 加速
24GB+	999（全部）	还有余量跑长上下文

RTX 各型号性能对比

Gemma 4 12B 在不同 RTX 显卡上的推理速度参考：

显卡	显存	Q4_K_M (tok/s)	Q8_0 (tok/s)	FP16 (tok/s)	备注
RTX 3060	12GB	~25	~15	爆显存	性价比之王
RTX 3060 Ti	8GB	~20*	爆显存	爆显存	*需部分卸载
RTX 3070	8GB	~22*	爆显存	爆显存	*需部分卸载
RTX 3090	24GB	~40	~25	~12	依然能打
RTX 4060	8GB	~28*	爆显存	爆显存	*需部分卸载
RTX 4070 Ti	12GB	~38	~22	爆显存	中端主力
RTX 4080	16GB	~50	~30	爆显存	表现强劲
RTX 4090	24GB	~65	~40	~20	消费级天花板

说实话 RTX 3060 12GB 版是最划算的选择 —— 12GB 显存，价格只有 4090 的零头，跑 Q4 模型速度完全够用。

Jetson Orin 边缘部署

Gemma 4 可以在 NVIDIA Jetson 上跑，适合边缘设备部署：

# Jetson Orin（JetPack 6.x）
# 安装 ARM64 版 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 跑小模型
ollama run gemma4:4b

# Jetson Orin Nano 推荐 1B
ollama run gemma4:1b

Jetson 型号	内存	推荐 Gemma 4 模型	使用场景
Orin Nano 8GB	8GB	1B 或 4B Q4	嵌入式 AI 助手
Orin NX 16GB	16GB	4B 或 12B Q4	边缘推理
AGX Orin 64GB	64GB	12B FP16 或 27B Q4	全功能边缘 AI

DGX Spark 桌面工作站

DGX Spark 有 128GB 统一内存，跑 Gemma 4 27B FP16 毫无压力：

# 直接跑完整 27B
ollama run gemma4:27b

# 或者用 vLLM 全精度
python -m vllm.entrypoints.openai.api_server \
  --model google/gemma-4-27b-it \
  --dtype float16 \
  --max-model-len 32768

TensorRT-LLM 极限优化

要在 NVIDIA 硬件上榨出最大吞吐，TensorRT-LLM 会针对你的 GPU 编译模型：

# 安装 TensorRT-LLM
pip install tensorrt-llm

# 转换和优化模型
python convert_checkpoint.py \
  --model_dir google/gemma-4-12b-it \
  --output_dir ./gemma4-trt \
  --dtype float16

# 构建 TensorRT 引擎
trtllm-build \
  --checkpoint_dir ./gemma4-trt \
  --output_dir ./gemma4-engine \
  --max_batch_size 4 \
  --max_input_len 4096 \
  --max_seq_len 8192

# 运行推理
python run.py --engine_dir ./gemma4-engine --max_output_len 512

TensorRT-LLM 通常能把吞吐提升 2-3 倍，但构建过程要 10-30 分钟，而且引擎绑定你的具体 GPU 型号。

Flash Attention

确保开启 Flash Attention，省显存还提速：

# 安装 Flash Attention 2
pip install flash-attn --no-build-isolation

# 验证版本
python -c "import flash_attn; print(flash_attn.__version__)"

主流框架（vLLM、SGLang、transformers）检测到 Flash Attention 会自动使用。尤其是长上下文场景，效果非常明显。

下一步

想买显卡？ 看硬件需求指南按预算选择最合适的配置
遇到报错？ 故障排查指南覆盖了 CUDA 相关的常见问题
想先试试 Ollama？ 跟着 Ollama 教程用最简单的方式跑起来

NVIDIA 显卡跑本地 AI 依然是最稳的选择。驱动成熟、框架支持广、TensorRT-LLM 这种优化工具也很好用，让你把时间花在用 Gemma 4 上，而不是折腾环境。

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />