NVIDIA 显卡怎么跑 Gemma 4?CUDA 设置与优化

2026/04/07

NVIDIA 显卡跑 Gemma 4 是最省心的方案。不管你是 RTX 3060 还是 RTX 4090,CUDA 生态成熟,配置起来没什么坑。这篇文章从驱动安装讲到 TensorRT-LLM 优化,全部覆盖。

CUDA 驱动要求

先确认驱动和 CUDA 版本:

组件最低版本推荐版本
NVIDIA 驱动535+560+
CUDA Toolkit12.112.4+
cuDNN8.99.0+
Python3.103.11+

查看当前环境:

# 查驱动版本
nvidia-smi

# 查 CUDA 版本
nvcc --version

# 如果找不到 nvcc,可能是 PATH 没配
export PATH=/usr/local/cuda/bin:$PATH

更新驱动

Linux 上:

# Ubuntu/Debian
sudo apt update
sudo apt install nvidia-driver-560
sudo reboot

Windows 上直接去 NVIDIA 官网下载最新驱动,或者用 GeForce Experience 自动更新。

最简单的方式:Ollama

Ollama 会自动检测 NVIDIA 显卡,不需要你手动装 CUDA Toolkit:

# 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 跑 Gemma 4
ollama run gemma4:12b

# 确认在用 GPU
ollama ps
# 处理器那一列应该显示 "GPU"

就这么简单。对大部分人来说,到这一步就够了。

GPU 分层加载

模型太大塞不进显存?可以一部分放 GPU、一部分放 CPU,叫做「部分卸载」:

# Ollama:控制多少层放到 GPU
OLLAMA_NUM_GPU=35 ollama run gemma4:12b

# llama.cpp:指定 GPU 层数
./llama-server -m gemma-4-12b-Q4_K_M.gguf -ngl 35

# 设 0 纯 CPU 跑,设 999 全部放 GPU

根据你的显存来调:

显存建议 GPU 层数 (12B Q4)含义
6GB15-20约 50% 在 GPU
8GB25-30约 75% 在 GPU
12GB35-40约 95% 在 GPU
16GB+999(全部)全 GPU 加速
24GB+999(全部)还有余量跑长上下文

RTX 各型号性能对比

Gemma 4 12B 在不同 RTX 显卡上的推理速度参考:

显卡显存Q4_K_M (tok/s)Q8_0 (tok/s)FP16 (tok/s)备注
RTX 306012GB~25~15爆显存性价比之王
RTX 3060 Ti8GB~20*爆显存爆显存*需部分卸载
RTX 30708GB~22*爆显存爆显存*需部分卸载
RTX 309024GB~40~25~12依然能打
RTX 40608GB~28*爆显存爆显存*需部分卸载
RTX 4070 Ti12GB~38~22爆显存中端主力
RTX 408016GB~50~30爆显存表现强劲
RTX 409024GB~65~40~20消费级天花板

说实话 RTX 3060 12GB 版是最划算的选择 —— 12GB 显存,价格只有 4090 的零头,跑 Q4 模型速度完全够用。

Jetson Orin 边缘部署

Gemma 4 可以在 NVIDIA Jetson 上跑,适合边缘设备部署:

# Jetson Orin(JetPack 6.x)
# 安装 ARM64 版 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 跑小模型
ollama run gemma4:4b

# Jetson Orin Nano 推荐 1B
ollama run gemma4:1b
Jetson 型号内存推荐 Gemma 4 模型使用场景
Orin Nano 8GB8GB1B 或 4B Q4嵌入式 AI 助手
Orin NX 16GB16GB4B 或 12B Q4边缘推理
AGX Orin 64GB64GB12B FP16 或 27B Q4全功能边缘 AI

DGX Spark 桌面工作站

DGX Spark 有 128GB 统一内存,跑 Gemma 4 27B FP16 毫无压力:

# 直接跑完整 27B
ollama run gemma4:27b

# 或者用 vLLM 全精度
python -m vllm.entrypoints.openai.api_server \
  --model google/gemma-4-27b-it \
  --dtype float16 \
  --max-model-len 32768

TensorRT-LLM 极限优化

要在 NVIDIA 硬件上榨出最大吞吐,TensorRT-LLM 会针对你的 GPU 编译模型:

# 安装 TensorRT-LLM
pip install tensorrt-llm

# 转换和优化模型
python convert_checkpoint.py \
  --model_dir google/gemma-4-12b-it \
  --output_dir ./gemma4-trt \
  --dtype float16

# 构建 TensorRT 引擎
trtllm-build \
  --checkpoint_dir ./gemma4-trt \
  --output_dir ./gemma4-engine \
  --max_batch_size 4 \
  --max_input_len 4096 \
  --max_seq_len 8192

# 运行推理
python run.py --engine_dir ./gemma4-engine --max_output_len 512

TensorRT-LLM 通常能把吞吐提升 2-3 倍,但构建过程要 10-30 分钟,而且引擎绑定你的具体 GPU 型号。

Flash Attention

确保开启 Flash Attention,省显存还提速:

# 安装 Flash Attention 2
pip install flash-attn --no-build-isolation

# 验证版本
python -c "import flash_attn; print(flash_attn.__version__)"

主流框架(vLLM、SGLang、transformers)检测到 Flash Attention 会自动使用。尤其是长上下文场景,效果非常明显。

下一步

NVIDIA 显卡跑本地 AI 依然是最稳的选择。驱动成熟、框架支持广、TensorRT-LLM 这种优化工具也很好用,让你把时间花在用 Gemma 4 上,而不是折腾环境。

Gemma 4 AI

Gemma 4 AI

相关教程