NVIDIA 显卡跑 Gemma 4 是最省心的方案。不管你是 RTX 3060 还是 RTX 4090,CUDA 生态成熟,配置起来没什么坑。这篇文章从驱动安装讲到 TensorRT-LLM 优化,全部覆盖。
CUDA 驱动要求
先确认驱动和 CUDA 版本:
| 组件 | 最低版本 | 推荐版本 |
|---|---|---|
| NVIDIA 驱动 | 535+ | 560+ |
| CUDA Toolkit | 12.1 | 12.4+ |
| cuDNN | 8.9 | 9.0+ |
| Python | 3.10 | 3.11+ |
查看当前环境:
# 查驱动版本
nvidia-smi
# 查 CUDA 版本
nvcc --version
# 如果找不到 nvcc,可能是 PATH 没配
export PATH=/usr/local/cuda/bin:$PATH更新驱动
Linux 上:
# Ubuntu/Debian
sudo apt update
sudo apt install nvidia-driver-560
sudo rebootWindows 上直接去 NVIDIA 官网下载最新驱动,或者用 GeForce Experience 自动更新。
最简单的方式:Ollama
Ollama 会自动检测 NVIDIA 显卡,不需要你手动装 CUDA Toolkit:
# 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 跑 Gemma 4
ollama run gemma4:12b
# 确认在用 GPU
ollama ps
# 处理器那一列应该显示 "GPU"就这么简单。对大部分人来说,到这一步就够了。
GPU 分层加载
模型太大塞不进显存?可以一部分放 GPU、一部分放 CPU,叫做「部分卸载」:
# Ollama:控制多少层放到 GPU
OLLAMA_NUM_GPU=35 ollama run gemma4:12b
# llama.cpp:指定 GPU 层数
./llama-server -m gemma-4-12b-Q4_K_M.gguf -ngl 35
# 设 0 纯 CPU 跑,设 999 全部放 GPU根据你的显存来调:
| 显存 | 建议 GPU 层数 (12B Q4) | 含义 |
|---|---|---|
| 6GB | 15-20 | 约 50% 在 GPU |
| 8GB | 25-30 | 约 75% 在 GPU |
| 12GB | 35-40 | 约 95% 在 GPU |
| 16GB+ | 999(全部) | 全 GPU 加速 |
| 24GB+ | 999(全部) | 还有余量跑长上下文 |
RTX 各型号性能对比
Gemma 4 12B 在不同 RTX 显卡上的推理速度参考:
| 显卡 | 显存 | Q4_K_M (tok/s) | Q8_0 (tok/s) | FP16 (tok/s) | 备注 |
|---|---|---|---|---|---|
| RTX 3060 | 12GB | ~25 | ~15 | 爆显存 | 性价比之王 |
| RTX 3060 Ti | 8GB | ~20* | 爆显存 | 爆显存 | *需部分卸载 |
| RTX 3070 | 8GB | ~22* | 爆显存 | 爆显存 | *需部分卸载 |
| RTX 3090 | 24GB | ~40 | ~25 | ~12 | 依然能打 |
| RTX 4060 | 8GB | ~28* | 爆显存 | 爆显存 | *需部分卸载 |
| RTX 4070 Ti | 12GB | ~38 | ~22 | 爆显存 | 中端主力 |
| RTX 4080 | 16GB | ~50 | ~30 | 爆显存 | 表现强劲 |
| RTX 4090 | 24GB | ~65 | ~40 | ~20 | 消费级天花板 |
说实话 RTX 3060 12GB 版是最划算的选择 —— 12GB 显存,价格只有 4090 的零头,跑 Q4 模型速度完全够用。
Jetson Orin 边缘部署
Gemma 4 可以在 NVIDIA Jetson 上跑,适合边缘设备部署:
# Jetson Orin(JetPack 6.x)
# 安装 ARM64 版 Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 跑小模型
ollama run gemma4:4b
# Jetson Orin Nano 推荐 1B
ollama run gemma4:1b| Jetson 型号 | 内存 | 推荐 Gemma 4 模型 | 使用场景 |
|---|---|---|---|
| Orin Nano 8GB | 8GB | 1B 或 4B Q4 | 嵌入式 AI 助手 |
| Orin NX 16GB | 16GB | 4B 或 12B Q4 | 边缘推理 |
| AGX Orin 64GB | 64GB | 12B FP16 或 27B Q4 | 全功能边缘 AI |
DGX Spark 桌面工作站
DGX Spark 有 128GB 统一内存,跑 Gemma 4 27B FP16 毫无压力:
# 直接跑完整 27B
ollama run gemma4:27b
# 或者用 vLLM 全精度
python -m vllm.entrypoints.openai.api_server \
--model google/gemma-4-27b-it \
--dtype float16 \
--max-model-len 32768TensorRT-LLM 极限优化
要在 NVIDIA 硬件上榨出最大吞吐,TensorRT-LLM 会针对你的 GPU 编译模型:
# 安装 TensorRT-LLM
pip install tensorrt-llm
# 转换和优化模型
python convert_checkpoint.py \
--model_dir google/gemma-4-12b-it \
--output_dir ./gemma4-trt \
--dtype float16
# 构建 TensorRT 引擎
trtllm-build \
--checkpoint_dir ./gemma4-trt \
--output_dir ./gemma4-engine \
--max_batch_size 4 \
--max_input_len 4096 \
--max_seq_len 8192
# 运行推理
python run.py --engine_dir ./gemma4-engine --max_output_len 512TensorRT-LLM 通常能把吞吐提升 2-3 倍,但构建过程要 10-30 分钟,而且引擎绑定你的具体 GPU 型号。
Flash Attention
确保开启 Flash Attention,省显存还提速:
# 安装 Flash Attention 2
pip install flash-attn --no-build-isolation
# 验证版本
python -c "import flash_attn; print(flash_attn.__version__)"主流框架(vLLM、SGLang、transformers)检测到 Flash Attention 会自动使用。尤其是长上下文场景,效果非常明显。
下一步
NVIDIA 显卡跑本地 AI 依然是最稳的选择。驱动成熟、框架支持广、TensorRT-LLM 这种优化工具也很好用,让你把时间花在用 Gemma 4 上,而不是折腾环境。



