AMD 显卡怎么跑 Gemma 4?ROCm 设置教程

2026/04/07

AMD 用户的好消息:Gemma 4 首发就支持 AMD GPU,通过 ROCm 可以直接跑。但跟 NVIDIA 那种装完驱动就能用不一样,AMD 这边需要多折腾几步。这篇教程帮你从零开始搞定。

先确认你的显卡支不支持

不是所有 AMD 显卡都能用 ROCm,你需要确认架构是否在支持列表里:

显卡型号架构ROCm 支持备注
RX 7900 XTX/XTRDNA 3 (gfx1100)支持消费级首选
RX 7800 XTRDNA 3 (gfx1101)支持性价比不错
RX 7600RDNA 3 (gfx1102)部分支持8GB 显存偏小
Instinct MI250XCDNA 2 (gfx90a)支持数据中心卡
Instinct MI300XCDNA 3 (gfx942)支持顶级性能
RX 6000 系列RDNA 2有限需要社区方案

划重点: 架构字符串必须完全匹配。ROCm 检测错了架构,要么静默失败,要么输出乱码。用这个命令查:

rocminfo | grep "Name:" | grep "gfx"

在 Linux 上安装 ROCm

说实话,跑 ML 负载 ROCm 只推荐 Linux。Windows 上可以用 WSL2 凑合,但坑多,不建议正式使用。

第一步:检查内核和驱动

# 查内核版本(推荐 5.15+)
uname -r

# 看 amdgpu 驱动有没有加载
lsmod | grep amdgpu

第二步:安装 ROCm

以 Ubuntu 22.04/24.04 为例:

# 添加 AMD 官方源
wget https://repo.radeon.com/amdgpu-install/latest/ubuntu/jammy/amdgpu-install_6.4.60401-1_all.deb
sudo dpkg -i amdgpu-install_6.4.60401-1_all.deb

# 安装 ROCm 和 ML 库
sudo amdgpu-install --usecase=rocm,ml

# 把用户加到 render 和 video 组
sudo usermod -aG render,video $USER

# 重启
sudo reboot

第三步:验证安装

# 检查 ROCm 是否正常
rocm-smi

# 应该能看到 GPU 的温度、显存等信息

用 Lemonade 工具快速上手

AMD 的 Lemonade 工具是最简单的方式,模型下载、量化、推理一条龙搞定:

# 安装 Lemonade
pip install lemonade-sdk

# 跑 Gemma 4(自动优化)
lemonade serve --model gemma-4-12b-it --device rocm

# 跑小模型
lemonade serve --model gemma-4-1b-it --device rocm

Lemonade 会自动检测 GPU 架构并应用对应优化,适合先跑起来看看效果。

用 vLLM 做生产部署

要认真搞推理服务,vLLM + ROCm 吞吐量最好:

# 安装 ROCm 版 vLLM
pip install vllm-rocm

# 启动服务
python -m vllm.entrypoints.openai.api_server \
  --model google/gemma-4-12b-it \
  --tensor-parallel-size 1 \
  --dtype float16 \
  --max-model-len 8192

SGLang 方案

SGLang 也支持 ROCm,某些场景下比 vLLM 更快:

pip install sglang[rocm]

python -m sglang.launch_server \
  --model-path google/gemma-4-12b-it \
  --port 8000 \
  --device rocm

常见问题排查

"Triton backend required for multimodal"

想用 Gemma 4 的图像或音频功能?需要装 ROCm 版的 Triton:

# 安装 ROCm 版 Triton
pip install triton-rocm

# 显式设置后端
export TRITON_BACKEND=rocm

不装的话,纯文本推理没问题,但多模态输入会静默失败或者报奇怪的错。

架构字符串不匹配

最常见的坑。如果看到 hipErrorNoBinaryForGpu 这种错误,就是架构没对上:

# 看 ROCm 检测到的架构
rocminfo | grep gfx

# 手动覆盖(以 RX 7900 XTX 为例)
export HSA_OVERRIDE_GFX_VERSION=11.0.0

显存不够

AMD 显卡的显存报告方式跟 NVIDIA 不一样,先确认实际可用量:

rocm-smi --showmeminfo vram

# 显存不够就用更小的量化
# 16GB 显存推荐 Q4_K_M

速度不如预期

先确认不是在用 CPU 跑:

# 实时监控 GPU 使用率
watch -n 1 rocm-smi

# 推理时 GPU 利用率应该 > 0%

性能参考

Gemma 4 12B Q4_K_M 各显卡的大致速度:

显卡显存生成速度 (tokens/s)说明
RX 7900 XTX24GB~35-45AMD 消费级最佳
RX 7800 XT16GB~25-30日常够用
MI300X192GB~120+数据中心,可跑全精度
MI250X128GB~80+上一代数据中心卡

Windows 用户怎么办

实在要用 Windows,可以通过 WSL2:

# 在 WSL2 Ubuntu 里
sudo apt install rocm-hip-runtime
# 只有 HIP 运行时,不是完整 ROCm

Windows 上更好的方案是用 Ollama,它能自动检测支持的 AMD 显卡。

下一步

总结一下:AMD 显卡跑 Gemma 4 完全可行,就是初始配置比 NVIDIA 麻烦一些。ROCm 搞定之后性能是有竞争力的,而且 AMD Day 0 支持意味着后续更新不会落后。

Gemma 4 AI

Gemma 4 AI

相关教程