AMD 显卡怎么跑 Gemma 4？ROCm 设置教程

AMD 用户的好消息：Gemma 4 首发就支持 AMD GPU，通过 ROCm 可以直接跑。但跟 NVIDIA 那种装完驱动就能用不一样，AMD 这边需要多折腾几步。这篇教程帮你从零开始搞定。

先确认你的显卡支不支持

不是所有 AMD 显卡都能用 ROCm，你需要确认架构是否在支持列表里：

显卡型号	架构	ROCm 支持	备注
RX 7900 XTX/XT	RDNA 3 (gfx1100)	支持	消费级首选
RX 7800 XT	RDNA 3 (gfx1101)	支持	性价比不错
RX 7600	RDNA 3 (gfx1102)	部分支持	8GB 显存偏小
Instinct MI250X	CDNA 2 (gfx90a)	支持	数据中心卡
Instinct MI300X	CDNA 3 (gfx942)	支持	顶级性能
RX 6000 系列	RDNA 2	有限	需要社区方案

划重点： 架构字符串必须完全匹配。ROCm 检测错了架构，要么静默失败，要么输出乱码。用这个命令查：

rocminfo | grep "Name:" | grep "gfx"

在 Linux 上安装 ROCm

说实话，跑 ML 负载 ROCm 只推荐 Linux。Windows 上可以用 WSL2 凑合，但坑多，不建议正式使用。

第一步：检查内核和驱动

# 查内核版本（推荐 5.15+）
uname -r

# 看 amdgpu 驱动有没有加载
lsmod | grep amdgpu

第二步：安装 ROCm

以 Ubuntu 22.04/24.04 为例：

# 添加 AMD 官方源
wget https://repo.radeon.com/amdgpu-install/latest/ubuntu/jammy/amdgpu-install_6.4.60401-1_all.deb
sudo dpkg -i amdgpu-install_6.4.60401-1_all.deb

# 安装 ROCm 和 ML 库
sudo amdgpu-install --usecase=rocm,ml

# 把用户加到 render 和 video 组
sudo usermod -aG render,video $USER

# 重启
sudo reboot

第三步：验证安装

# 检查 ROCm 是否正常
rocm-smi

# 应该能看到 GPU 的温度、显存等信息

用 Lemonade 工具快速上手

AMD 的 Lemonade 工具是最简单的方式，模型下载、量化、推理一条龙搞定：

# 安装 Lemonade
pip install lemonade-sdk

# 跑 Gemma 4（自动优化）
lemonade serve --model gemma-4-12b-it --device rocm

# 跑小模型
lemonade serve --model gemma-4-1b-it --device rocm

Lemonade 会自动检测 GPU 架构并应用对应优化，适合先跑起来看看效果。

用 vLLM 做生产部署

要认真搞推理服务，vLLM + ROCm 吞吐量最好：

# 安装 ROCm 版 vLLM
pip install vllm-rocm

# 启动服务
python -m vllm.entrypoints.openai.api_server \
  --model google/gemma-4-12b-it \
  --tensor-parallel-size 1 \
  --dtype float16 \
  --max-model-len 8192

SGLang 方案

SGLang 也支持 ROCm，某些场景下比 vLLM 更快：

pip install sglang[rocm]

python -m sglang.launch_server \
  --model-path google/gemma-4-12b-it \
  --port 8000 \
  --device rocm

常见问题排查

"Triton backend required for multimodal"

想用 Gemma 4 的图像或音频功能？需要装 ROCm 版的 Triton：

# 安装 ROCm 版 Triton
pip install triton-rocm

# 显式设置后端
export TRITON_BACKEND=rocm

不装的话，纯文本推理没问题，但多模态输入会静默失败或者报奇怪的错。

架构字符串不匹配

最常见的坑。如果看到 hipErrorNoBinaryForGpu 这种错误，就是架构没对上：

# 看 ROCm 检测到的架构
rocminfo | grep gfx

# 手动覆盖（以 RX 7900 XTX 为例）
export HSA_OVERRIDE_GFX_VERSION=11.0.0

显存不够

AMD 显卡的显存报告方式跟 NVIDIA 不一样，先确认实际可用量：

rocm-smi --showmeminfo vram

# 显存不够就用更小的量化
# 16GB 显存推荐 Q4_K_M

速度不如预期

先确认不是在用 CPU 跑：

# 实时监控 GPU 使用率
watch -n 1 rocm-smi

# 推理时 GPU 利用率应该 > 0%

性能参考

Gemma 4 12B Q4_K_M 各显卡的大致速度：

显卡	显存	生成速度 (tokens/s)	说明
RX 7900 XTX	24GB	~35-45	AMD 消费级最佳
RX 7800 XT	16GB	~25-30	日常够用
MI300X	192GB	~120+	数据中心，可跑全精度
MI250X	128GB	~80+	上一代数据中心卡

Windows 用户怎么办

实在要用 Windows，可以通过 WSL2：

# 在 WSL2 Ubuntu 里
sudo apt install rocm-hip-runtime
# 只有 HIP 运行时，不是完整 ROCm

Windows 上更好的方案是用 Ollama，它能自动检测支持的 AMD 显卡。

下一步

遇到问题了？ 看看 Gemma 4 故障排查指南，覆盖了最常见的错误和解决方案
不确定硬件够不够？ 看硬件需求指南了解详细的显存和内存建议
不知道选哪个模型？ 看 Gemma 4 模型选择指南，帮你根据 AMD 显卡挑合适的型号

总结一下：AMD 显卡跑 Gemma 4 完全可行，就是初始配置比 NVIDIA 麻烦一些。ROCm 搞定之后性能是有竞争力的，而且 AMD Day 0 支持意味着后续更新不会落后。

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />