AMD 用户的好消息:Gemma 4 首发就支持 AMD GPU,通过 ROCm 可以直接跑。但跟 NVIDIA 那种装完驱动就能用不一样,AMD 这边需要多折腾几步。这篇教程帮你从零开始搞定。
先确认你的显卡支不支持
不是所有 AMD 显卡都能用 ROCm,你需要确认架构是否在支持列表里:
| 显卡型号 | 架构 | ROCm 支持 | 备注 |
|---|---|---|---|
| RX 7900 XTX/XT | RDNA 3 (gfx1100) | 支持 | 消费级首选 |
| RX 7800 XT | RDNA 3 (gfx1101) | 支持 | 性价比不错 |
| RX 7600 | RDNA 3 (gfx1102) | 部分支持 | 8GB 显存偏小 |
| Instinct MI250X | CDNA 2 (gfx90a) | 支持 | 数据中心卡 |
| Instinct MI300X | CDNA 3 (gfx942) | 支持 | 顶级性能 |
| RX 6000 系列 | RDNA 2 | 有限 | 需要社区方案 |
划重点: 架构字符串必须完全匹配。ROCm 检测错了架构,要么静默失败,要么输出乱码。用这个命令查:
rocminfo | grep "Name:" | grep "gfx"在 Linux 上安装 ROCm
说实话,跑 ML 负载 ROCm 只推荐 Linux。Windows 上可以用 WSL2 凑合,但坑多,不建议正式使用。
第一步:检查内核和驱动
# 查内核版本(推荐 5.15+)
uname -r
# 看 amdgpu 驱动有没有加载
lsmod | grep amdgpu第二步:安装 ROCm
以 Ubuntu 22.04/24.04 为例:
# 添加 AMD 官方源
wget https://repo.radeon.com/amdgpu-install/latest/ubuntu/jammy/amdgpu-install_6.4.60401-1_all.deb
sudo dpkg -i amdgpu-install_6.4.60401-1_all.deb
# 安装 ROCm 和 ML 库
sudo amdgpu-install --usecase=rocm,ml
# 把用户加到 render 和 video 组
sudo usermod -aG render,video $USER
# 重启
sudo reboot第三步:验证安装
# 检查 ROCm 是否正常
rocm-smi
# 应该能看到 GPU 的温度、显存等信息用 Lemonade 工具快速上手
AMD 的 Lemonade 工具是最简单的方式,模型下载、量化、推理一条龙搞定:
# 安装 Lemonade
pip install lemonade-sdk
# 跑 Gemma 4(自动优化)
lemonade serve --model gemma-4-12b-it --device rocm
# 跑小模型
lemonade serve --model gemma-4-1b-it --device rocmLemonade 会自动检测 GPU 架构并应用对应优化,适合先跑起来看看效果。
用 vLLM 做生产部署
要认真搞推理服务,vLLM + ROCm 吞吐量最好:
# 安装 ROCm 版 vLLM
pip install vllm-rocm
# 启动服务
python -m vllm.entrypoints.openai.api_server \
--model google/gemma-4-12b-it \
--tensor-parallel-size 1 \
--dtype float16 \
--max-model-len 8192SGLang 方案
SGLang 也支持 ROCm,某些场景下比 vLLM 更快:
pip install sglang[rocm]
python -m sglang.launch_server \
--model-path google/gemma-4-12b-it \
--port 8000 \
--device rocm常见问题排查
"Triton backend required for multimodal"
想用 Gemma 4 的图像或音频功能?需要装 ROCm 版的 Triton:
# 安装 ROCm 版 Triton
pip install triton-rocm
# 显式设置后端
export TRITON_BACKEND=rocm不装的话,纯文本推理没问题,但多模态输入会静默失败或者报奇怪的错。
架构字符串不匹配
最常见的坑。如果看到 hipErrorNoBinaryForGpu 这种错误,就是架构没对上:
# 看 ROCm 检测到的架构
rocminfo | grep gfx
# 手动覆盖(以 RX 7900 XTX 为例)
export HSA_OVERRIDE_GFX_VERSION=11.0.0显存不够
AMD 显卡的显存报告方式跟 NVIDIA 不一样,先确认实际可用量:
rocm-smi --showmeminfo vram
# 显存不够就用更小的量化
# 16GB 显存推荐 Q4_K_M速度不如预期
先确认不是在用 CPU 跑:
# 实时监控 GPU 使用率
watch -n 1 rocm-smi
# 推理时 GPU 利用率应该 > 0%性能参考
Gemma 4 12B Q4_K_M 各显卡的大致速度:
| 显卡 | 显存 | 生成速度 (tokens/s) | 说明 |
|---|---|---|---|
| RX 7900 XTX | 24GB | ~35-45 | AMD 消费级最佳 |
| RX 7800 XT | 16GB | ~25-30 | 日常够用 |
| MI300X | 192GB | ~120+ | 数据中心,可跑全精度 |
| MI250X | 128GB | ~80+ | 上一代数据中心卡 |
Windows 用户怎么办
实在要用 Windows,可以通过 WSL2:
# 在 WSL2 Ubuntu 里
sudo apt install rocm-hip-runtime
# 只有 HIP 运行时,不是完整 ROCmWindows 上更好的方案是用 Ollama,它能自动检测支持的 AMD 显卡。
下一步
- 遇到问题了? 看看 Gemma 4 故障排查指南,覆盖了最常见的错误和解决方案
- 不确定硬件够不够? 看 硬件需求指南 了解详细的显存和内存建议
- 不知道选哪个模型? 看 Gemma 4 模型选择指南,帮你根据 AMD 显卡挑合适的型号
总结一下:AMD 显卡跑 Gemma 4 完全可行,就是初始配置比 NVIDIA 麻烦一些。ROCm 搞定之后性能是有竞争力的,而且 AMD Day 0 支持意味着后续更新不会落后。



