如果你有 AMD 顯示卡想在本機執行 Gemma 4,好消息——AMD 透過 ROCm 對 Gemma 4 提供了首日支援。但要讓一切正常運作,比 NVIDIA 的即插即用 CUDA 生態系統需要多一些設定。本指南帶你走完整個流程,從檢查 GPU 相容性到用 vLLM 執行推論。
你的 AMD GPU 支援 Gemma 4 嗎?
並非所有 AMD GPU 都支援 ROCm。你需要一張有支援架構的顯示卡。以下是快速參考:
| GPU 系列 | 架構 | ROCm 支援 | 備註 |
|---|---|---|---|
| Radeon RX 7900 XTX/XT | RDNA 3 (gfx1100) | 是 | 最佳消費級選擇 |
| Radeon RX 7800 XT | RDNA 3 (gfx1101) | 是 | 良好的中階選擇 |
| Radeon RX 7600 | RDNA 3 (gfx1102) | 部分 | VRAM 有限(8GB) |
| Instinct MI250X | CDNA 2 (gfx90a) | 是 | 資料中心 GPU |
| Instinct MI300X | CDNA 3 (gfx942) | 是 | 頂級效能 |
| Radeon RX 6000 系列 | RDNA 2 | 有限 | 僅有社群解決方案 |
重要: 架構字串必須完全匹配。如果 ROCm 偵測到錯誤的架構,你會得到靜默失敗或亂碼輸出。用以下指令檢查:
rocminfo | grep "Name:" | grep "gfx"在 Linux 上安裝 ROCm
ROCm 在 Linux 上才能發揮全部 ML 工作負載的實力。Windows 透過 WSL2 的支援存在但有限,不建議用於正式環境。
步驟 1:檢查核心和驅動程式
# 檢查核心版本(建議 5.15+)
uname -r
# 檢查 amdgpu 驅動程式是否已載入
lsmod | grep amdgpu步驟 2:安裝 ROCm
Ubuntu 22.04/24.04:
# 新增 AMD 的套件庫
wget https://repo.radeon.com/amdgpu-install/latest/ubuntu/jammy/amdgpu-install_6.4.60401-1_all.deb
sudo dpkg -i amdgpu-install_6.4.60401-1_all.deb
# 安裝 ROCm 及 ML 函式庫
sudo amdgpu-install --usecase=rocm,ml
# 將你的使用者加入 render 和 video 群組
sudo usermod -aG render,video $USER
# 重新開機
sudo reboot步驟 3:驗證安裝
# 檢查 ROCm 是否正常運作
rocm-smi
# 你應該看到你的 GPU 列出,含溫度和記憶體資訊用 Lemonade 工具執行 Gemma 4
AMD 的 Lemonade 工具是在 AMD 硬體上讓 Gemma 4 執行起來最簡單的方式。它在一個套件中處理模型下載、量化和服務。
# 安裝 Lemonade
pip install lemonade-sdk
# 用自動最佳化執行 Gemma 4
lemonade serve --model gemma-4-12b-it --device rocm
# 使用較小的模型
lemonade serve --model gemma-4-1b-it --device rocmLemonade 會自動偵測你的 GPU 架構並套用正確的最佳化。這是進入更進階設定前的好起點。
使用 vLLM 與 ROCm
用於正式環境推論,有 ROCm 支援的 vLLM 能給你最佳的吞吐量:
# 安裝有 ROCm 支援的 vLLM
pip install vllm-rocm
# 啟動伺服器
python -m vllm.entrypoints.openai.api_server \
--model google/gemma-4-12b-it \
--tensor-parallel-size 1 \
--dtype float16 \
--max-model-len 8192SGLang 替代方案
SGLang 也支援 ROCm,在某些工作負載下可能更快:
pip install sglang[rocm]
python -m sglang.launch_server \
--model-path google/gemma-4-12b-it \
--port 8000 \
--device rocm常見問題和修復
「Triton backend required for multimodal」
如果你嘗試在 AMD 上使用 Gemma 4 的視覺或音訊功能,你需要為 ROCm 編譯的 Triton 後端:
# 安裝有 ROCm 支援的 Triton
pip install triton-rocm
# 明確設定後端
export TRITON_BACKEND=rocm沒有這個,純文字推論正常運作,但多模態輸入會靜默失敗或拋出難以理解的錯誤。
架構字串不匹配
這是最常見的問題。如果你看到類似 hipErrorNoBinaryForGpu 的錯誤,你的架構字串不匹配:
# 檢查 ROCm 認為你的 GPU 是什麼
rocminfo | grep gfx
# 如需要可覆蓋(以 RX 7900 XTX 為例)
export HSA_OVERRIDE_GFX_VERSION=11.0.0記憶體不足錯誤
AMD GPU 報告 VRAM 的方式與 NVIDIA 不同。檢查實際可用記憶體:
rocm-smi --showmeminfo vram
# 如果記憶體不足,嘗試較小的量化
# Q4_K_M 在 16GB 顯示卡上表現良好效能低於預期
確認你沒有意外地在 CPU 上執行:
# 驗證 GPU 正在被使用
watch -n 1 rocm-smi
# 你應該在推論期間看到 GPU 使用率 > 0%效能預期
以下是 Gemma 4 12B Q4_K_M 的 token 生成速度預期:
| GPU | VRAM | Tokens/秒 | 備註 |
|---|---|---|---|
| RX 7900 XTX | 24GB | ~35-45 | 最佳消費級 AMD 選擇 |
| RX 7800 XT | 16GB | ~25-30 | 大多數任務夠用 |
| MI300X | 192GB | ~120+ | 資料中心,可跑全精度 |
| MI250X | 128GB | ~80+ | 上一代資料中心 |
Windows 和 WSL2
如果你必須使用 Windows,ROCm 可透過 WSL2 運作,但有限制:
# 在 WSL2 Ubuntu 內
sudo apt install rocm-hip-runtime
# 僅限 HIP runtime——無完整 ROCm 堆疊要在 Windows 上有更好的體驗,考慮使用 Ollama,它在支援的顯示卡上會自動處理 AMD GPU 偵測。
下一步
- 遇到問題? 查看我們的 Gemma 4 疑難排解指南 尋找最常見問題的解決方案
- 不確定你的硬體是否足夠? 閱讀 硬體需求指南 了解詳細的 VRAM 和記憶體建議
- 想比較模型? 查看 該選哪個 Gemma 4 模型? 為你的 AMD GPU 選擇合適的大小
在 AMD 上執行 Gemma 4 完全可行——只是比 NVIDIA 需要多一些初始設定。一旦 ROCm 正確設定好,效能具有競爭力,而 AMD 的首日支援意味著你會與 NVIDIA 使用者同步獲得更新。
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


