如何在 AMD GPU 上執行 Gemma 4（ROCm 安裝教學）

如果你有 AMD 顯示卡想在本機執行 Gemma 4，好消息——AMD 透過 ROCm 對 Gemma 4 提供了首日支援。但要讓一切正常運作，比 NVIDIA 的即插即用 CUDA 生態系統需要多一些設定。本指南帶你走完整個流程，從檢查 GPU 相容性到用 vLLM 執行推論。

你的 AMD GPU 支援 Gemma 4 嗎？

並非所有 AMD GPU 都支援 ROCm。你需要一張有支援架構的顯示卡。以下是快速參考：

GPU 系列	架構	ROCm 支援	備註
Radeon RX 7900 XTX/XT	RDNA 3 (gfx1100)	是	最佳消費級選擇
Radeon RX 7800 XT	RDNA 3 (gfx1101)	是	良好的中階選擇
Radeon RX 7600	RDNA 3 (gfx1102)	部分	VRAM 有限（8GB）
Instinct MI250X	CDNA 2 (gfx90a)	是	資料中心 GPU
Instinct MI300X	CDNA 3 (gfx942)	是	頂級效能
Radeon RX 6000 系列	RDNA 2	有限	僅有社群解決方案

重要： 架構字串必須完全匹配。如果 ROCm 偵測到錯誤的架構，你會得到靜默失敗或亂碼輸出。用以下指令檢查：

rocminfo | grep "Name:" | grep "gfx"

在 Linux 上安裝 ROCm

ROCm 在 Linux 上才能發揮全部 ML 工作負載的實力。Windows 透過 WSL2 的支援存在但有限，不建議用於正式環境。

步驟 1：檢查核心和驅動程式

# 檢查核心版本（建議 5.15+）
uname -r

# 檢查 amdgpu 驅動程式是否已載入
lsmod | grep amdgpu

步驟 2：安裝 ROCm

Ubuntu 22.04/24.04：

# 新增 AMD 的套件庫
wget https://repo.radeon.com/amdgpu-install/latest/ubuntu/jammy/amdgpu-install_6.4.60401-1_all.deb
sudo dpkg -i amdgpu-install_6.4.60401-1_all.deb

# 安裝 ROCm 及 ML 函式庫
sudo amdgpu-install --usecase=rocm,ml

# 將你的使用者加入 render 和 video 群組
sudo usermod -aG render,video $USER

# 重新開機
sudo reboot

步驟 3：驗證安裝

# 檢查 ROCm 是否正常運作
rocm-smi

# 你應該看到你的 GPU 列出，含溫度和記憶體資訊

用 Lemonade 工具執行 Gemma 4

AMD 的 Lemonade 工具是在 AMD 硬體上讓 Gemma 4 執行起來最簡單的方式。它在一個套件中處理模型下載、量化和服務。

# 安裝 Lemonade
pip install lemonade-sdk

# 用自動最佳化執行 Gemma 4
lemonade serve --model gemma-4-12b-it --device rocm

# 使用較小的模型
lemonade serve --model gemma-4-1b-it --device rocm

Lemonade 會自動偵測你的 GPU 架構並套用正確的最佳化。這是進入更進階設定前的好起點。

使用 vLLM 與 ROCm

用於正式環境推論，有 ROCm 支援的 vLLM 能給你最佳的吞吐量：

# 安裝有 ROCm 支援的 vLLM
pip install vllm-rocm

# 啟動伺服器
python -m vllm.entrypoints.openai.api_server \
  --model google/gemma-4-12b-it \
  --tensor-parallel-size 1 \
  --dtype float16 \
  --max-model-len 8192

SGLang 替代方案

SGLang 也支援 ROCm，在某些工作負載下可能更快：

pip install sglang[rocm]

python -m sglang.launch_server \
  --model-path google/gemma-4-12b-it \
  --port 8000 \
  --device rocm

常見問題和修復

「Triton backend required for multimodal」

如果你嘗試在 AMD 上使用 Gemma 4 的視覺或音訊功能，你需要為 ROCm 編譯的 Triton 後端：

# 安裝有 ROCm 支援的 Triton
pip install triton-rocm

# 明確設定後端
export TRITON_BACKEND=rocm

沒有這個，純文字推論正常運作，但多模態輸入會靜默失敗或拋出難以理解的錯誤。

架構字串不匹配

這是最常見的問題。如果你看到類似 hipErrorNoBinaryForGpu 的錯誤，你的架構字串不匹配：

# 檢查 ROCm 認為你的 GPU 是什麼
rocminfo | grep gfx

# 如需要可覆蓋（以 RX 7900 XTX 為例）
export HSA_OVERRIDE_GFX_VERSION=11.0.0

記憶體不足錯誤

AMD GPU 報告 VRAM 的方式與 NVIDIA 不同。檢查實際可用記憶體：

rocm-smi --showmeminfo vram

# 如果記憶體不足，嘗試較小的量化
# Q4_K_M 在 16GB 顯示卡上表現良好

效能低於預期

確認你沒有意外地在 CPU 上執行：

# 驗證 GPU 正在被使用
watch -n 1 rocm-smi

# 你應該在推論期間看到 GPU 使用率 > 0%

效能預期

以下是 Gemma 4 12B Q4_K_M 的 token 生成速度預期：

GPU	VRAM	Tokens/秒	備註
RX 7900 XTX	24GB	~35-45	最佳消費級 AMD 選擇
RX 7800 XT	16GB	~25-30	大多數任務夠用
MI300X	192GB	~120+	資料中心，可跑全精度
MI250X	128GB	~80+	上一代資料中心

Windows 和 WSL2

如果你必須使用 Windows，ROCm 可透過 WSL2 運作，但有限制：

# 在 WSL2 Ubuntu 內
sudo apt install rocm-hip-runtime
# 僅限 HIP runtime——無完整 ROCm 堆疊

要在 Windows 上有更好的體驗，考慮使用 Ollama，它在支援的顯示卡上會自動處理 AMD GPU 偵測。

下一步

遇到問題？ 查看我們的 Gemma 4 疑難排解指南尋找最常見問題的解決方案
不確定你的硬體是否足夠？ 閱讀硬體需求指南了解詳細的 VRAM 和記憶體建議
想比較模型？ 查看該選哪個 Gemma 4 模型？為你的 AMD GPU 選擇合適的大小

在 AMD 上執行 Gemma 4 完全可行——只是比 NVIDIA 需要多一些初始設定。一旦 ROCm 正確設定好，效能具有競爭力，而 AMD 的首日支援意味著你會與 NVIDIA 使用者同步獲得更新。

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />