0% read

如何在 AMD GPU 上執行 Gemma 4(ROCm 安裝教學)

Apr 7, 2026

如果你有 AMD 顯示卡想在本機執行 Gemma 4,好消息——AMD 透過 ROCm 對 Gemma 4 提供了首日支援。但要讓一切正常運作,比 NVIDIA 的即插即用 CUDA 生態系統需要多一些設定。本指南帶你走完整個流程,從檢查 GPU 相容性到用 vLLM 執行推論。

你的 AMD GPU 支援 Gemma 4 嗎?

並非所有 AMD GPU 都支援 ROCm。你需要一張有支援架構的顯示卡。以下是快速參考:

GPU 系列架構ROCm 支援備註
Radeon RX 7900 XTX/XTRDNA 3 (gfx1100)最佳消費級選擇
Radeon RX 7800 XTRDNA 3 (gfx1101)良好的中階選擇
Radeon RX 7600RDNA 3 (gfx1102)部分VRAM 有限(8GB)
Instinct MI250XCDNA 2 (gfx90a)資料中心 GPU
Instinct MI300XCDNA 3 (gfx942)頂級效能
Radeon RX 6000 系列RDNA 2有限僅有社群解決方案

重要: 架構字串必須完全匹配。如果 ROCm 偵測到錯誤的架構,你會得到靜默失敗或亂碼輸出。用以下指令檢查:

rocminfo | grep "Name:" | grep "gfx"

在 Linux 上安裝 ROCm

ROCm 在 Linux 上才能發揮全部 ML 工作負載的實力。Windows 透過 WSL2 的支援存在但有限,不建議用於正式環境。

步驟 1:檢查核心和驅動程式

# 檢查核心版本(建議 5.15+)
uname -r

# 檢查 amdgpu 驅動程式是否已載入
lsmod | grep amdgpu

步驟 2:安裝 ROCm

Ubuntu 22.04/24.04:

# 新增 AMD 的套件庫
wget https://repo.radeon.com/amdgpu-install/latest/ubuntu/jammy/amdgpu-install_6.4.60401-1_all.deb
sudo dpkg -i amdgpu-install_6.4.60401-1_all.deb

# 安裝 ROCm 及 ML 函式庫
sudo amdgpu-install --usecase=rocm,ml

# 將你的使用者加入 render 和 video 群組
sudo usermod -aG render,video $USER

# 重新開機
sudo reboot

步驟 3:驗證安裝

# 檢查 ROCm 是否正常運作
rocm-smi

# 你應該看到你的 GPU 列出,含溫度和記憶體資訊

用 Lemonade 工具執行 Gemma 4

AMD 的 Lemonade 工具是在 AMD 硬體上讓 Gemma 4 執行起來最簡單的方式。它在一個套件中處理模型下載、量化和服務。

# 安裝 Lemonade
pip install lemonade-sdk

# 用自動最佳化執行 Gemma 4
lemonade serve --model gemma-4-12b-it --device rocm

# 使用較小的模型
lemonade serve --model gemma-4-1b-it --device rocm

Lemonade 會自動偵測你的 GPU 架構並套用正確的最佳化。這是進入更進階設定前的好起點。

使用 vLLM 與 ROCm

用於正式環境推論,有 ROCm 支援的 vLLM 能給你最佳的吞吐量:

# 安裝有 ROCm 支援的 vLLM
pip install vllm-rocm

# 啟動伺服器
python -m vllm.entrypoints.openai.api_server \
  --model google/gemma-4-12b-it \
  --tensor-parallel-size 1 \
  --dtype float16 \
  --max-model-len 8192

SGLang 替代方案

SGLang 也支援 ROCm,在某些工作負載下可能更快:

pip install sglang[rocm]

python -m sglang.launch_server \
  --model-path google/gemma-4-12b-it \
  --port 8000 \
  --device rocm

常見問題和修復

「Triton backend required for multimodal」

如果你嘗試在 AMD 上使用 Gemma 4 的視覺或音訊功能,你需要為 ROCm 編譯的 Triton 後端:

# 安裝有 ROCm 支援的 Triton
pip install triton-rocm

# 明確設定後端
export TRITON_BACKEND=rocm

沒有這個,純文字推論正常運作,但多模態輸入會靜默失敗或拋出難以理解的錯誤。

架構字串不匹配

這是最常見的問題。如果你看到類似 hipErrorNoBinaryForGpu 的錯誤,你的架構字串不匹配:

# 檢查 ROCm 認為你的 GPU 是什麼
rocminfo | grep gfx

# 如需要可覆蓋(以 RX 7900 XTX 為例)
export HSA_OVERRIDE_GFX_VERSION=11.0.0

記憶體不足錯誤

AMD GPU 報告 VRAM 的方式與 NVIDIA 不同。檢查實際可用記憶體:

rocm-smi --showmeminfo vram

# 如果記憶體不足,嘗試較小的量化
# Q4_K_M 在 16GB 顯示卡上表現良好

效能低於預期

確認你沒有意外地在 CPU 上執行:

# 驗證 GPU 正在被使用
watch -n 1 rocm-smi

# 你應該在推論期間看到 GPU 使用率 > 0%

效能預期

以下是 Gemma 4 12B Q4_K_M 的 token 生成速度預期:

GPUVRAMTokens/秒備註
RX 7900 XTX24GB~35-45最佳消費級 AMD 選擇
RX 7800 XT16GB~25-30大多數任務夠用
MI300X192GB~120+資料中心,可跑全精度
MI250X128GB~80+上一代資料中心

Windows 和 WSL2

如果你必須使用 Windows,ROCm 可透過 WSL2 運作,但有限制:

# 在 WSL2 Ubuntu 內
sudo apt install rocm-hip-runtime
# 僅限 HIP runtime——無完整 ROCm 堆疊

要在 Windows 上有更好的體驗,考慮使用 Ollama,它在支援的顯示卡上會自動處理 AMD GPU 偵測。

下一步

在 AMD 上執行 Gemma 4 完全可行——只是比 NVIDIA 需要多一些初始設定。一旦 ROCm 正確設定好,效能具有競爭力,而 AMD 的首日支援意味著你會與 NVIDIA 使用者同步獲得更新。

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

如何在 AMD GPU 上執行 Gemma 4(ROCm 安裝教學) | 部落格