如何用 WebGPU 在瀏覽器中執行 Gemma 4
如果你能在不安裝任何東西、不付 API 費用、不將資料送到伺服器的情況下執行強大的 AI 模型呢?有了 Gemma 4 和 WebGPU,你可以做到這一切——就在你的瀏覽器中。
本指南帶你了解在瀏覽器分頁中本機執行 Gemma 4 所需要知道的一切,從 WebGPU 是什麼到你能實際預期什麼樣的效能。
什麼是 WebGPU?
WebGPU 是網頁的新一代繪圖和計算 API。把它想成 WebGL 的繼任者,但從頭開始為現代 GPU 工作負載設計——包括 AI 推論。
與主要為 3D 繪圖建構的 WebGL 不同,WebGPU 提供:
- 直接 GPU 計算存取 — 在你的顯示卡上執行通用計算
- 更好的效能 — 較低的開銷,更接近原生 Vulkan/Metal/D3D12 效能
- Shader storage buffers — 對於載入和處理大型 AI 模型權重至關重要
簡而言之,WebGPU 將你的瀏覽器變成有能力的 AI 推論引擎。
瀏覽器需求
並非所有瀏覽器都支援 WebGPU。以下是目前情況:
| 瀏覽器 | WebGPU 支援 | 推薦? |
|---|---|---|
| Chrome 113+ | 完整支援 | 是(最佳效能) |
| Edge 113+ | 完整支援 | 是 |
| Firefox | 在 flag 後面 | 尚未穩定 |
| Safari 18+ | 部分支援 | 實驗性 |
我們的建議:使用 Google Chrome(113 或更新版本)取得最可靠的體驗。Chrome 有最成熟的 WebGPU 實作和與 transformers.js(驅動瀏覽器中 Gemma 4 的函式庫)最好的相容性。
如何檢查 WebGPU 是否啟用
開啟你瀏覽器的開發者 console(F12 或 Cmd+Shift+J)並執行:
if (navigator.gpu) {
const adapter = await navigator.gpu.requestAdapter();
console.log("WebGPU supported!", adapter);
} else {
console.log("WebGPU not supported in this browser.");
}如果你看到 adapter 物件,就可以開始了。
立刻試試:Hugging Face 示範
體驗瀏覽器中 Gemma 4 最快的方式是透過官方社群示範:
Gemma 4 WebGPU Demo on Hugging Face
只需點擊連結、等模型載入,然後開始聊天。不用註冊、不用 API 金鑰、不用後端伺服器。
開啟示範時會發生什麼
- 你的瀏覽器下載模型權重(首次造訪需要一會兒)
- 模型在你瀏覽器的儲存中快取到本機
- 所有推論完全在你的 GPU 上執行——沒有東西離開你的裝置
- 後續造訪從快取載入快得多
運作原理:背後的 Transformers.js
示範由 transformers.js 驅動,這是 Hugging Face 的 JavaScript 函式庫,將 Transformers 生態系統帶到瀏覽器。
以下是簡化的架構:
使用者輸入 → Tokenizer (WASM) → 模型推論 (WebGPU) → Detokenizer → 回應Transformers.js 處理:
- 模型載入 — 下載 ONNX 最佳化的模型權重並快取到 IndexedDB
- Tokenization — 使用 WASM 編譯的 tokenizer 將文字轉為 tokens
- GPU 推論 — 透過 WebGPU compute shaders 在你的 GPU 上執行前向傳遞
- 串流輸出 — 一次生成一個 token 以提供即時聊天體驗
如果你想建構自己的 WebGPU 驅動 Gemma 4 App,這是一個最小範例:
import { pipeline } from "@huggingface/transformers";
// 載入模型(首次執行時下載,之後快取)
const generator = await pipeline(
"text-generation",
"onnx-community/gemma-4-e2b-it-ONNX",
{ device: "webgpu" }
);
// 生成回應
const output = await generator("Explain quantum computing in simple terms:", {
max_new_tokens: 256,
temperature: 0.7,
});
console.log(output[0].generated_text);效能:該期待什麼
讓我們為在瀏覽器中執行 Gemma 4 設定實際的預期。
首次載入
初始模型下載範圍從 300 MB 到 2 GB,取決於量化層級。這是一次性成本——首次載入後,模型被快取到你瀏覽器的 IndexedDB 中,之後造訪載入快得多。
| 量化 | 下載大小 | 品質 |
|---|---|---|
| INT4 | ~300 MB | 適合聊天 |
| INT8 | ~600 MB | 更好的準確度 |
| FP16 | ~2 GB | 最佳品質 |
推論速度
載入後,Gemma 4 透過 WebGPU 提供出奇好的吞吐量:
- 提示詞處理(prefill): 40–80 tokens/秒
- 文字生成(decode): 根據你的 GPU 40–180 tokens/秒
作為參考,那與閱讀速度相當——足夠快進行互動式聊天。獨立 GPU(如 NVIDIA RTX 3060 或 Apple M1 Pro)會打到高端,而內建繪圖會更接近低端。
最大化效能的技巧
- 關閉其他耗 GPU 的分頁 — 影片串流、3D App 和其他 WebGPU 頁面會競爭 GPU 記憶體
- 使用 Chrome — 它有最佳化最好的 WebGPU 後端
- 偏好 INT4 量化 — 對瀏覽器使用來說,它是速度和品質的最佳平衡
- 保持 GPU 驅動程式更新 — WebGPU 效能隨新驅動程式改善
你該知道的限制
在瀏覽器中執行 AI 令人印象深刻,但有取捨。
模型大小
只有 Gemma 4 的 E2B(Efficient 2 Billion) 變體可用於 WebGPU。較大的 12B 和 27B 模型需要的 VRAM 超過瀏覽器能存取的。對那些,你會想用 Ollama 或其他本機推論工具。
裝置相容性
- 桌面瀏覽器: 90%+ 相容(Windows、macOS、Linux 上的 Chrome)
- 行動瀏覽器: 70-75% 相容(Android Chrome 有不錯的支援;iOS Safari 有限)
- 較舊硬體: 需要支援 WebGPU 的 GPU——大多數 2018 年起的 GPU 應該可以
記憶體限制
瀏覽器有比原生應用程式更嚴格的記憶體限制。如果你的裝置 RAM 少於 8 GB,你可能會遇到:
- 較慢的模型載入
- 較大量化時的記憶體不足錯誤
- 縮小的上下文視窗長度
尚無多模態支援
目前的 WebGPU 示範支援純文字互動。Gemma 4 的視覺能力(圖片理解)尚未在瀏覽器版本中可用,不過隨著 transformers.js 發展預期會改變。
何時使用瀏覽器中的 Gemma 4
基於瀏覽器的 Gemma 4 適合:
- 快速實驗 — 測試提示詞而不用任何設定
- 隱私敏感任務 — 所有資料留在你的裝置上
- 示範和簡報 — 僅用一個網址展示 AI 能力
- 學習和教育 — 學生可以探索 AI 而不用基礎設施
- 離線使用 — 一旦快取,無需網路即可運作(在支援的瀏覽器上)
對正式環境工作負載、重型文件處理或多模態任務,考慮改用 Ollama 或 LM Studio 在本機執行 Gemma 4。
結論
WebGPU 讓在不用任何設定的情況下直接在瀏覽器中執行有能力的 AI 模型成為可能。Gemma 4 的 E2B 變體在大多數現代裝置上提供即時聊天效能,而隨著瀏覽器 API 和硬體的發展,體驗只會變得更好。
準備好試試了嗎? 前往 Gemma 4 WebGPU Demo 開始聊天——不用下載、不用 API 金鑰、不用伺服器。只有你和 Gemma 4,執行在你自己的硬體上。
延伸閱讀
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


