0% read

如何用 WebGPU 在瀏覽器中執行 Gemma 4(不需要伺服器)

Apr 6, 2026
|Updated: Apr 7, 2026

如何用 WebGPU 在瀏覽器中執行 Gemma 4

如果你能在不安裝任何東西、不付 API 費用、不將資料送到伺服器的情況下執行強大的 AI 模型呢?有了 Gemma 4 和 WebGPU,你可以做到這一切——就在你的瀏覽器中。

本指南帶你了解在瀏覽器分頁中本機執行 Gemma 4 所需要知道的一切,從 WebGPU 是什麼到你能實際預期什麼樣的效能。

什麼是 WebGPU?

WebGPU 是網頁的新一代繪圖和計算 API。把它想成 WebGL 的繼任者,但從頭開始為現代 GPU 工作負載設計——包括 AI 推論。

與主要為 3D 繪圖建構的 WebGL 不同,WebGPU 提供:

  • 直接 GPU 計算存取 — 在你的顯示卡上執行通用計算
  • 更好的效能 — 較低的開銷,更接近原生 Vulkan/Metal/D3D12 效能
  • Shader storage buffers — 對於載入和處理大型 AI 模型權重至關重要

簡而言之,WebGPU 將你的瀏覽器變成有能力的 AI 推論引擎。

瀏覽器需求

並非所有瀏覽器都支援 WebGPU。以下是目前情況:

瀏覽器WebGPU 支援推薦?
Chrome 113+完整支援是(最佳效能)
Edge 113+完整支援
Firefox在 flag 後面尚未穩定
Safari 18+部分支援實驗性

我們的建議:使用 Google Chrome(113 或更新版本)取得最可靠的體驗。Chrome 有最成熟的 WebGPU 實作和與 transformers.js(驅動瀏覽器中 Gemma 4 的函式庫)最好的相容性。

如何檢查 WebGPU 是否啟用

開啟你瀏覽器的開發者 console(F12 或 Cmd+Shift+J)並執行:

if (navigator.gpu) {
  const adapter = await navigator.gpu.requestAdapter();
  console.log("WebGPU supported!", adapter);
} else {
  console.log("WebGPU not supported in this browser.");
}

如果你看到 adapter 物件,就可以開始了。

立刻試試:Hugging Face 示範

體驗瀏覽器中 Gemma 4 最快的方式是透過官方社群示範:

Gemma 4 WebGPU Demo on Hugging Face

只需點擊連結、等模型載入,然後開始聊天。不用註冊、不用 API 金鑰、不用後端伺服器。

開啟示範時會發生什麼

  1. 你的瀏覽器下載模型權重(首次造訪需要一會兒)
  2. 模型在你瀏覽器的儲存中快取到本機
  3. 所有推論完全在你的 GPU 上執行——沒有東西離開你的裝置
  4. 後續造訪從快取載入快得多

運作原理:背後的 Transformers.js

示範由 transformers.js 驅動,這是 Hugging Face 的 JavaScript 函式庫,將 Transformers 生態系統帶到瀏覽器。

以下是簡化的架構:

使用者輸入 → Tokenizer (WASM) → 模型推論 (WebGPU) → Detokenizer → 回應

Transformers.js 處理:

  • 模型載入 — 下載 ONNX 最佳化的模型權重並快取到 IndexedDB
  • Tokenization — 使用 WASM 編譯的 tokenizer 將文字轉為 tokens
  • GPU 推論 — 透過 WebGPU compute shaders 在你的 GPU 上執行前向傳遞
  • 串流輸出 — 一次生成一個 token 以提供即時聊天體驗

如果你想建構自己的 WebGPU 驅動 Gemma 4 App,這是一個最小範例:

import { pipeline } from "@huggingface/transformers";

// 載入模型(首次執行時下載,之後快取)
const generator = await pipeline(
  "text-generation",
  "onnx-community/gemma-4-e2b-it-ONNX",
  { device: "webgpu" }
);

// 生成回應
const output = await generator("Explain quantum computing in simple terms:", {
  max_new_tokens: 256,
  temperature: 0.7,
});

console.log(output[0].generated_text);

效能:該期待什麼

讓我們為在瀏覽器中執行 Gemma 4 設定實際的預期。

首次載入

初始模型下載範圍從 300 MB 到 2 GB,取決於量化層級。這是一次性成本——首次載入後,模型被快取到你瀏覽器的 IndexedDB 中,之後造訪載入快得多。

量化下載大小品質
INT4~300 MB適合聊天
INT8~600 MB更好的準確度
FP16~2 GB最佳品質

推論速度

載入後,Gemma 4 透過 WebGPU 提供出奇好的吞吐量:

  • 提示詞處理(prefill): 40–80 tokens/秒
  • 文字生成(decode): 根據你的 GPU 40–180 tokens/秒

作為參考,那與閱讀速度相當——足夠快進行互動式聊天。獨立 GPU(如 NVIDIA RTX 3060 或 Apple M1 Pro)會打到高端,而內建繪圖會更接近低端。

最大化效能的技巧

  1. 關閉其他耗 GPU 的分頁 — 影片串流、3D App 和其他 WebGPU 頁面會競爭 GPU 記憶體
  2. 使用 Chrome — 它有最佳化最好的 WebGPU 後端
  3. 偏好 INT4 量化 — 對瀏覽器使用來說,它是速度和品質的最佳平衡
  4. 保持 GPU 驅動程式更新 — WebGPU 效能隨新驅動程式改善

你該知道的限制

在瀏覽器中執行 AI 令人印象深刻,但有取捨。

模型大小

只有 Gemma 4 的 E2B(Efficient 2 Billion) 變體可用於 WebGPU。較大的 12B 和 27B 模型需要的 VRAM 超過瀏覽器能存取的。對那些,你會想用 Ollama 或其他本機推論工具。

裝置相容性

  • 桌面瀏覽器: 90%+ 相容(Windows、macOS、Linux 上的 Chrome)
  • 行動瀏覽器: 70-75% 相容(Android Chrome 有不錯的支援;iOS Safari 有限)
  • 較舊硬體: 需要支援 WebGPU 的 GPU——大多數 2018 年起的 GPU 應該可以

記憶體限制

瀏覽器有比原生應用程式更嚴格的記憶體限制。如果你的裝置 RAM 少於 8 GB,你可能會遇到:

  • 較慢的模型載入
  • 較大量化時的記憶體不足錯誤
  • 縮小的上下文視窗長度

尚無多模態支援

目前的 WebGPU 示範支援純文字互動。Gemma 4 的視覺能力(圖片理解)尚未在瀏覽器版本中可用,不過隨著 transformers.js 發展預期會改變。

何時使用瀏覽器中的 Gemma 4

基於瀏覽器的 Gemma 4 適合:

  • 快速實驗 — 測試提示詞而不用任何設定
  • 隱私敏感任務 — 所有資料留在你的裝置上
  • 示範和簡報 — 僅用一個網址展示 AI 能力
  • 學習和教育 — 學生可以探索 AI 而不用基礎設施
  • 離線使用 — 一旦快取,無需網路即可運作(在支援的瀏覽器上)

對正式環境工作負載、重型文件處理或多模態任務,考慮改用 Ollama 或 LM Studio 在本機執行 Gemma 4。

結論

WebGPU 讓在不用任何設定的情況下直接在瀏覽器中執行有能力的 AI 模型成為可能。Gemma 4 的 E2B 變體在大多數現代裝置上提供即時聊天效能,而隨著瀏覽器 API 和硬體的發展,體驗只會變得更好。

準備好試試了嗎? 前往 Gemma 4 WebGPU Demo 開始聊天——不用下載、不用 API 金鑰、不用伺服器。只有你和 Gemma 4,執行在你自己的硬體上。


延伸閱讀

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

如何用 WebGPU 在瀏覽器中執行 Gemma 4(不需要伺服器) | 部落格