0% read

如何在 iPhone 上執行 Gemma 4(是的,真的可以)

Apr 7, 2026

在你的手機上執行真正的 AI 模型——沒有網路、沒有雲端、沒有 API 金鑰。就是你的 iPhone 在思考。聽起來很狂野,但 Gemma 4 確實讓這成為可能。

不過在太興奮之前,讓我們設定實際的預期。它能用。它也不會感覺像 ChatGPT。以下是你需要知道的。

哪些模型真的能在 iPhone 上執行?

不是所有 Gemma 4 模型都能塞進手機。以下是分解:

模型iPhone 相容性備註
E2B (2B)所有現代 iPhone行動裝置推薦
E4B (4B)iPhone 15 Pro 和更新機型需要 8GB RAM (A17 Pro+)
26B太大了
31B差得遠

最佳選擇是 E2B。 它基本上能在過去幾年的任何 iPhone 上執行,並為 20 億參數的模型提供出乎意料有用的結果。E4B 品質更好,但你至少需要 iPhone 15 Pro——那是第一款有 8GB RAM 的 iPhone。

不確定哪個模型適合你的使用場景?查看我們的模型比較指南

Google 在行動裝置上執行 Gemma 模型的官方路徑是 AI Edge Gallery App。這是最簡單的入門方式。

逐步設定

  1. 從 App Store 下載 AI Edge Gallery。搜尋「Google AI Edge Gallery」或在 Google 的開發者工具區找它。

  2. 開啟 App 並瀏覽可用的模型。你會看到 Gemma 4 E2B(如果你的裝置支援,還有 E4B)。

  3. 下載模型。這是最大的步驟——E2B 模型大約 1.5-2GB。確認你連著 Wi-Fi。

  4. 等待下載和轉換。App 需要為你具體的晶片最佳化模型。這可能需要幾分鐘。別關閉 App。

  5. 開始聊天。準備好後,你可以輸入提示詞並取得回應。一切都在本機執行——把手機設為飛航模式來證明。

第一次測試

執行後,試試簡單的東西:

Summarize what a REST API is in 3 sentences.

你應該會看到 tokens 一個接一個出現。比你習慣的慢,但它在用手機的神經引擎做真正的推論。

效能:該實際期待什麼

老實說。這不會取代你的雲端 AI 設定。以下是實際的體驗:

  • 速度: E2B 在 iPhone 15 Pro 上約 5-15 tokens/秒。可讀但不快。E4B 更慢——大約 3-8 tokens/秒。
  • 品質: E2B 處理簡單任務不錯:摘要、翻譯、快速問答、基本程式碼。別期待 GPT-4 等級的推理。
  • 首次回應: 模型載入記憶體時有 2-5 秒的啟動延遲。
  • 電池: 執行推論耗 GPU 資源。活躍使用時預期明顯的電池消耗。也許每小時持續聊天 10-15%。
  • 發熱: 你的手機會發熱。15-20 分鐘的大量使用後,可能觸發熱節流進一步降速。

殺手級功能:離線 AI

這就是為什麼儘管有限制這仍然重要。你的手機到處都能用。在飛機上。地鐵隧道裡。網路受限的國家。零訊號的地方。

真正有意義的離線使用場景:

  • 旅行翻譯機 — 不用漫遊資料就能用
  • 快速寫作協助 — 在路上起草郵件、修正語法
  • 程式碼片段 — 通勤時生成快速的工具函式
  • 筆記摘要 — 貼上長文本取得摘要
  • 隱私敏感查詢 — 資料完全不離開你的裝置

你該知道的限制

無大型模型。 26B 和 31B 模型需要 16-20+ GB 的 RAM。iPhone 最大 8GB。這短期內不會改變。

電池消耗是真的。 執行神經網路推論很耗電。別期待好幾小時的使用不用靠近充電器。

熱節流。 長時間使用後,你的 iPhone 會發熱,作業系統會降低效能以保護硬體。回應變慢。

上下文長度受限。 裝置端模型通常使用較短的上下文視窗以節省記憶體。別期待貼上 1 萬字的文件就能得到完美摘要。

裝置端暫無多模態(目前)。 雖然 Gemma 4 在雲端/桌面版本支援圖片輸入,但裝置端的圖片分析可能根據 App 實作而有所限制。

Android 有更多選擇

公平提醒——如果你考慮 Android,那邊的裝置端 AI 情況更成熟。Android 有:

  • Google AICore — Pixel 裝置的系統層級 AI 整合
  • MediaPipe — Google 的 ML 框架,有更廣泛的模型支援
  • 更多 RAM — 一些 Android 旗艦有 12-16GB

話雖如此,Apple 的神經引擎對推論來說很出色,所以對能塞進去的模型來說 iPhone 並非處於巨大的劣勢。

值得嗎?

值得,如果 你想要離線 AI、你在乎隱私,或你就是覺得在手機上執行真正的語言模型很酷。E2B 模型對快速任務真的很有用。

不值得,如果 你需要高品質推理、長上下文或快速回應。對那些使用雲端 API

誠實的答案: 這是未來方向的一瞥。兩年內,裝置端 AI 會戲劇性地變好。現在,它有用但有限。試試看,欣賞我們走了多遠,需要嚴肅算力時用雲端。

你也可以透過 WebGPU 在瀏覽器中執行 Gemma 4——查看我們的瀏覽器指南 看另一個免安裝選項。

下一步

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

如何在 iPhone 上執行 Gemma 4(是的,真的可以) | 部落格