在你的手機上執行真正的 AI 模型——沒有網路、沒有雲端、沒有 API 金鑰。就是你的 iPhone 在思考。聽起來很狂野,但 Gemma 4 確實讓這成為可能。
不過在太興奮之前,讓我們設定實際的預期。它能用。它也不會感覺像 ChatGPT。以下是你需要知道的。
哪些模型真的能在 iPhone 上執行?
不是所有 Gemma 4 模型都能塞進手機。以下是分解:
| 模型 | iPhone 相容性 | 備註 |
|---|---|---|
| E2B (2B) | 所有現代 iPhone | 行動裝置推薦 |
| E4B (4B) | iPhone 15 Pro 和更新機型 | 需要 8GB RAM (A17 Pro+) |
| 26B | 否 | 太大了 |
| 31B | 否 | 差得遠 |
最佳選擇是 E2B。 它基本上能在過去幾年的任何 iPhone 上執行,並為 20 億參數的模型提供出乎意料有用的結果。E4B 品質更好,但你至少需要 iPhone 15 Pro——那是第一款有 8GB RAM 的 iPhone。
不確定哪個模型適合你的使用場景?查看我們的模型比較指南。
如何設定:Google AI Edge Gallery
Google 在行動裝置上執行 Gemma 模型的官方路徑是 AI Edge Gallery App。這是最簡單的入門方式。
逐步設定
-
從 App Store 下載 AI Edge Gallery。搜尋「Google AI Edge Gallery」或在 Google 的開發者工具區找它。
-
開啟 App 並瀏覽可用的模型。你會看到 Gemma 4 E2B(如果你的裝置支援,還有 E4B)。
-
下載模型。這是最大的步驟——E2B 模型大約 1.5-2GB。確認你連著 Wi-Fi。
-
等待下載和轉換。App 需要為你具體的晶片最佳化模型。這可能需要幾分鐘。別關閉 App。
-
開始聊天。準備好後,你可以輸入提示詞並取得回應。一切都在本機執行——把手機設為飛航模式來證明。
第一次測試
執行後,試試簡單的東西:
Summarize what a REST API is in 3 sentences.你應該會看到 tokens 一個接一個出現。比你習慣的慢,但它在用手機的神經引擎做真正的推論。
效能:該實際期待什麼
老實說。這不會取代你的雲端 AI 設定。以下是實際的體驗:
- 速度: E2B 在 iPhone 15 Pro 上約 5-15 tokens/秒。可讀但不快。E4B 更慢——大約 3-8 tokens/秒。
- 品質: E2B 處理簡單任務不錯:摘要、翻譯、快速問答、基本程式碼。別期待 GPT-4 等級的推理。
- 首次回應: 模型載入記憶體時有 2-5 秒的啟動延遲。
- 電池: 執行推論耗 GPU 資源。活躍使用時預期明顯的電池消耗。也許每小時持續聊天 10-15%。
- 發熱: 你的手機會發熱。15-20 分鐘的大量使用後,可能觸發熱節流進一步降速。
殺手級功能:離線 AI
這就是為什麼儘管有限制這仍然重要。你的手機到處都能用。在飛機上。地鐵隧道裡。網路受限的國家。零訊號的地方。
真正有意義的離線使用場景:
- 旅行翻譯機 — 不用漫遊資料就能用
- 快速寫作協助 — 在路上起草郵件、修正語法
- 程式碼片段 — 通勤時生成快速的工具函式
- 筆記摘要 — 貼上長文本取得摘要
- 隱私敏感查詢 — 資料完全不離開你的裝置
你該知道的限制
無大型模型。 26B 和 31B 模型需要 16-20+ GB 的 RAM。iPhone 最大 8GB。這短期內不會改變。
電池消耗是真的。 執行神經網路推論很耗電。別期待好幾小時的使用不用靠近充電器。
熱節流。 長時間使用後,你的 iPhone 會發熱,作業系統會降低效能以保護硬體。回應變慢。
上下文長度受限。 裝置端模型通常使用較短的上下文視窗以節省記憶體。別期待貼上 1 萬字的文件就能得到完美摘要。
裝置端暫無多模態(目前)。 雖然 Gemma 4 在雲端/桌面版本支援圖片輸入,但裝置端的圖片分析可能根據 App 實作而有所限制。
Android 有更多選擇
公平提醒——如果你考慮 Android,那邊的裝置端 AI 情況更成熟。Android 有:
- Google AICore — Pixel 裝置的系統層級 AI 整合
- MediaPipe — Google 的 ML 框架,有更廣泛的模型支援
- 更多 RAM — 一些 Android 旗艦有 12-16GB
話雖如此,Apple 的神經引擎對推論來說很出色,所以對能塞進去的模型來說 iPhone 並非處於巨大的劣勢。
值得嗎?
值得,如果 你想要離線 AI、你在乎隱私,或你就是覺得在手機上執行真正的語言模型很酷。E2B 模型對快速任務真的很有用。
不值得,如果 你需要高品質推理、長上下文或快速回應。對那些使用雲端 API。
誠實的答案: 這是未來方向的一瞥。兩年內,裝置端 AI 會戲劇性地變好。現在,它有用但有限。試試看,欣賞我們走了多遠,需要嚴肅算力時用雲端。
你也可以透過 WebGPU 在瀏覽器中執行 Gemma 4——查看我們的瀏覽器指南 看另一個免安裝選項。
下一步
- 想改在筆電上執行 Gemma 4?看 我的筆電能跑 Gemma 4 嗎?
- 不確定哪個模型大小適合你的需求?閱讀 Gemma 4:哪個模型?
- 偏好在瀏覽器中執行?試試 WebGPU 瀏覽器指南
- 準備好使用 API 等級的算力?查看我們的 API 教學
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


