如何在 iPhone 上執行 Gemma 4（是的，真的可以）

在你的手機上執行真正的 AI 模型——沒有網路、沒有雲端、沒有 API 金鑰。就是你的 iPhone 在思考。聽起來很狂野，但 Gemma 4 確實讓這成為可能。

不過在太興奮之前，讓我們設定實際的預期。它能用。它也不會感覺像 ChatGPT。以下是你需要知道的。

哪些模型真的能在 iPhone 上執行？

不是所有 Gemma 4 模型都能塞進手機。以下是分解：

模型	iPhone 相容性	備註
E2B (2B)	所有現代 iPhone	行動裝置推薦
E4B (4B)	iPhone 15 Pro 和更新機型	需要 8GB RAM (A17 Pro+)
26B	否	太大了
31B	否	差得遠

最佳選擇是 E2B。 它基本上能在過去幾年的任何 iPhone 上執行，並為 20 億參數的模型提供出乎意料有用的結果。E4B 品質更好，但你至少需要 iPhone 15 Pro——那是第一款有 8GB RAM 的 iPhone。

不確定哪個模型適合你的使用場景？查看我們的模型比較指南。

如何設定：Google AI Edge Gallery

Google 在行動裝置上執行 Gemma 模型的官方路徑是 AI Edge Gallery App。這是最簡單的入門方式。

逐步設定

從 App Store 下載 AI Edge Gallery。搜尋「Google AI Edge Gallery」或在 Google 的開發者工具區找它。
開啟 App 並瀏覽可用的模型。你會看到 Gemma 4 E2B（如果你的裝置支援，還有 E4B）。
下載模型。這是最大的步驟——E2B 模型大約 1.5-2GB。確認你連著 Wi-Fi。
等待下載和轉換。App 需要為你具體的晶片最佳化模型。這可能需要幾分鐘。別關閉 App。
開始聊天。準備好後，你可以輸入提示詞並取得回應。一切都在本機執行——把手機設為飛航模式來證明。

第一次測試

執行後，試試簡單的東西：

Summarize what a REST API is in 3 sentences.

你應該會看到 tokens 一個接一個出現。比你習慣的慢，但它在用手機的神經引擎做真正的推論。

效能：該實際期待什麼

老實說。這不會取代你的雲端 AI 設定。以下是實際的體驗：

速度： E2B 在 iPhone 15 Pro 上約 5-15 tokens/秒。可讀但不快。E4B 更慢——大約 3-8 tokens/秒。
品質： E2B 處理簡單任務不錯：摘要、翻譯、快速問答、基本程式碼。別期待 GPT-4 等級的推理。
首次回應： 模型載入記憶體時有 2-5 秒的啟動延遲。
電池： 執行推論耗 GPU 資源。活躍使用時預期明顯的電池消耗。也許每小時持續聊天 10-15%。
發熱： 你的手機會發熱。15-20 分鐘的大量使用後，可能觸發熱節流進一步降速。

殺手級功能：離線 AI

這就是為什麼儘管有限制這仍然重要。你的手機到處都能用。在飛機上。地鐵隧道裡。網路受限的國家。零訊號的地方。

真正有意義的離線使用場景：

旅行翻譯機 — 不用漫遊資料就能用
快速寫作協助 — 在路上起草郵件、修正語法
程式碼片段 — 通勤時生成快速的工具函式
筆記摘要 — 貼上長文本取得摘要
隱私敏感查詢 — 資料完全不離開你的裝置

你該知道的限制

無大型模型。 26B 和 31B 模型需要 16-20+ GB 的 RAM。iPhone 最大 8GB。這短期內不會改變。

電池消耗是真的。 執行神經網路推論很耗電。別期待好幾小時的使用不用靠近充電器。

熱節流。 長時間使用後，你的 iPhone 會發熱，作業系統會降低效能以保護硬體。回應變慢。

上下文長度受限。 裝置端模型通常使用較短的上下文視窗以節省記憶體。別期待貼上 1 萬字的文件就能得到完美摘要。

裝置端暫無多模態（目前）。 雖然 Gemma 4 在雲端/桌面版本支援圖片輸入，但裝置端的圖片分析可能根據 App 實作而有所限制。

Android 有更多選擇

公平提醒——如果你考慮 Android，那邊的裝置端 AI 情況更成熟。Android 有：

Google AICore — Pixel 裝置的系統層級 AI 整合
MediaPipe — Google 的 ML 框架，有更廣泛的模型支援
更多 RAM — 一些 Android 旗艦有 12-16GB

話雖如此，Apple 的神經引擎對推論來說很出色，所以對能塞進去的模型來說 iPhone 並非處於巨大的劣勢。

值得嗎？

值得，如果 你想要離線 AI、你在乎隱私，或你就是覺得在手機上執行真正的語言模型很酷。E2B 模型對快速任務真的很有用。

不值得，如果 你需要高品質推理、長上下文或快速回應。對那些使用雲端 API。

誠實的答案： 這是未來方向的一瞥。兩年內，裝置端 AI 會戲劇性地變好。現在，它有用但有限。試試看，欣賞我們走了多遠，需要嚴肅算力時用雲端。

你也可以透過 WebGPU 在瀏覽器中執行 Gemma 4——查看我們的瀏覽器指南看另一個免安裝選項。

下一步

想改在筆電上執行 Gemma 4？看我的筆電能跑 Gemma 4 嗎？
不確定哪個模型大小適合你的需求？閱讀 Gemma 4：哪個模型？
偏好在瀏覽器中執行？試試 WebGPU 瀏覽器指南
準備好使用 API 等級的算力？查看我們的 API 教學

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />