如何用 CoreML 在 iPhone 上執行 Gemma 4（2026 完整指南）

CoreML-LLM 剛釋出 v0.2.0，數字令人驚嘆。Gemma 4 E2B 直接在 iPhone 的 Apple Neural Engine 上原生執行——每秒 11 個 token、250MB 記憶體、2 瓦功耗。這是目前在 iPhone 上執行 Gemma 4 最高效的方式，沒有之一。

X/Twitter 上為此炸鍋了，這完全可以理解。讓我們來看看它是什麼、怎麼運作、以及如何設定。

CoreML-LLM 是什麼？

CoreML-LLM 是一個開源框架，它把 LLM 轉換成 Apple 的 CoreML 格式，然後直接在 Neural Engine 上執行。Neural Engine 是每部現代 iPhone 裡的專用 AI 晶片。和 GPU 推論不同，Neural Engine 是專為矩陣運算設計的，意味著功耗和記憶體用量大幅降低。

0.2.0 版新增了對 Gemma 4 E2B 的完整支援，社群的基準測試結果足以說明一切。

大家都在討論的基準測試

以下是 CoreML-LLM v0.2.0 搭配 Gemma 4 E2B 在 iPhone 上的表現：

指標	結果
預填充（33 tokens）	188ms（比 CPU 快 15.8 倍）
解碼速度	11 tok/s
上下文視窗	2048 tokens
記憶體用量	~250MB
功耗	~2W

跟標準方式透過 AI Edge Gallery 或 MediaPipe 執行 Gemma 4 E2B 相比，那些通常要用 3GB 記憶體而且明顯消耗電池。CoreML-LLM 使用約少 12 倍的記憶體，而且是小口啜飲電力而非大口吞嚥。

更多行動裝置部署選項的全貌，請看我們的行動裝置部署指南。

這些數字是怎麼做到的

CoreML-LLM 不是把模型丟到 Neural Engine 上碰運氣。有四個關鍵技術最佳化讓這一切成為可能：

滑動視窗注意力機制

不是對整個上下文做完整的自注意力，CoreML-LLM 用滑動視窗方式。模型在每一層只關注最近固定數量的 token。這讓記憶體不管序列多長都保持恆定（在 2048 上下文限制內），完美適配 Neural Engine 的固定大小張量運算。

INT4 調色盤量化權重搭配 mmap

權重使用 Apple 的調色盤化技術量化到 INT4——一種查找表量化方式，每個權重是小型碼本的索引。模型檔案用記憶體映射（mmap）而非完整載入 RAM，這就是你看到 250MB 而非完整模型大小的原因。只有正在使用的頁面才會載入實體記憶體。

無狀態 KV 快取

傳統 KV 快取隨著序列長度增長並吃掉記憶體。CoreML-LLM 用無狀態方式，將 KV 快取管理為固定大小的 CoreML 張量。避免了動態記憶體分配，保持 Neural Engine 管線乾淨。

批次預填充

188ms 的預填充時間（33 個 token）來自把整個提示詞作為單一批次操作處理，而非逐 token 處理。比順序處理快 15.8 倍，讓初始回應感覺幾乎瞬間完成。

哪些 iPhone 相容？

你需要 A16 晶片或更新——也就是 iPhone 14 Pro 以上。

裝置	晶片	Neural Engine	相容
iPhone 14 Pro / Pro Max	A16 Bionic	16 核心	是
iPhone 15 / 15 Plus	A16 Bionic	16 核心	是
iPhone 15 Pro / Pro Max	A17 Pro	16 核心	是
iPhone 16 / 16 Plus	A18	16 核心	是
iPhone 16 Pro / Pro Max	A18 Pro	16 核心	是（最快）
iPhone 14 / 14 Plus	A15 Bionic	16 核心	否
iPhone 13 及更舊	A15 或更舊	—	否

A16 的 Neural Engine 具備 INT4 調色盤運算所需的指令集。較舊的晶片技術上有 Neural Engine，但不支援 CoreML-LLM 使用的特定量化格式。

想知道更大模型需要什麼硬體？查看硬體需求指南。

逐步設定指南

前置需求

安裝了 Xcode 15.4+ 的 Mac
iPhone 14 Pro 或更新，執行 iOS 17+
iPhone 上約 2GB 可用儲存空間
Mac 上的 Python 3.10+（用於模型轉換）

步驟 1：安裝 CoreML-LLM

# 複製儲存庫
git clone https://github.com/nicklimmm/coreml-llm.git
cd coreml-llm

# 安裝 Python 相依套件
pip install -r requirements.txt

步驟 2：下載並轉換模型

# 下載 Gemma 4 E2B 並轉換為 CoreML 格式
python convert.py \
  --model google/gemma-4-e2b-it \
  --output gemma4-e2b.mlpackage \
  --quantize int4-palettized \
  --context-length 2048

這個步驟根據你的 Mac 效能需要 10-20 分鐘。轉換會自動處理量化、調色盤化和 Neural Engine 最佳化。

步驟 3：建置 iOS App

# 開啟 Xcode 專案
open CoreMLLLM.xcodeproj

在 Xcode 中，選擇你的 iPhone 作為目標裝置。
將 gemma4-e2b.mlpackage 拖曳到專案的 Resources 資料夾。
在 Signing & Capabilities 中設定你的開發團隊。
點擊 Build and Run（Cmd+R）。

步驟 4：首次啟動

首次啟動需要一兩分鐘，CoreML 會為你特定的 Neural Engine 編譯模型。之後會被快取，後續啟動會很快。

試試簡單的提示詞：

用兩句話解釋什麼是 Neural Engine。

你應該看到大約每秒 11 個 token 的串流輸出。把手機切到飛航模式——依然正常運作。這就是重點。

步驟 5：驗證效能

App 內建了基準測試模式。點擊設定圖示，選擇「Run Benchmark」來查看你裝置實際的預填充和解碼速度。與本文的數據比較，確保一切運作正常。

CoreML-LLM vs AI Edge Gallery

目前在 iPhone 上執行 Gemma 4 主要有兩種方式。以下是比較：

功能	CoreML-LLM v0.2.0	AI Edge Gallery
設定難度	中等（需要 Mac + Xcode）	簡單（App Store 下載）
解碼速度	11 tok/s	5-15 tok/s
記憶體用量	~250MB	~3GB
功耗	~2W	~5-8W
在 Neural Engine 上執行	是（專用）	部分（主要是 GPU）
自訂 App 整合	是（開源）	否（獨立 App）
模型支援	僅 Gemma 4 E2B	E2B + E4B
多模態	尚未支援	有限

選 CoreML-LLM 如果你要最大效率、正在開發自己的 App、或想把電池用到極致。

選 AI Edge Gallery 如果你只想快速試用 Gemma 4 不想搞開發環境、或需要 E4B。關於 AI Edge Gallery 的做法，請看我們的 iPhone 指南。

限制

僅限 E2B。 CoreML-LLM v0.2.0 支援 Gemma 4 E2B。更大的 E4B、12B 和 26B 模型尚未轉換。E4B 支援已規劃但沒有時程。

尚無多模態。 Gemma 4 E2B 完整版支援文字、視覺和音訊，但 CoreML-LLM 目前只處理文字推論。多模態支援在 v0.3 的路線圖中。

2048 上下文視窗。 滑動視窗注意力機制讓記憶體保持低用量，但限制了模型一次能考慮的文字量。長文件需要分段輸入。

設定需要 Mac。 模型轉換和 App 建置需要 macOS 上的 Xcode。目前沒有 Windows 或 Linux 的途徑。

品質是 E2B 等級。 這是 20 億參數的模型。快速任務很出色——摘要、翻譯、簡單問答、基礎程式碼生成——但別期待 GPT-4 等級的推論能力。詳細品質分析請看我們的 E2B vs E4B 比較。

為什麼這很重要

250MB 記憶體和 2 瓦。這代表 Gemma 4 可以和你其他 App 一起跑而不會拖垮手機。代表你可以用好幾個小時而不會毀掉電池。代表裝置端 AI 從「展示品」變成你真的會放進正式產品的實際功能。

Neural Engine 在 iPhone 裡已經好幾年了，大部分時間都在跑相機處理和鍵盤預測。CoreML-LLM 展示了當你用真正的語言模型正確地瞄準它時會發生什麼。

下一步

第一次在行動裝置上用 Gemma 4？ 從行動裝置部署指南開始了解全貌
想要更簡單（但效率較低）的方式？ 看 iPhone 指南了解 AI Edge Gallery 設定
在模型大小之間猶豫？ 閱讀我們的 E2B vs E4B 比較
需要確認硬體？ 查看硬體需求了解所有平台資訊

裝置端 AI 變得實用多了。CoreML-LLM v0.2.0 搭配 Gemma 4 E2B 是今天在 iPhone 上執行真正語言模型最高效的方式——而支援多模態的 v0.3 即將到來。

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />