CoreML-LLM 剛釋出 v0.2.0,數字令人驚嘆。Gemma 4 E2B 直接在 iPhone 的 Apple Neural Engine 上原生執行——每秒 11 個 token、250MB 記憶體、2 瓦功耗。這是目前在 iPhone 上執行 Gemma 4 最高效的方式,沒有之一。
X/Twitter 上為此炸鍋了,這完全可以理解。讓我們來看看它是什麼、怎麼運作、以及如何設定。
CoreML-LLM 是什麼?
CoreML-LLM 是一個開源框架,它把 LLM 轉換成 Apple 的 CoreML 格式,然後直接在 Neural Engine 上執行。Neural Engine 是每部現代 iPhone 裡的專用 AI 晶片。和 GPU 推論不同,Neural Engine 是專為矩陣運算設計的,意味著功耗和記憶體用量大幅降低。
0.2.0 版新增了對 Gemma 4 E2B 的完整支援,社群的基準測試結果足以說明一切。
大家都在討論的基準測試
以下是 CoreML-LLM v0.2.0 搭配 Gemma 4 E2B 在 iPhone 上的表現:
| 指標 | 結果 |
|---|---|
| 預填充(33 tokens) | 188ms(比 CPU 快 15.8 倍) |
| 解碼速度 | 11 tok/s |
| 上下文視窗 | 2048 tokens |
| 記憶體用量 | ~250MB |
| 功耗 | ~2W |
跟標準方式透過 AI Edge Gallery 或 MediaPipe 執行 Gemma 4 E2B 相比,那些通常要用 3GB 記憶體而且明顯消耗電池。CoreML-LLM 使用約少 12 倍的記憶體,而且是小口啜飲電力而非大口吞嚥。
更多行動裝置部署選項的全貌,請看我們的行動裝置部署指南。
這些數字是怎麼做到的
CoreML-LLM 不是把模型丟到 Neural Engine 上碰運氣。有四個關鍵技術最佳化讓這一切成為可能:
滑動視窗注意力機制
不是對整個上下文做完整的自注意力,CoreML-LLM 用滑動視窗方式。模型在每一層只關注最近固定數量的 token。這讓記憶體不管序列多長都保持恆定(在 2048 上下文限制內),完美適配 Neural Engine 的固定大小張量運算。
INT4 調色盤量化權重搭配 mmap
權重使用 Apple 的調色盤化技術量化到 INT4——一種查找表量化方式,每個權重是小型碼本的索引。模型檔案用記憶體映射(mmap)而非完整載入 RAM,這就是你看到 250MB 而非完整模型大小的原因。只有正在使用的頁面才會載入實體記憶體。
無狀態 KV 快取
傳統 KV 快取隨著序列長度增長並吃掉記憶體。CoreML-LLM 用無狀態方式,將 KV 快取管理為固定大小的 CoreML 張量。避免了動態記憶體分配,保持 Neural Engine 管線乾淨。
批次預填充
188ms 的預填充時間(33 個 token)來自把整個提示詞作為單一批次操作處理,而非逐 token 處理。比順序處理快 15.8 倍,讓初始回應感覺幾乎瞬間完成。
哪些 iPhone 相容?
你需要 A16 晶片或更新——也就是 iPhone 14 Pro 以上。
| 裝置 | 晶片 | Neural Engine | 相容 |
|---|---|---|---|
| iPhone 14 Pro / Pro Max | A16 Bionic | 16 核心 | 是 |
| iPhone 15 / 15 Plus | A16 Bionic | 16 核心 | 是 |
| iPhone 15 Pro / Pro Max | A17 Pro | 16 核心 | 是 |
| iPhone 16 / 16 Plus | A18 | 16 核心 | 是 |
| iPhone 16 Pro / Pro Max | A18 Pro | 16 核心 | 是(最快) |
| iPhone 14 / 14 Plus | A15 Bionic | 16 核心 | 否 |
| iPhone 13 及更舊 | A15 或更舊 | — | 否 |
A16 的 Neural Engine 具備 INT4 調色盤運算所需的指令集。較舊的晶片技術上有 Neural Engine,但不支援 CoreML-LLM 使用的特定量化格式。
想知道更大模型需要什麼硬體?查看硬體需求指南。
逐步設定指南
前置需求
- 安裝了 Xcode 15.4+ 的 Mac
- iPhone 14 Pro 或更新,執行 iOS 17+
- iPhone 上約 2GB 可用儲存空間
- Mac 上的 Python 3.10+(用於模型轉換)
步驟 1:安裝 CoreML-LLM
# 複製儲存庫
git clone https://github.com/nicklimmm/coreml-llm.git
cd coreml-llm
# 安裝 Python 相依套件
pip install -r requirements.txt步驟 2:下載並轉換模型
# 下載 Gemma 4 E2B 並轉換為 CoreML 格式
python convert.py \
--model google/gemma-4-e2b-it \
--output gemma4-e2b.mlpackage \
--quantize int4-palettized \
--context-length 2048這個步驟根據你的 Mac 效能需要 10-20 分鐘。轉換會自動處理量化、調色盤化和 Neural Engine 最佳化。
步驟 3:建置 iOS App
# 開啟 Xcode 專案
open CoreMLLLM.xcodeproj- 在 Xcode 中,選擇你的 iPhone 作為目標裝置。
- 將
gemma4-e2b.mlpackage拖曳到專案的 Resources 資料夾。 - 在 Signing & Capabilities 中設定你的開發團隊。
- 點擊 Build and Run(Cmd+R)。
步驟 4:首次啟動
首次啟動需要一兩分鐘,CoreML 會為你特定的 Neural Engine 編譯模型。之後會被快取,後續啟動會很快。
試試簡單的提示詞:
用兩句話解釋什麼是 Neural Engine。你應該看到大約每秒 11 個 token 的串流輸出。把手機切到飛航模式——依然正常運作。這就是重點。
步驟 5:驗證效能
App 內建了基準測試模式。點擊設定圖示,選擇「Run Benchmark」來查看你裝置實際的預填充和解碼速度。與本文的數據比較,確保一切運作正常。
CoreML-LLM vs AI Edge Gallery
目前在 iPhone 上執行 Gemma 4 主要有兩種方式。以下是比較:
| 功能 | CoreML-LLM v0.2.0 | AI Edge Gallery |
|---|---|---|
| 設定難度 | 中等(需要 Mac + Xcode) | 簡單(App Store 下載) |
| 解碼速度 | 11 tok/s | 5-15 tok/s |
| 記憶體用量 | ~250MB | ~3GB |
| 功耗 | ~2W | ~5-8W |
| 在 Neural Engine 上執行 | 是(專用) | 部分(主要是 GPU) |
| 自訂 App 整合 | 是(開源) | 否(獨立 App) |
| 模型支援 | 僅 Gemma 4 E2B | E2B + E4B |
| 多模態 | 尚未支援 | 有限 |
選 CoreML-LLM 如果你要最大效率、正在開發自己的 App、或想把電池用到極致。
選 AI Edge Gallery 如果你只想快速試用 Gemma 4 不想搞開發環境、或需要 E4B。關於 AI Edge Gallery 的做法,請看我們的 iPhone 指南。
限制
僅限 E2B。 CoreML-LLM v0.2.0 支援 Gemma 4 E2B。更大的 E4B、12B 和 26B 模型尚未轉換。E4B 支援已規劃但沒有時程。
尚無多模態。 Gemma 4 E2B 完整版支援文字、視覺和音訊,但 CoreML-LLM 目前只處理文字推論。多模態支援在 v0.3 的路線圖中。
2048 上下文視窗。 滑動視窗注意力機制讓記憶體保持低用量,但限制了模型一次能考慮的文字量。長文件需要分段輸入。
設定需要 Mac。 模型轉換和 App 建置需要 macOS 上的 Xcode。目前沒有 Windows 或 Linux 的途徑。
品質是 E2B 等級。 這是 20 億參數的模型。快速任務很出色——摘要、翻譯、簡單問答、基礎程式碼生成——但別期待 GPT-4 等級的推論能力。詳細品質分析請看我們的 E2B vs E4B 比較。
為什麼這很重要
250MB 記憶體和 2 瓦。這代表 Gemma 4 可以和你其他 App 一起跑而不會拖垮手機。代表你可以用好幾個小時而不會毀掉電池。代表裝置端 AI 從「展示品」變成你真的會放進正式產品的實際功能。
Neural Engine 在 iPhone 裡已經好幾年了,大部分時間都在跑相機處理和鍵盤預測。CoreML-LLM 展示了當你用真正的語言模型正確地瞄準它時會發生什麼。
下一步
- 第一次在行動裝置上用 Gemma 4? 從行動裝置部署指南開始了解全貌
- 想要更簡單(但效率較低)的方式? 看 iPhone 指南了解 AI Edge Gallery 設定
- 在模型大小之間猶豫? 閱讀我們的 E2B vs E4B 比較
- 需要確認硬體? 查看硬體需求了解所有平台資訊
裝置端 AI 變得實用多了。CoreML-LLM v0.2.0 搭配 Gemma 4 E2B 是今天在 iPhone 上執行真正語言模型最高效的方式——而支援多模態的 v0.3 即將到來。
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


