0% read

如何用 CoreML 在 iPhone 上執行 Gemma 4(2026 完整指南)

Apr 10, 2026

CoreML-LLM 剛釋出 v0.2.0,數字令人驚嘆。Gemma 4 E2B 直接在 iPhone 的 Apple Neural Engine 上原生執行——每秒 11 個 token、250MB 記憶體、2 瓦功耗。這是目前在 iPhone 上執行 Gemma 4 最高效的方式,沒有之一。

X/Twitter 上為此炸鍋了,這完全可以理解。讓我們來看看它是什麼、怎麼運作、以及如何設定。

CoreML-LLM 是什麼?

CoreML-LLM 是一個開源框架,它把 LLM 轉換成 Apple 的 CoreML 格式,然後直接在 Neural Engine 上執行。Neural Engine 是每部現代 iPhone 裡的專用 AI 晶片。和 GPU 推論不同,Neural Engine 是專為矩陣運算設計的,意味著功耗和記憶體用量大幅降低。

0.2.0 版新增了對 Gemma 4 E2B 的完整支援,社群的基準測試結果足以說明一切。

大家都在討論的基準測試

以下是 CoreML-LLM v0.2.0 搭配 Gemma 4 E2B 在 iPhone 上的表現:

指標結果
預填充(33 tokens)188ms(比 CPU 快 15.8 倍)
解碼速度11 tok/s
上下文視窗2048 tokens
記憶體用量~250MB
功耗~2W

跟標準方式透過 AI Edge Gallery 或 MediaPipe 執行 Gemma 4 E2B 相比,那些通常要用 3GB 記憶體而且明顯消耗電池。CoreML-LLM 使用約少 12 倍的記憶體,而且是小口啜飲電力而非大口吞嚥。

更多行動裝置部署選項的全貌,請看我們的行動裝置部署指南

這些數字是怎麼做到的

CoreML-LLM 不是把模型丟到 Neural Engine 上碰運氣。有四個關鍵技術最佳化讓這一切成為可能:

滑動視窗注意力機制

不是對整個上下文做完整的自注意力,CoreML-LLM 用滑動視窗方式。模型在每一層只關注最近固定數量的 token。這讓記憶體不管序列多長都保持恆定(在 2048 上下文限制內),完美適配 Neural Engine 的固定大小張量運算。

INT4 調色盤量化權重搭配 mmap

權重使用 Apple 的調色盤化技術量化到 INT4——一種查找表量化方式,每個權重是小型碼本的索引。模型檔案用記憶體映射(mmap)而非完整載入 RAM,這就是你看到 250MB 而非完整模型大小的原因。只有正在使用的頁面才會載入實體記憶體。

無狀態 KV 快取

傳統 KV 快取隨著序列長度增長並吃掉記憶體。CoreML-LLM 用無狀態方式,將 KV 快取管理為固定大小的 CoreML 張量。避免了動態記憶體分配,保持 Neural Engine 管線乾淨。

批次預填充

188ms 的預填充時間(33 個 token)來自把整個提示詞作為單一批次操作處理,而非逐 token 處理。比順序處理快 15.8 倍,讓初始回應感覺幾乎瞬間完成。

哪些 iPhone 相容?

你需要 A16 晶片或更新——也就是 iPhone 14 Pro 以上

裝置晶片Neural Engine相容
iPhone 14 Pro / Pro MaxA16 Bionic16 核心
iPhone 15 / 15 PlusA16 Bionic16 核心
iPhone 15 Pro / Pro MaxA17 Pro16 核心
iPhone 16 / 16 PlusA1816 核心
iPhone 16 Pro / Pro MaxA18 Pro16 核心是(最快)
iPhone 14 / 14 PlusA15 Bionic16 核心
iPhone 13 及更舊A15 或更舊

A16 的 Neural Engine 具備 INT4 調色盤運算所需的指令集。較舊的晶片技術上有 Neural Engine,但不支援 CoreML-LLM 使用的特定量化格式。

想知道更大模型需要什麼硬體?查看硬體需求指南

逐步設定指南

前置需求

  • 安裝了 Xcode 15.4+ 的 Mac
  • iPhone 14 Pro 或更新,執行 iOS 17+
  • iPhone 上約 2GB 可用儲存空間
  • Mac 上的 Python 3.10+(用於模型轉換)

步驟 1:安裝 CoreML-LLM

# 複製儲存庫
git clone https://github.com/nicklimmm/coreml-llm.git
cd coreml-llm

# 安裝 Python 相依套件
pip install -r requirements.txt

步驟 2:下載並轉換模型

# 下載 Gemma 4 E2B 並轉換為 CoreML 格式
python convert.py \
  --model google/gemma-4-e2b-it \
  --output gemma4-e2b.mlpackage \
  --quantize int4-palettized \
  --context-length 2048

這個步驟根據你的 Mac 效能需要 10-20 分鐘。轉換會自動處理量化、調色盤化和 Neural Engine 最佳化。

步驟 3:建置 iOS App

# 開啟 Xcode 專案
open CoreMLLLM.xcodeproj
  1. 在 Xcode 中,選擇你的 iPhone 作為目標裝置。
  2. gemma4-e2b.mlpackage 拖曳到專案的 Resources 資料夾。
  3. 在 Signing & Capabilities 中設定你的開發團隊。
  4. 點擊 Build and Run(Cmd+R)。

步驟 4:首次啟動

首次啟動需要一兩分鐘,CoreML 會為你特定的 Neural Engine 編譯模型。之後會被快取,後續啟動會很快。

試試簡單的提示詞:

用兩句話解釋什麼是 Neural Engine。

你應該看到大約每秒 11 個 token 的串流輸出。把手機切到飛航模式——依然正常運作。這就是重點。

步驟 5:驗證效能

App 內建了基準測試模式。點擊設定圖示,選擇「Run Benchmark」來查看你裝置實際的預填充和解碼速度。與本文的數據比較,確保一切運作正常。

目前在 iPhone 上執行 Gemma 4 主要有兩種方式。以下是比較:

功能CoreML-LLM v0.2.0AI Edge Gallery
設定難度中等(需要 Mac + Xcode)簡單(App Store 下載)
解碼速度11 tok/s5-15 tok/s
記憶體用量~250MB~3GB
功耗~2W~5-8W
在 Neural Engine 上執行是(專用)部分(主要是 GPU)
自訂 App 整合是(開源)否(獨立 App)
模型支援僅 Gemma 4 E2BE2B + E4B
多模態尚未支援有限

選 CoreML-LLM 如果你要最大效率、正在開發自己的 App、或想把電池用到極致。

選 AI Edge Gallery 如果你只想快速試用 Gemma 4 不想搞開發環境、或需要 E4B。關於 AI Edge Gallery 的做法,請看我們的 iPhone 指南

限制

僅限 E2B。 CoreML-LLM v0.2.0 支援 Gemma 4 E2B。更大的 E4B、12B 和 26B 模型尚未轉換。E4B 支援已規劃但沒有時程。

尚無多模態。 Gemma 4 E2B 完整版支援文字、視覺和音訊,但 CoreML-LLM 目前只處理文字推論。多模態支援在 v0.3 的路線圖中。

2048 上下文視窗。 滑動視窗注意力機制讓記憶體保持低用量,但限制了模型一次能考慮的文字量。長文件需要分段輸入。

設定需要 Mac。 模型轉換和 App 建置需要 macOS 上的 Xcode。目前沒有 Windows 或 Linux 的途徑。

品質是 E2B 等級。 這是 20 億參數的模型。快速任務很出色——摘要、翻譯、簡單問答、基礎程式碼生成——但別期待 GPT-4 等級的推論能力。詳細品質分析請看我們的 E2B vs E4B 比較

為什麼這很重要

250MB 記憶體和 2 瓦。這代表 Gemma 4 可以和你其他 App 一起跑而不會拖垮手機。代表你可以用好幾個小時而不會毀掉電池。代表裝置端 AI 從「展示品」變成你真的會放進正式產品的實際功能。

Neural Engine 在 iPhone 裡已經好幾年了,大部分時間都在跑相機處理和鍵盤預測。CoreML-LLM 展示了當你用真正的語言模型正確地瞄準它時會發生什麼。

下一步

裝置端 AI 變得實用多了。CoreML-LLM v0.2.0 搭配 Gemma 4 E2B 是今天在 iPhone 上執行真正語言模型最高效的方式——而支援多模態的 v0.3 即將到來。

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

如何用 CoreML 在 iPhone 上執行 Gemma 4(2026 完整指南) | 部落格