CoreML-LLMがv0.2.0をリリースし、その数字は驚異的です。Gemma 4 E2BがAppleのNeural Engine上でネイティブに動作 — 11トークン/秒、250MBのメモリ、2ワットの消費電力。これはiPhoneでGemma 4を動かす最も効率的な方法です。
X/Twitterでこの話題が盛り上がっているのも当然です。何ができるのか、どう動くのか、そしてセットアップ方法を解説します。
CoreML-LLMとは?
CoreML-LLMは、LLMをAppleのCoreML形式に変換し、Neural Engine上で直接実行するオープンソースフレームワークです。Neural Engineは最新のiPhoneに搭載されたAI専用チップです。GPUベースの推論とは異なり、Neural Engineは行列演算に特化しているため、消費電力とメモリ使用量が大幅に削減されます。
バージョン0.2.0でGemma 4 E2Bの完全サポートが追加され、コミュニティのベンチマーク結果がその実力を証明しています。
話題になっているベンチマーク
CoreML-LLM v0.2.0がGemma 4 E2BでiPhoneにて達成した性能:
| 指標 | 結果 |
|---|---|
| プリフィル(33トークン) | 188ms(CPUの15.8倍高速) |
| デコード速度 | 11 tok/s |
| コンテキストウィンドウ | 2048トークン |
| メモリ使用量 | 約250MB |
| 消費電力 | 約2W |
標準的なAI Edge GalleryやMediaPipeでGemma 4 E2Bを動かす方法と比較すると、通常3GBのメモリを使用し、バッテリーの消耗も顕著です。CoreML-LLMは約12分の1のメモリで動作し、電力も少量で済みます。
モバイル展開のオプション全体像は、モバイルデプロイガイドをご覧ください。
この数字を実現する仕組み
CoreML-LLMは単にモデルをNeural Engineに載せているだけではありません。4つの重要な技術的最適化がこれを可能にしています:
スライディングウィンドウアテンション
コンテキスト全体に対する完全なセルフアテンションの代わりに、CoreML-LLMはスライディングウィンドウ方式を採用。各レイヤーで最近のトークンの固定ウィンドウにのみアテンションを行います。シーケンス長に関係なくメモリを一定に保ち(2048コンテキスト制限内)、Neural Engineの固定サイズテンソル演算に最適です。
INT4パレタイズ重みとmmap
重みはAppleのパレタイゼーション技術を使ってINT4に量子化されます。各重みが小さなコードブックのインデックスとなるルックアップテーブル量子化の一種です。モデルファイルはRAMに全読み込みするのではなくメモリマップ(mmap)されるため、フルサイズではなく250MBという数字が実現します。実際に使用中のページだけが物理メモリに読み込まれます。
ステートレスKVキャッシュ
従来のKVキャッシュはシーケンス長とともに増大しメモリを消費します。CoreML-LLMはKVキャッシュを固定サイズのCoreMLテンソルとして管理するステートレスなアプローチを採用。動的メモリ割り当てを回避し、Neural Engineのパイプラインをクリーンに保ちます。
バッチプリフィル
188ms(33トークン)のプリフィル時間は、プロンプト全体をトークンごとではなく単一のバッチ操作として処理することで実現しています。逐次処理に比べて15.8倍の高速化で、初回応答がほぼ瞬時に感じられます。
対応iPhone
A16チップ以降が必要です。つまりiPhone 14 Pro以降です。
| デバイス | チップ | Neural Engine | 対応 |
|---|---|---|---|
| iPhone 14 Pro / Pro Max | A16 Bionic | 16コア | はい |
| iPhone 15 / 15 Plus | A16 Bionic | 16コア | はい |
| iPhone 15 Pro / Pro Max | A17 Pro | 16コア | はい |
| iPhone 16 / 16 Plus | A18 | 16コア | はい |
| iPhone 16 Pro / Pro Max | A18 Pro | 16コア | はい(最速) |
| iPhone 14 / 14 Plus | A15 Bionic | 16コア | いいえ |
| iPhone 13以前 | A15以前 | — | いいえ |
A16のNeural EngineにはINT4パレタイズ演算に必要な命令セットがあります。古いチップにもNeural Engineはありますが、CoreML-LLMが使用する特定の量子化形式に対応していません。
より大きなモデルに必要なハードウェアについてはハードウェア要件ガイドをご確認ください。
ステップバイステップセットアップガイド
前提条件
- Xcode 15.4以降がインストールされたMac
- iOS 17以降を搭載したiPhone 14 Pro以降
- iPhoneに約2GBの空き容量
- Mac上のPython 3.10以降(モデル変換用)
ステップ1:CoreML-LLMのインストール
# リポジトリのクローン
git clone https://github.com/nicklimmm/coreml-llm.git
cd coreml-llm
# Python依存パッケージのインストール
pip install -r requirements.txtステップ2:モデルのダウンロードと変換
# Gemma 4 E2Bをダウンロードし、CoreML形式に変換
python convert.py \
--model google/gemma-4-e2b-it \
--output gemma4-e2b.mlpackage \
--quantize int4-palettized \
--context-length 2048このステップはMacの性能によって10〜20分かかります。量子化、パレタイゼーション、Neural Engine最適化は自動で処理されます。
ステップ3:iOSアプリのビルド
# Xcodeプロジェクトを開く
open CoreMLLLM.xcodeproj- XcodeでiPhoneをターゲットデバイスに選択
gemma4-e2b.mlpackageをプロジェクトのResourcesフォルダにドラッグ- Signing & Capabilitiesで開発チームを設定
- ビルドして実行(Cmd+R)
ステップ4:初回起動
初回起動時はCoreMlがNeural Engine向けにモデルをコンパイルするため1〜2分かかります。その後はキャッシュされ、以降の起動は高速です。
シンプルなプロンプトを試してみましょう:
ニューラルエンジンとは何か、2文で説明してください。約11トークン/秒でストリーミングされるはずです。機内モードにしても動作します。それがポイントです。
ステップ5:パフォーマンスの確認
アプリにはベンチマークモードが内蔵されています。設定アイコンをタップし「ベンチマーク実行」を選択すると、お使いのデバイスの実際のプリフィル速度とデコード速度が確認できます。この記事の数値と比較して正しく動作していることを確認してください。
CoreML-LLM vs AI Edge Gallery
現在iPhoneでGemma 4を動かす主な方法は2つあります。比較してみましょう:
| 機能 | CoreML-LLM v0.2.0 | AI Edge Gallery |
|---|---|---|
| セットアップ難度 | 中(Mac + Xcodeが必要) | 簡単(App Storeからダウンロード) |
| デコード速度 | 11 tok/s | 5-15 tok/s |
| メモリ使用量 | 約250MB | 約3GB |
| 消費電力 | 約2W | 約5-8W |
| Neural Engine使用 | はい(専用) | 部分的(主にGPU) |
| カスタムアプリ統合 | はい(オープンソース) | いいえ(スタンドアロンアプリ) |
| モデル対応 | Gemma 4 E2Bのみ | E2B + E4B |
| マルチモーダル | 未対応 | 限定的 |
CoreML-LLMがおすすめ:最大効率が必要な場合、独自アプリを開発中の場合、バッテリーを最大限活かしたい場合。
AI Edge Galleryがおすすめ:開発環境なしでGemma 4をすぐ試したい場合、またはE4Bが必要な場合。AI Edge Galleryの方法についてはiPhoneガイドをご覧ください。
制限事項
E2Bのみ。 CoreML-LLM v0.2.0はGemma 4 E2Bに対応。より大きなE4B、12B、26Bモデルはまだ変換されていません。E4B対応は予定されていますが、時期は未定です。
マルチモーダル未対応。 Gemma 4 E2Bはフル版でテキスト、ビジョン、音声をサポートしますが、CoreML-LLMは現在テキスト推論のみ対応。マルチモーダルサポートはv0.3のロードマップに含まれています。
2048コンテキストウィンドウ。 スライディングウィンドウアテンションによりメモリ使用量は低く抑えられますが、モデルが一度に考慮できるテキスト量が制限されます。長い文書の場合は入力を分割する必要があります。
セットアップにMacが必要。 モデル変換とアプリビルドにはmacOS上のXcodeが必要です。WindowsやLinuxからの方法は現在ありません。
品質はE2Bレベル。 20億パラメータのモデルです。クイックタスク — 要約、翻訳、シンプルなQ&A、基本的なコード生成 — には最適ですが、GPT-4レベルの推論は期待できません。詳細な品質比較はE2B vs E4B比較をご覧ください。
なぜこれが重要なのか
250MBのメモリと2ワット。つまりGemma 4は他のアプリと一緒に動かしてもスマートフォンを殺しません。バッテリーを壊すことなく何時間も使えます。オンデバイスAIが「デモ」から、実際にプロダクションアプリに組み込める本物の機能になるということです。
Neural EngineはiPhoneに何年も搭載されてきましたが、その大半はカメラ処理やキーボード予測に使われてきました。CoreML-LLMは、本物の言語モデルでNeural Engineを適切にターゲットするとどうなるかを示しています。
次のステップ
- モバイルでGemma 4が初めて? モバイルデプロイガイドで全体像を把握
- より簡単な(効率は劣る)方法がいい? iPhoneガイドでAI Edge Galleryのセットアップを確認
- モデルサイズで迷っている? E2B vs E4B比較をチェック
- ハードウェアの確認が必要? ハードウェア要件で全プラットフォームの情報を確認
オンデバイスAIがぐっと実用的になりました。CoreML-LLM v0.2.0とGemma 4 E2Bの組み合わせは、今日iPhoneで本物の言語モデルを動かす最も効率的な方法です。マルチモーダル対応のv0.3も近日登場予定です。
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


