スマホで実際のAIモデルを動かす — インターネットなし、クラウドなし、APIキーなし。iPhoneが考えるだけ。クレイジーに聞こえますが、Gemma 4はこれを実際に可能にします。
ただ、興奮しすぎる前に、現実的な期待値を設定しましょう。動きます。ChatGPTのような感じにはなりません。知っておくべきことを紹介します。
iPhoneで実際に動作するモデルは?
すべてのGemma 4モデルがスマホに収まるわけではありません。内訳はこちら:
| モデル | iPhone互換性 | 備考 |
|---|---|---|
| E2B (2B) | すべての最新iPhone | モバイル向け推奨 |
| E4B (4B) | iPhone 15 Pro以降 | 8GB RAMが必要(A17 Pro以上) |
| 26B | 不可 | 大きすぎる |
| 31B | 不可 | 全く届かない |
最適解はE2Bです。 過去数年のほぼすべてのiPhoneで動作し、20億パラメータモデルとしては驚くほど有用な結果を提供します。E4Bはより良い品質ですが、少なくともiPhone 15 Proが必要 — これは8GB RAMを搭載した最初のiPhoneです。
ユースケースに合ったモデルがわからない?モデル比較ガイドをご覧ください。
セットアップ方法:Google AI Edge Gallery
モバイルでGemmaモデルを実行するGoogleの公式パスはAI Edge Galleryアプリです。始める最も簡単な方法です。
ステップバイステップセットアップ
-
App StoreからAI Edge Galleryをダウンロード。「Google AI Edge Gallery」で検索するか、Google開発者ツールセクションで探してください。
-
アプリを開くと、利用可能なモデルを閲覧できます。Gemma 4 E2B(デバイスが対応していればE4Bも)が表示されます。
-
モデルをダウンロード。 これが大きなステップ — E2Bモデルは約1.5-2GBです。Wi-Fiに接続していることを確認してください。
-
ダウンロードと変換を待つ。 アプリはモデルをあなたの特定のチップ用に最適化する必要があります。数分かかることがあります。アプリを閉じないでください。
-
チャットを開始。 準備ができたら、プロンプトを入力してレスポンスを得られます。すべてローカルで動作 — スマホを機内モードにして証明してみてください。
最初のテスト
動作したら、シンプルなことを試してみましょう:
Summarize what a REST API is in 3 sentences.トークンが1つずつ現れるのが見えるはずです。慣れているものより遅いですが、スマホのNeural Engineで実際の推論が行われています。
パフォーマンス:実際に期待できること
正直に話しましょう。これはクラウドAIセットアップの代わりにはなりません。実際の体験はこうです:
- 速度: E2B(iPhone 15 Pro)で約5-15トークン/秒。読める速度ですが速くはありません。E4Bはさらに遅い — 約3-8トークン/秒。
- 品質: E2Bはシンプルなタスクをうまく処理します:要約、翻訳、簡単な質問、基本的なコード。GPT-4レベルの推論は期待しないでください。
- 初回レスポンス: モデルがメモリにロードされる間、2-5秒の起動遅延があります。
- バッテリー: 推論はGPU集約的です。アクティブ使用中はバッテリーの目立つ消耗を予想してください。連続チャット1時間で約10-15%。
- 発熱: スマホが温かくなります。15-20分の重い使用後、サーマルスロットリングが作動してさらに遅くなる可能性があります。
キラーフィーチャー:オフラインAI
制限にもかかわらず、なぜこれが実際に重要か。あなたのスマホはどこでも動作します。飛行機の中。地下鉄のトンネルで。インターネットが制限されている国で。セル信号がゼロの場所で。
実際に意味のあるオフラインユースケース:
- 旅行翻訳機 — ローミングデータなしで動作
- クイックライティングヘルプ — 外出先でメール下書き、文法修正
- コードスニペット — 通勤中に簡単なユーティリティ関数を生成
- ノート要約 — 長文を貼り付けて要約を得る
- プライバシー重要なクエリ — データがデバイスから出ることは決してない
知っておくべき制限
大型モデルはなし。 26Bと31Bモデルは16-20 GB以上のRAMが必要です。iPhoneは8GBが上限。これはすぐには変わりません。
バッテリー消耗は現実。 ニューラルネットワーク推論の実行は電力を食います。充電器なしで何時間も使うことは期待しないでください。
サーマルスロットリング。 長時間使用後、iPhoneは熱くなり、ハードウェアを保護するためにOSが性能を減らします。レスポンスが遅くなります。
コンテキスト長が限定的。 オンデバイスモデルは通常、メモリを節約するためにより短いコンテキストウィンドウを使用します。1万語のドキュメントを貼り付けて完璧な要約を期待しないでください。
オンデバイスマルチモーダルはまだなし。 Gemma 4はクラウド/デスクトップ版で画像入力をサポートしていますが、アプリの実装によってはオンデバイス画像分析が限定的な可能性があります。
Androidにはより多くのオプションが
フェア警告 — Androidを検討しているなら、そちらの方がオンデバイスAI状況がより成熟しています。Androidには:
- Google AICore — Pixelデバイス向けシステムレベルのAI統合
- MediaPipe — より広いモデルサポートを持つGoogleのMLフレームワーク
- より多いRAM — 一部のAndroidフラッグシップは12-16GB
とはいえ、AppleのNeural Engineは推論に優れているので、収まるモデルではiPhoneが大きな不利になることはありません。
やる価値があるか?
あります、 オフラインAIが欲しい、プライバシーを気にする、またはスマホで実際の言語モデルを動かすことをクールだと思うなら。E2Bモデルはクイックタスクに真に有用です。
ありません、 高品質な推論、長いコンテキスト、高速なレスポンスが必要なら。それにはクラウドAPIを使ってください。
正直な答え: 物事が向かう方向の垣間見です。2年後、オンデバイスAIは劇的に良くなります。今は有用ですが限定的。試して、どれだけ進歩したか感謝し、本格的な馬力が必要なときはクラウドを使いましょう。
WebGPU経由でブラウザでGemma 4を実行することもできます — インストール不要の別オプションはブラウザガイドをご覧ください。
次のステップ
- ノートPCでGemma 4を動かしたい?Can My Laptop Run Gemma 4?を参照
- ニーズに合うモデルサイズがわからない?Gemma 4:どのモデル?を読む
- ブラウザで動かしたい?WebGPUブラウザガイドを試す
- API級のパワーの準備は?APIチュートリアルをチェック
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


