在手机上跑 AI 模型——不用联网、不用云服务、不用 API Key。就你的 iPhone 自己在算。听着挺科幻的,但 Gemma 4 确实做到了。
不过先泼盆冷水:能跑 ≠ 好用。这篇文章帮你搞清楚到底行不行、值不值。
哪些模型能在 iPhone 上跑?
不是所有 Gemma 4 都能塞进手机。看表:
| 模型 | iPhone 兼容性 | 说明 |
|---|---|---|
| E2B(2B) | 所有近几年的 iPhone | 推荐用这个 |
| E4B(4B) | iPhone 15 Pro 及以上 | 需要 8GB 内存(A17 Pro+) |
| 26B | 不行 | 太大了 |
| 31B | 不行 | 完全不可能 |
首选 E2B。 基本上近几年的 iPhone 都能跑,20 亿参数的模型,能力比你想象的要强。E4B 质量更好,但至少得 iPhone 15 Pro——这是第一款 8GB 内存的 iPhone。
不确定该选哪个模型?看看我们的模型对比指南。
怎么装:Google AI Edge Gallery
Google 官方提供的手机端方案是 AI Edge Gallery 应用,目前最简单的方式。
安装步骤
-
在 App Store 下载 AI Edge Gallery。 搜「Google AI Edge Gallery」就能找到。
-
打开应用,浏览可用模型列表。你会看到 Gemma 4 E2B(如果设备支持,也会显示 E4B)。
-
下载模型。 E2B 大概 1.5-2GB,确保连 Wi-Fi。
-
等待下载和转换。 应用需要针对你的芯片优化模型,这要几分钟。别切走应用。
-
开始聊天。 准备好了就能打字提问了。全部在本地运行——打开飞行模式试试,照样能用。
第一次测试
跑起来之后,先试个简单的:
用三句话解释什么是 REST API。你会看到文字一个一个蹦出来。比云端慢,但这确实是你手机的神经引擎在做推理。
实际表现:别抱太高期望
实话实说。这不会替代你的云端 AI。真实体验是这样的:
- 速度: E2B 在 iPhone 15 Pro 上大约 5-15 tokens/秒。能读,但不快。E4B 更慢,大概 3-8 tokens/秒。
- 质量: E2B 处理简单任务没问题:总结、翻译、快速问答、基础代码。别指望 GPT-4 级别的推理。
- 首次响应: 模型加载有 2-5 秒的启动延迟。
- 耗电: 推理很吃 GPU,持续聊天的话,一小时掉 10-15% 电量。
- 发热: 手机会变烫。连续重度使用 15-20 分钟后,可能触发温控降频,速度进一步变慢。
杀手功能:离线 AI
虽然有这些限制,但有一点是云端方案做不到的——你的手机在任何地方都能用。飞机上、地铁里、没信号的山里、网络受限的地方。
离线场景下真正好用的:
- 旅行翻译 ——不用开漫游
- 文字润色 ——随时改邮件、修语法
- 代码片段 ——通勤时快速生成工具函数
- 笔记摘要 ——粘贴长文本,生成概要
- 隐私敏感查询 ——数据完全不出设备
你需要知道的限制
大模型跑不了。 26B 和 31B 需要 16-20GB 以上内存,iPhone 最多 8GB,短期内不会改变。
耗电是真的。 跑神经网络推理很费电,别指望不插电用好几个小时。
温控降频。 长时间使用后 iPhone 会发热,系统会降低性能保护硬件,响应变慢。
上下文长度有限。 为了省内存,端侧模型通常用较短的上下文窗口。别指望粘贴一万字的文档进去。
端侧多模态还不成熟。 虽然 Gemma 4 桌面版/云端版支持图片输入,但手机端的图片分析能力取决于应用的实现程度。
Android 选择更多
说句公道话——如果你在考虑 Android,端侧 AI 那边更成熟:
- Google AICore ——Pixel 设备的系统级 AI 集成
- MediaPipe ——Google 的 ML 框架,模型支持更广
- 内存更大 ——部分安卓旗舰有 12-16GB 内存
不过话说回来,Apple 的 Neural Engine 做推理其实很强,在能跑的模型范围内 iPhone 表现并不差。
值不值得折腾?
值得,如果你需要离线 AI、在意隐私、或者单纯觉得手机跑大模型很酷。E2B 处理日常小任务是真的能用。
不值得,如果你需要高质量推理、长上下文、或者快速响应。那些场景用云端 API 吧。
说实话: 这是未来的一个预览。两年后端侧 AI 会好得多。现在嘛,能用但有限。装一个试试,感受一下技术走到哪了,正经干活还是上云。
想换个免安装的方式?可以试试在浏览器里跑 Gemma 4。
下一步
- 想在笔记本上跑?看 我的电脑能跑 Gemma 4 吗?
- 不确定该选哪个模型?看 Gemma 4 模型选择指南
- 想在浏览器里跑?试试 WebGPU 浏览器指南
- 要用 API 的话看 API 调用教程



