Gemma 4 能在 iPhone 上跑吗?实测教程

2026/04/07

在手机上跑 AI 模型——不用联网、不用云服务、不用 API Key。就你的 iPhone 自己在算。听着挺科幻的,但 Gemma 4 确实做到了。

不过先泼盆冷水:能跑 ≠ 好用。这篇文章帮你搞清楚到底行不行、值不值。

哪些模型能在 iPhone 上跑?

不是所有 Gemma 4 都能塞进手机。看表:

模型iPhone 兼容性说明
E2B(2B)所有近几年的 iPhone推荐用这个
E4B(4B)iPhone 15 Pro 及以上需要 8GB 内存(A17 Pro+)
26B不行太大了
31B不行完全不可能

首选 E2B。 基本上近几年的 iPhone 都能跑,20 亿参数的模型,能力比你想象的要强。E4B 质量更好,但至少得 iPhone 15 Pro——这是第一款 8GB 内存的 iPhone。

不确定该选哪个模型?看看我们的模型对比指南

Google 官方提供的手机端方案是 AI Edge Gallery 应用,目前最简单的方式。

安装步骤

  1. 在 App Store 下载 AI Edge Gallery。 搜「Google AI Edge Gallery」就能找到。

  2. 打开应用,浏览可用模型列表。你会看到 Gemma 4 E2B(如果设备支持,也会显示 E4B)。

  3. 下载模型。 E2B 大概 1.5-2GB,确保连 Wi-Fi。

  4. 等待下载和转换。 应用需要针对你的芯片优化模型,这要几分钟。别切走应用。

  5. 开始聊天。 准备好了就能打字提问了。全部在本地运行——打开飞行模式试试,照样能用。

第一次测试

跑起来之后,先试个简单的:

用三句话解释什么是 REST API。

你会看到文字一个一个蹦出来。比云端慢,但这确实是你手机的神经引擎在做推理。

实际表现:别抱太高期望

实话实说。这不会替代你的云端 AI。真实体验是这样的:

  • 速度: E2B 在 iPhone 15 Pro 上大约 5-15 tokens/秒。能读,但不快。E4B 更慢,大概 3-8 tokens/秒。
  • 质量: E2B 处理简单任务没问题:总结、翻译、快速问答、基础代码。别指望 GPT-4 级别的推理。
  • 首次响应: 模型加载有 2-5 秒的启动延迟。
  • 耗电: 推理很吃 GPU,持续聊天的话,一小时掉 10-15% 电量。
  • 发热: 手机会变烫。连续重度使用 15-20 分钟后,可能触发温控降频,速度进一步变慢。

杀手功能:离线 AI

虽然有这些限制,但有一点是云端方案做不到的——你的手机在任何地方都能用。飞机上、地铁里、没信号的山里、网络受限的地方。

离线场景下真正好用的:

  • 旅行翻译 ——不用开漫游
  • 文字润色 ——随时改邮件、修语法
  • 代码片段 ——通勤时快速生成工具函数
  • 笔记摘要 ——粘贴长文本,生成概要
  • 隐私敏感查询 ——数据完全不出设备

你需要知道的限制

大模型跑不了。 26B 和 31B 需要 16-20GB 以上内存,iPhone 最多 8GB,短期内不会改变。

耗电是真的。 跑神经网络推理很费电,别指望不插电用好几个小时。

温控降频。 长时间使用后 iPhone 会发热,系统会降低性能保护硬件,响应变慢。

上下文长度有限。 为了省内存,端侧模型通常用较短的上下文窗口。别指望粘贴一万字的文档进去。

端侧多模态还不成熟。 虽然 Gemma 4 桌面版/云端版支持图片输入,但手机端的图片分析能力取决于应用的实现程度。

Android 选择更多

说句公道话——如果你在考虑 Android,端侧 AI 那边更成熟:

  • Google AICore ——Pixel 设备的系统级 AI 集成
  • MediaPipe ——Google 的 ML 框架,模型支持更广
  • 内存更大 ——部分安卓旗舰有 12-16GB 内存

不过话说回来,Apple 的 Neural Engine 做推理其实很强,在能跑的模型范围内 iPhone 表现并不差。

值不值得折腾?

值得,如果你需要离线 AI、在意隐私、或者单纯觉得手机跑大模型很酷。E2B 处理日常小任务是真的能用。

不值得,如果你需要高质量推理、长上下文、或者快速响应。那些场景用云端 API 吧。

说实话: 这是未来的一个预览。两年后端侧 AI 会好得多。现在嘛,能用但有限。装一个试试,感受一下技术走到哪了,正经干活还是上云。

想换个免安装的方式?可以试试在浏览器里跑 Gemma 4

下一步

Gemma 4 AI

Gemma 4 AI

相关教程