DeepSeek 2026 年初发布的 V4 把开源模型在代码能力上又抬高了一截,但也把硬件门槛推到了企业级数据中心的水位。Google 的 Gemma 4 走的是相反路线——用你手头已有的显卡就能跑。下面是这两个模型在实际工作负载下的真实对比,写给国内开发者和团队。
速览对比
| 维度 | Gemma 4 (31B Dense) | DeepSeek V4 |
|---|---|---|
| 研发团队 | Google DeepMind | 深度求索(DeepSeek AI) |
| 参数规模 | E2B / E4B / 26B MoE / 31B Dense | ~685B MoE(37B 激活) |
| 上下文窗口 | 256K tokens | 128K tokens |
| 语言覆盖 | 140+ 种 | ~30 种(中英双优) |
| 多模态 | 文本 + 图像 + 音频 + 视频 | 仅文本 |
| 开源协议 | Apache 2.0 | 自定义许可(有限制) |
| 最低自建门槛 | 16 GB 显存(31B Q4) | 8×A100 80GB |
| API 价格 (每百万 tokens) | 自建免费 / GCP ¥1.8/¥3.6 | ¥2/¥8 |
简单说:Gemma 4 能塞进一张工作站显卡,语言覆盖完胜;DeepSeek V4 代码能力更强,但自建要一整机柜。
基准测试细看
以下数据取自 2026 年 4 月官方及社区榜单,标注 FP16:
| 基准 | Gemma 4 31B | DeepSeek V4 | 说明 |
|---|---|---|---|
| MMLU | 87.1% | 88.9% | 接近持平,DeepSeek 通识略胜 |
| HumanEval(代码) | 82.7% | 90.0% | DeepSeek 最强项 |
| LiveCodeBench | 78.5% | 80.1% | 贴近真实工程场景 |
| SWE-bench Verified | 52.0% | 65.3% | DeepSeek 在复杂重构上优势明显 |
| MATH | 68.5% | 71.8% | DeepSeek 数学稍优 |
| GPQA Diamond | 62.1% | 59.4% | Gemma 4 科学推理占优 |
| MT-Bench | 8.7 | 8.6 | 指令跟随几乎持平 |
| TruthfulQA | 68.9% | 66.2% | Gemma 4 幻觉更少 |
实话说: DeepSeek V4 在纯代码任务上确实强(HumanEval +7.3pt、SWE-bench +13.3pt)。但跳出代码场景,两者在多数基准上差距不到几个百分点。如果你的主力场景不是写代码,你是在两个纸面成绩几乎一样的模型中做选择。
中文能力实测
国内用户最关心的一点:
| 基准 | Gemma 4 31B | DeepSeek V4 |
|---|---|---|
| C-Eval | ~84% | ~84% |
| CMMLU | ~82% | ~85% |
| C-SimpleQA | ~76% | ~81% |
| 中文 MT-Bench | 8.4 | 8.7 |
DeepSeek 在中文任务上有 2–3 个百分点的稳定优势,这很合理——它本来就是中文优先训练的。Gemma 4 作为多语言优先模型,中文水平已经够用,跟 Qwen 2.5-72B 相当。
多语言覆盖
真正拉开差距的地方:
- 英文: 基本持平
- 中文: DeepSeek 略占优
- 日语(JGLUE): Gemma 4 ~81%,DeepSeek ~66%
- 印尼语 / 越南语 / 泰语 / 印地语: Gemma 4 相对英文掉 5pt 以内,DeepSeek 掉 15–25pt
- 欧洲语言(法 / 西 / 德): Gemma 4 稳定,DeepSeek 掉 8–12pt
如果你的产品要出海东南亚或欧美,Gemma 4 不是一个档次的选项。
硬件需求
跑 Gemma 4
| 版本 | FP16 显存 | Q4 显存 | 参考硬件 |
|---|---|---|---|
| E2B | 4 GB | 1.5 GB | 安卓旗舰 / iPhone 15 Pro |
| E4B | 8 GB | 2.5 GB | MacBook Air M2 |
| 26B MoE | 54 GB | 14 GB | RTX 4090 (Q4) |
| 31B Dense | 62 GB | 16 GB | RTX 4090 (Q4) / A100 80GB (FP16) |
一张 4090 通吃到 31B,国内电商在 ¥13,000–15,000 区间。
跑 DeepSeek V4
DeepSeek V4 是 ~685B 参数的 MoE(每个 token 激活 37B)。那个 "37B 激活" 的数字听上去很便宜——其实不是。整个权重集合都要常驻显存:
- 最低自建: 8×A100 80GB(640 GB 显存),FP8 量化
- 生产推荐: 16×H100 80GB
- Q4 量化: 仍然要 ~4×A100 80GB
- 云端月成本: ¥100,000–180,000
- 本地部署初始投入: ¥200 万+
国内要注意:H100 受美国出口管制,能买到的基本只有 H800 / H20 / 特供版,二手 A100 价格也在 ¥12–18 万/张。大部分团队会选择直接调 DeepSeek 官方 API,不要纠结自建。
推理速度
同硬件(4×A100 80GB)、同 Q4 量化:
| 模型 | tokens/秒 | 首 token 延迟 |
|---|---|---|
| Gemma 4 31B | ~55 tok/s | ~150 ms |
| DeepSeek V4(部分载入) | ~22 tok/s | ~400 ms |
小规模自建场景,Gemma 4 31B 在单卡 RTX 4090 上能跑 ~35 tok/s。DeepSeek V4 在这种配置下根本跑不起来。
成本对比(月 100 万次请求)
按 ¥7.2 / USD 换算:
Gemma 4 自建
| 项目 | 月成本 |
|---|---|
| RTX 4090(¥13,000,24 月摊销) | ¥540 |
| 电费(按工业电价 ¥0.8/度) | ¥250 |
| 首年合计 | 约 ¥9,500 |
DeepSeek V4 官方 API
| 项目 | 月成本 |
|---|---|
| API(~200 万输入 + 50 万输出 tokens) | ¥7,800 |
| 限速 / 优先级套餐 | ~¥3,600 |
| 首年合计 | 约 ¥137,000 |
DeepSeek V4 自建
| 项目 | 月成本 |
|---|---|
| 8×A100 云租赁(阿里云 / 腾讯云) | ¥120,000 |
| ML 工程师(2 人 FTE 摊销) | ¥180,000 |
| 首年合计 | 约 ¥360 万 |
日请求量在百万级以下,Gemma 4 自建方案的成本优势在 10–50 倍量级。
合规与备案
这是国内团队必须面对的问题:
- 《个人信息保护法》(PIPL): 用户个人信息必须在境内处理,跨境传输要做安全评估。用 Google 托管的 Gemma 4 API 涉及数据出境,需评估。推荐做法: 本地部署或放在国内云厂商(阿里云、腾讯云、华为云)。
- 《数据安全法》(DSL): 重要数据不得境外提供。代码 / 业务数据走海外 API 要警惕。
- 《生成式人工智能服务管理暂行办法》(2023.8): 面向公众提供服务需在国家网信办完成算法备案与大模型备案。无论用什么模型,对公服务都要走这道流程。DeepSeek 官方 API 已完成备案,企业自建封装后需要重新以本企业主体备案。
- 等保 2.0: 涉及三级及以上系统,模型权重和训练数据要在境内留存。
实操建议:对公服务优先考虑本地部署 Gemma 4,再叠加内容安全过滤(如阿里绿网、腾讯天御)。DeepSeek 直接用官方 API 最省事,但要确认数据不出境。
什么时候选哪个
选 Gemma 4,如果:
- 你只有一张到几张消费级 / 工作站显卡
- 需要 Apache 2.0(不想跟法务纠结许可)
- 用户语言不止中英文(东南亚、欧洲市场)
- 需要多模态输入(图像、音频、视频)
- 单位成本下的质量最优
选 DeepSeek V4,如果:
- 代码能力 / SWE-bench 是你的核心指标
- 能接受 API 成本或者手里有 8GPU+ 集群
- 业务只做中英文
- 要在 HumanEval、SWE-bench 上拿到开源模型的天花板数字
部署示例
Gemma 4 本地跑(Ollama)
ollama pull gemma4:31b
ollama run gemma4:31bHugging Face 在国内访问不稳定,可用 ModelScope 镜像或 hf-mirror.com 加速下载。
边缘设备部署参见 Gemma 4 移动端部署指南。
DeepSeek V4 调 API
from openai import OpenAI
client = OpenAI(
api_key="YOUR_KEY",
base_url="https://api.deepseek.com/v1"
)
resp = client.chat.completions.create(
model="deepseek-v4",
messages=[{"role": "user", "content": "..."}]
)DeepSeek 官方 API 兼容 OpenAI SDK,国内直连,不需要代理。自建 DeepSeek V4 要配 vLLM + 多卡,超出一篇博客的范围。
迁移成本
从 DeepSeek V4 API 迁到 Gemma 4 自建: 把 OpenAI SDK 的 base_url 换成 Ollama / vLLM。Prompt 大体可复用。代码类任务预期需要 2–5% 的额外迭代次数,其他场景基本等同。
微调资产: DeepSeek V4 的微调受许可限制。Gemma 4 在 Apache 2.0 下微调产物完全归你。如果已有重要的 DeepSeek 微调模型,预算 1–2 周在 Gemma 4 上重训等效版本。用 LoRA 在单卡 4090 上 24 小时能出一版。
国产开源模型矩阵
国内团队在选型时,通常不会只看 Gemma 4 vs DeepSeek,而是把整个国产开源矩阵拉出来对照:
| 模型 | 参数 | 中文 C-Eval | 代码 HumanEval | 最低显存 (Q4) |
|---|---|---|---|---|
| DeepSeek V4 | 685B MoE | 84% | 90.0% | ~220 GB |
| Qwen 2.5-72B | 72B Dense | 83% | 78.0% | 40 GB |
| GLM-4-32B | 32B Dense | 81% | 75.2% | 18 GB |
| Kimi K2 | 1T MoE | 85% | 87.5% | ~300 GB |
| Gemma 4 31B | 31B Dense | 84% | 82.7% | 16 GB |
如果你只做中文且显存有限,Qwen 2.5-72B 或 GLM-4-32B 是更平衡的选择。Gemma 4 的价值在于——单卡能跑 + 多模态 + 真正的全球多语言。
常见问题
Gemma 4 的中文水平跟国产模型比怎么样?
C-Eval 84%,跟 Qwen 2.5、GLM-4 持平,比 DeepSeek V4 低 1–3 个百分点。日常对话、文档生成、结构化抽取完全够用。如果是专业中文写作(文案、公文、古文),Qwen 2.5 和 DeepSeek 更稳。翻译和多语种任务 Gemma 4 领先。
国内能顺畅部署 Gemma 4 吗?
能。Hugging Face 下载用 hf-mirror.com 或 ModelScope 镜像。Ollama、vLLM、llama.cpp 都原生支持。阿里云、腾讯云、华为云上可以直接拉起 4090 / A10 / H20 实例。比下载 Llama 4.1 权重(权重在 Meta 官网,国内访问不稳)要方便。
对公 AI 服务要走网信办备案吗?用 Gemma 4 会不会更麻烦?
面向公众提供生成式 AI 服务都要备案,与用什么底层模型无关。Gemma 4 是 Apache 2.0 开源权重,备案时填"自建模型(基于 Gemma 4 微调)"即可。材料准备跟用 Qwen 或 GLM 类似,不会更复杂。DeepSeek 官方 API 已备案,但你封装成自己的产品后仍需以自己主体重新备案。
16GB 显存(4090)真的够跑 Gemma 4 31B 吗?
Q4 量化下够,实测 4090 24GB 跑 31B-Q4 还有 ~7GB 余量放 KV cache,支持 32K 上下文无压力。如果要完整 256K 上下文,建议双卡 4090 或 A100 40GB。E4B / 26B MoE 在 4090 / 4080 上都轻松。
DeepSeek V4 跟其他国产模型比,值得为代码能力多付成本吗?
看场景。如果做 Cursor 式 AI Coding 产品、自动化代码评审、SWE-bench 类任务,DeepSeek V4 的 SWE-bench 65.3% 是开源天花板,值得。如果只是 IDE 补全、React 组件生成、SQL 生成,Qwen 2.5-Coder-32B 或 Gemma 4 31B 足够,且成本低一个数量级。大多数国内业务,选 Qwen + Gemma 4 的组合比单压 DeepSeek 性价比更高。
商用授权会有风险吗?
Gemma 4 是 Apache 2.0,无任何商用限制,微调产物归你所有。DeepSeek V4 是自定义协议,部分商用场景需评估,权重和微调资产的分发有条款约束。如果你在做 SaaS 或者嵌入式部署给客户,Apache 2.0 这条是实打实省事。
Gemma 4 会出专门的代码版吗?
Google 目前没官宣。如果未来推出 Gemma 4 Code 变体,HumanEval 与 DeepSeek 的差距大概率会抹平。基础版 82.7% 已经超过除 DeepSeek V4 和 Llama 4.1 400B 以外的所有开源模型。
相关对比
- Gemma 4 对比 Llama 4.1 —— 2026 年 4 月的另一款热门开源模型
- Gemma 4 对比 GPT-4 —— 开源 vs OpenAI 基线
- Gemma 4 对比 Claude 3.5 —— 开源 vs Anthropic 旗舰
- Gemma 4 对比 Qwen 3 —— 另一款强多语言开源模型
- Gemma 4 基准测试完整拆解 —— 所有数据汇总
结论
对于 2026 年 4 月大多数国内团队,Gemma 4 是更务实的选择。跑在你想让它跑的地方,支持用户会说的所有语言,协议干净不用找律师,年度总成本低 10–50 倍。
DeepSeek V4 是这种情况下的正解:代码能力是核心指标、手上有 API 预算或多卡集群、业务只做中英文。出了这个窄窗口,你是在为一点纸面优势付很多钱。
国内实操路径建议:
- 中英文通用场景: Qwen 2.5-72B 或 Gemma 4 31B,本地部署
- 代码为主: DeepSeek V4 API,或 Qwen 2.5-Coder-32B 自建
- 出海多语言: Gemma 4 31B,别无它选
- 多模态(图+音+视频): Gemma 4 目前是开源里的唯一选项
最后更新:2026 年 4 月 18 日。基准数据来自官方榜单与社区复现。
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


