Gemma 4 E2B vs E4B：どちらの小型モデルを選ぶべき？

Gemma 4の小型モデルにはE2B（20億パラメータ）とE4B（40億パラメータ）の2つがあります。どちらも制約のあるハードウェアで動作するよう設計されていますが、パラメータ数の差以上に実力差があります。詳しく比較してみましょう。

E2BとE4Bとは？

どちらもオンデバイス推論に最適化された軽量なDenseモデルです。MoEルーティングもエキスパートもなく、限られたメモリでも動くコンパクトなネットワークです。

E2BはGemma 4ファミリーで最小のモデルです。20億パラメータで、メモリの1MBも無駄にできない場面向け — スマートフォン、Raspberry Pi、IoTデバイス、組み込みシステムなどです。

E4Bはパラメータ数が2倍の40億。ノートPCやそこそこのスマートフォンでローカルで動かすのに十分小さいながら、推論・コーディング・マルチモーダルタスクでは想像以上の実力を発揮します。

Gemma 4 小型モデル：
┌──────────────────────────────────────┐
│  E2B (2Bパラメータ)                   │
│  超コンパクト · スマホ · エッジ        │
│  ~250 MB RAM (CoreML) · 11 tok/s     │
├──────────────────────────────────────┤
│  E4B (4Bパラメータ)                   │
│  コンパクト · ノートPC · 日常使い      │
│  ~1.5 GB RAM (Q4) · 35 tok/s         │
└──────────────────────────────────────┘

直接比較

指標	E2B (2B)	E4B (4B)
パラメータ数	2B	4B
モデルサイズ (FP16)	約4 GB	約8 GB
モデルサイズ (Q4_K_M)	約1.2 GB	約2.5 GB
メモリ使用量 (Q4_K_M)	約1.5 GB	約3 GB
メモリ使用量 (CoreML, iPhone)	約250 MB	約800 MB
コンテキストウィンドウ	8K	32K
マルチモーダル	テキストのみ	テキスト + 画像

ファイルサイズとメモリの差はパラメータ数に比例して約2倍。しかし本当のポイントはコンテキスト長とマルチモーダル対応です — E4Bはコンテキストが4倍、画像処理もできます。

速度比較

同じハードウェアではE2Bのほうが速いですが、E4Bもインタラクティブな使用に十分な速度です：

ハードウェア	E2B (tok/s)	E4B (tok/s)	E2B高速化率
iPhone 15 Pro (CoreML)	約11	約5	2.2倍
iPhone 16 Pro (CoreML)	約15	約7	2.1倍
Raspberry Pi 5 (8GB)	約8	約4	2倍
M3 MacBook Air (Q4)	約65	約35	1.9倍
RTX 3060 12GB (Q4)	約120	約70	1.7倍

iPhoneでCoreML-LLMを使った場合、E2Bは約11トークン/秒で動作し、メモリ使用量はわずか250MB、消費電力は約2Wです。バッテリーを気にせずスマートフォンでリアルタイムチャットが本当に使えるレベルです。

E4Bはモバイルでは約半分の速度ですが、ノートPCやデスクトップでは実用上の差を感じることはほぼありません。

品質比較

ここでE4Bが大きく差をつけます：

ベンチマーク	E2B (2B)	E4B (4B)	勝者
MMLU	52.1	61.8	E4B (+9.7)
HumanEval	38.4	52.6	E4B (+14.2)
GSM8K	45.2	62.1	E4B (+16.9)
MATH	18.3	28.7	E4B (+10.4)
ARC-Challenge	48.9	57.3	E4B (+8.4)
平均	40.6	52.5	E4B (+11.9)

26B vs 31B比較では品質差が1〜2ポイントだったのに対し、ここでは平均約12ポイントと圧倒的な差があります。特に数学とコードでE4Bが明らかに優れています。

違いが分かる場面

シンプルなQ&Aやチャット：基本的な会話はどちらもこなせます。E2Bは長い回答で一貫性を欠くことがあります。
推論と数学：E4Bが大幅に優秀。E2Bは複数ステップの問題に苦戦します。
コード生成：E4Bは実用的なコードスニペットを生成できます。E2Bはオートコンプリートは可能ですが、完全な関数実装は困難です。
多言語対応：E4Bは中国語、日本語、韓国語、ヨーロッパの言語にも格段に強いです。E2Bはほぼ英語専用です。
画像理解：E4Bのみ対応。ビジョン機能が必要なら選択肢は決まっています。

E2Bを選ぶべきとき

ハードウェアの限界ギリギリで動かす場合にE2Bが最適です：

メモリの少ないスマートフォン — 旧型iPhone、エントリーAndroidなど、250MBしか確保できない場合
Raspberry PiやSBC — 4GB RAMのPi 5で快適に動作
IoTと組み込み — スマートホーム、消費電力を極限まで抑えた常時稼働アシスタント
オフラインのキーワード抽出・分類 — 完全な推論ではなく基本的なNLPだけで十分な場合
iPhoneでCoreML-LLM — 250MB RAM、2W消費で11 tok/sは驚異的
大規模バッチ処理 — 数百万件を処理する際に推論あたりのコストが重要な場合

「限られたメモリのデバイスでシンプルなクエリに応答する」用途ならE2Bで十分です。

E4Bを選ぶべきとき

小型ローカルモデルが欲しいほとんどの人にとって、E4Bがベターな選択です：

日常使いのノートPC — インタラクティブなチャットに十分な速度、実際の仕事に使える賢さ
高性能スマートフォン — iPhone 14 Pro以降、6GB以上のRAMを搭載したAndroidフラグシップ
コーディングアシスタント — コード補完・生成に実用的
マルチモーダルタスク — 画像キャプション、ビジュアルQ&A、ドキュメント理解
長い会話 — E2Bの8Kに対し32Kのコンテキストで、長いスレッドにも対応
多言語利用 — 英語以外を使うなら、E4Bが圧倒的に優秀
エッジサーバー — ミニPCに載るサイズで、実用に足る賢さ

スマートフォンでの動作について詳しくはモバイルデプロイガイドをご覧ください。

判断早見表

あなたの状況	おすすめ
空きRAMが<1GBのスマートフォン	E2B
Raspberry Pi / 組み込み	E2B
常時稼働・超低消費電力	E2B
ノートPCやデスクトップ	E4B
画像理解が必要	E4B
コーディング支援	E4B
多言語利用	E4B
長い会話（8Kトークン超）	E4B
シンプルなテキスト分類	E2B
汎用ローカルAI	E4B