Gemma 4 26B MoEとは？必要スペック・VRAM・31Bとの違い

Gemma 4 26B MoEは、ローカル環境で本格的なGemma 4を動かしたい人にとって、かなり現実的な選択肢です。

ポイントは、総パラメータは約260億でも、毎回すべてを計算するわけではないことです。MoE（Mixture of Experts）により、入力ごとに一部のエキスパートだけが使われます。そのため、大型モデルらしい品質を狙いつつ、31Bより軽く使える場面があります。

このページでは「必要スペックはどれくらいか」「VRAM/RAMはどれくらい必要か」「MacやNVIDIA GPUでどう考えるか」「31Bとどちらを選ぶべきか」を実用目線で整理します。

先に結論

多くの人は、まず Gemma 4 26B MoE の Q4_K_M から試すのが安全です。

速度、会話の快適さ、ローカルでのコーディング支援を重視するなら26B MoEが第一候補です。品質を最優先して待ち時間を許容できるなら、Gemma 4 26B vs 31B比較も確認してください。

MoEは Mixture of Experts の略です。通常のDenseモデルはすべてのパラメータを毎回使いますが、MoEモデルではルーターが入力に応じて使うエキスパートを選びます。

実用上は、次のように考えるとわかりやすいです。

仕組みそのものを詳しく知りたい場合は、Gemma 4アーキテクチャ解説を読むと理解しやすいです。

以下は実用上の目安です。実際のメモリ使用量は、コンテキスト長、ランタイム、KVキャッシュ、GPUオフロード設定によって変わります。

モデル本体だけでなく、長い会話や長文入力ではKVキャッシュも増えます。メモリ不足になった場合は、まずコンテキスト長を短くするのが現実的です。

26B MoEはQ4なら試せます。ただし余裕がある構成ではありません。

毎日快適に使いたいならE4Bの方が安全です。品質を上げたいときだけ26B MoEを使う、という使い分けも現実的です。

このあたりが26B MoEのかなり使いやすい環境です。モデル、KVキャッシュ、通常のデスクトップ作業に必要な余裕が残ります。

速度重視ならQ4_K_M。品質を少し上げたいならQ5_K_M。31Bは「速度より品質」を優先する場面で検討するとよいです。

RTX 3060 12GBでも、Q4なら26B MoEが候補に入ります。ただし、長いコンテキストや大きなバッチ設定は避けた方がよいです。

途中でシステムRAMに逃げると速度が大きく落ちます。動かないというより、メモリ予算が厳しい構成だと考えてください。

RTX 4090クラスなら26B MoEはかなり快適です。Q5やQ8、長めのコンテキストも現実的になります。

このクラスでは、26B MoEと31Bの比較が「動くかどうか」ではなく「速度を取るか、品質を取るか」の判断になります。

対応する26Bビルドがある場合、Ollamaが一番手軽です。

ollama run gemma4:26b

メモリが厳しい場合はコンテキストを短くします。

ollama run gemma4:26b --num-ctx 4096

Ollama全体の流れはGemma 4 Ollamaガイドを参考にしてください。

GUIでGGUFを選びたいならLM Studioが便利です。最初はQ4_K_Mを選び、余裕があればQ5_K_Mを試します。

ローカルAPI、CLI運用、GPUオフロードを細かく管理したい場合はvLLMやllama.cppが向いています。

GGUFの選び方はGemma 4 GGUFガイドを先に見ると失敗しにくいです。