Gemma 4が動かない?OOM・速度低下・GPU問題の解決法

4月 7, 2026

Gemma 4が期待通りに動かない。心配無用 — ほとんどの問題にはシンプルな解決策があります。このガイドでは、Reddit、GitHubのIssue、コミュニティフォーラムから集めた実際に起こる問題をカバーします。

トラブルシューティングを始めましょう。

問題1: メモリ不足(OOM)

症状: システムがフリーズ、プロセスが強制終了、CUDA out of memorymmap failed などのエラーが表示、またはスワップが暴走。

原因: モデルの重み + KVキャッシュが利用可能なRAMまたはVRAMを超過。

修正1: より小さいモデルを使う

最も確実な修正。16GB RAMで31Bを動かそうとしても無理です。

# これの代わりに(約20GB必要)
ollama run gemma4:31b

# これを試す(約6GB必要)
ollama run gemma4:e4b

ハードウェアに合ったサイズはモデル比較ガイドで確認。

修正2: より強い量子化を使う

GGUFファイルをロードしている場合、より小さい量子化を選びましょう。GGUFガイドで全量子化オプションを詳しく解説。

# Q4_K_MはQ8やFP16よりはるかに小さい
huggingface-cli download google/gemma-4-26b-GGUF \
  --include "gemma-4-26b-Q4_K_M.gguf"
量子化メモリ節約品質への影響
Q4_K_M約75%小わずか
Q5_K_M約65%小非常に少ない
Q8_0約50%小ほぼなし

修正3: コンテキスト長を短くする

KVキャッシュはコンテキスト長とともに増大します。Gemma 4は最大262Kトークンをサポートしますが、そのキャッシュは膨大 — 31Bモデルのフルコンテキストで約22GBを消費するとの報告。

# コンテキストを4Kまたは8Kに制限
ollama run gemma4:31b --ctx-size 4096

LM Studioでは設定から「Context Length」スライダーを下げます。

修正4: KVキャッシュ量子化を有効化

一部のバックエンドではKVキャッシュ自体の量子化をサポート、メモリ使用量を劇的に削減:

# llama.cppの場合
./llama-server -m gemma4-31b-Q4_K_M.gguf \
  --ctx-size 8192 \
  --cache-type-k q8_0 \
  --cache-type-v q8_0

修正5: 他のアプリを閉じる

当たり前に聞こえますが、Chromeだけで4〜8GBのRAMを消費します。大型モデル実行前にブラウザ、IDE、重いアプリを閉じましょう。

問題2: 推論が遅い

症状: トークン生成が非常に遅い — 20以上のトークン/秒を期待していたのに1〜2トークン/秒。速度最適化の包括的なウォークスルーは速度最適化ガイドをご覧ください。

修正1: GPUが実際に使われているか確認

推論速度低下の最大の原因。モデルがCPUだけで動いている可能性があり、気づいていないかもしれません。

# OllamaがGPUを使っているか確認
ollama ps

「PROCESSOR」列を確認。GPUではなく「CPU」と表示されていたら、それが原因。

修正2: GPUオフロードが有効か確認

OllamaではGPUオフロードは自動的に行われますが、GPUを検出できない場合があります:

# 利用可能なGPUを確認
ollama show --system

# GPUレイヤーを強制(全レイヤー)
OLLAMA_NUM_GPU=999 ollama run gemma4:e4b

llama.cppでは -ngl フラグを使用:

# 全レイヤーをGPUにオフロード
./llama-cli -m gemma4-e4b-Q4_K_M.gguf -ngl 999

修正3: CPUがボトルネックかもしれない

モデルがVRAMに完全に収まらない場合、一部のレイヤーがCPUで動作してボトルネックに。対策:

  • VRAMに完全に収まるより小さいモデルを使う
  • より小さい量子化を使う(Q8の代わりにQ4)
  • コンテキスト長を短くしてVRAMをモデルレイヤーに確保

修正4: 電源設定を確認

ノートPCでは省電力モードでCPUとGPUの両方がスロットリングされます。「ハイパフォーマンス」モードか、ACアダプター接続を確認。

Mac:

# 低電力モードが有効か確認
pmset -g | grep lowpowermode

問題3: GPU未検出

NVIDIAユーザー

CUDAドライバーの確認:

# CUDAがインストールされて動作しているか確認
nvidia-smi

nvidia-smi が動作しないかエラーが出る場合:

  1. nvidia.com/drivers からNVIDIAドライバーをインストールまたは更新
  2. developer.nvidia.com/cuda-downloads からCUDA Toolkitをインストール
  3. マシンを再起動

OllamaがGPUを認識しているか確認:

# GPUが表示されるはず
ollama show --system

AMDユーザー

AMD GPUサポートにはROCmが必要で、やや扱いが難しい:

  1. ROCmをインストール:ROCmインストールガイドに従う
  2. サポートされているGPUか確認(RX 7000シリーズが最適)
  3. ROCm対応ビルドの推論エンジンを使用
# ROCmインストールの確認
rocminfo | head -20

既知の問題: 一部のAMD GPU(特に旧モデル)はサポートされていません。ROCm互換性リストを確認。

Macユーザー(Apple Silicon)

Apple SiliconではOllamaとllama.cppのMetalアクセラレーションがデフォルトで有効。動作しない場合:

# Metalが利用可能か確認
system_profiler SPDisplaysDataType | grep Metal

「Metal: Supported」と表示されればOK。OllamaはM1/M2/M3/M4 MacでMetalアクセラレーションを自動的に使用します。

問題4: モデルのダウンロードが止まる

Ollamaのダウンロードが止まる

# キャンセルしてリトライ
# Ctrl+Cで停止、その後:
ollama pull gemma4:e4b

繰り返し止まる場合:

  • インターネット接続を確認
  • 別のネットワークを試す(VPNが助けになることも妨げになることも)
  • ディスク容量を確認: df -h

Hugging Faceのダウンロードが止まる

# 高速ダウンロードを有効化
pip install hf-transfer
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download google/gemma-4-e4b

Hugging Faceへのアクセスが遅い地域の場合、ミラーを使うかオフピーク時間にダウンロード。

ディスク容量不足

# 空き容量を確認
df -h

# 古いOllamaモデルを整理
ollama list          # インストール済みを確認
ollama rm modelname  # 不要なものを削除

参考:必要ディスク容量:

モデルディスク容量 (Q4_K_M)
E2B約1.5 GB
E4B約3 GB
26B約8 GB
31B約18 GB

問題5: Ollama固有のエラー

"Error: model not found"

正しいモデル名を使っているか確認:

# 正しい
ollama run gemma4
ollama run gemma4:e4b

# 間違い(よくあるミス)
ollama run gemma-4     # ハイフンは使えない
ollama run google/gemma4  # 組織名は含めない

トークナイザの問題

初期バージョンのllama.cppでGemma 4のトークナイザ関連のバグが報告されています。出力が文字化けする場合:

# Ollamaを最新バージョンに更新
# macOS
brew upgrade ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

修正はllama.cppにマージされ、Ollamaの最新リリースに反映されています。最新バージョンか確認してください。

"Unexpected token" やパースエラー

通常はGGUFファイルが破損しているか互換性がないことを意味します:

# モデルを削除して再ダウンロード
ollama rm gemma4:e4b
ollama pull gemma4:e4b

問題6: GPUがあるのにCPUで動いている

これは既知の問題です(OllamaのGitHub issue #15237参照)。モデルはロードされるがGPUがあるにもかかわらずCPUで動作。

診断

# Ollamaが何を使っているか確認
ollama ps
# PROCESSOR列を確認

解決策

ステップ1: Ollamaを最新バージョンに更新(多くのGPU検出バグが修正済み):

brew upgrade ollama  # macOS
# Linuxはインストールスクリプトを再実行

ステップ2: GPU環境変数を明示的に設定:

# NVIDIA
export CUDA_VISIBLE_DEVICES=0
ollama run gemma4:e4b

# GPU使用を強制
OLLAMA_NUM_GPU=999 ollama run gemma4:e4b

ステップ3: モデルがGPUに対して大きすぎないか確認:

モデルがVRAMに収まらない場合、Ollamaは部分オフロードではなくCPU全体にフォールバックすることがあります。より小さいモデルか量子化を試してください。

ステップ4: Ollamaサービスを再起動:

# macOS
brew services restart ollama

# Linux (systemd)
sudo systemctl restart ollama

トラブルシューティング判断フロー

どこから始めればいいかわからない場合:

  1. モデルはダウンロードできている?

    • いいえ → インターネット、ディスク容量、モデル名のスペルを確認
    • はい → 次へ
  2. 動作し始める?

    • いいえ、OOMエラー → より小さいモデルか量子化を使用、コンテキスト長を短く
    • いいえ、他のエラー → Ollamaを更新、モデル名を確認、再ダウンロード
    • はい → 次へ
  3. GPUが使われている?

    • いいえ → ドライバー確認(NVIDIA: nvidia-smi、AMD: rocminfo)、Ollama更新、環境変数設定
    • はい → 次へ
  4. 十分な速度が出ている?

    • いいえ → 電源設定確認、他のアプリを閉じる、より小さい量子化を試す
    • はい → 問題解決!
  5. 出力品質が悪い?

    • 文字化け → Ollamaを更新(トークナイザ修正)、モデルを再ダウンロード
    • 品質が低い → より大きいモデルまたはより緩い量子化を試す

それでも解決しない場合

上記のどれでも解決しない場合:

次のステップ

Gemma 4 AI

Gemma 4 AI

Related Guides

Gemma 4が動かない?OOM・速度低下・GPU問題の解決法 | ブログ