Gemma 4が動かない？OOM・速度低下・GPU問題の解決法

Gemma 4が期待通りに動かない。心配無用 — ほとんどの問題にはシンプルな解決策があります。このガイドでは、Reddit、GitHubのIssue、コミュニティフォーラムから集めた実際に起こる問題をカバーします。

トラブルシューティングを始めましょう。

問題1: メモリ不足（OOM）

症状： システムがフリーズ、プロセスが強制終了、CUDA out of memory、mmap failed などのエラーが表示、またはスワップが暴走。

原因： モデルの重み + KVキャッシュが利用可能なRAMまたはVRAMを超過。

修正1: より小さいモデルを使う

最も確実な修正。16GB RAMで31Bを動かそうとしても無理です。

# これの代わりに（約20GB必要）
ollama run gemma4:31b

# これを試す（約6GB必要）
ollama run gemma4:e4b

ハードウェアに合ったサイズはモデル比較ガイドで確認。

修正2: より強い量子化を使う

GGUFファイルをロードしている場合、より小さい量子化を選びましょう。GGUFガイドで全量子化オプションを詳しく解説。

# Q4_K_MはQ8やFP16よりはるかに小さい
huggingface-cli download google/gemma-4-26b-GGUF \
  --include "gemma-4-26b-Q4_K_M.gguf"

量子化	メモリ節約	品質への影響
Q4_K_M	約75%小	わずか
Q5_K_M	約65%小	非常に少ない
Q8_0	約50%小	ほぼなし

修正3: コンテキスト長を短くする

KVキャッシュはコンテキスト長とともに増大します。Gemma 4は最大262Kトークンをサポートしますが、そのキャッシュは膨大 — 31Bモデルのフルコンテキストで約22GBを消費するとの報告。

# コンテキストを4Kまたは8Kに制限
ollama run gemma4:31b --ctx-size 4096

LM Studioでは設定から「Context Length」スライダーを下げます。

修正4: KVキャッシュ量子化を有効化

一部のバックエンドではKVキャッシュ自体の量子化をサポート、メモリ使用量を劇的に削減：

# llama.cppの場合
./llama-server -m gemma4-31b-Q4_K_M.gguf \
  --ctx-size 8192 \
  --cache-type-k q8_0 \
  --cache-type-v q8_0

修正5: 他のアプリを閉じる

当たり前に聞こえますが、Chromeだけで4〜8GBのRAMを消費します。大型モデル実行前にブラウザ、IDE、重いアプリを閉じましょう。

問題2: 推論が遅い

症状： トークン生成が非常に遅い — 20以上のトークン/秒を期待していたのに1〜2トークン/秒。速度最適化の包括的なウォークスルーは速度最適化ガイドをご覧ください。

修正1: GPUが実際に使われているか確認

推論速度低下の最大の原因。モデルがCPUだけで動いている可能性があり、気づいていないかもしれません。

# OllamaがGPUを使っているか確認
ollama ps

「PROCESSOR」列を確認。GPUではなく「CPU」と表示されていたら、それが原因。

修正2: GPUオフロードが有効か確認

OllamaではGPUオフロードは自動的に行われますが、GPUを検出できない場合があります：

# 利用可能なGPUを確認
ollama show --system

# GPUレイヤーを強制（全レイヤー）
OLLAMA_NUM_GPU=999 ollama run gemma4:e4b

llama.cppでは -ngl フラグを使用：

# 全レイヤーをGPUにオフロード
./llama-cli -m gemma4-e4b-Q4_K_M.gguf -ngl 999

修正3: CPUがボトルネックかもしれない

モデルがVRAMに完全に収まらない場合、一部のレイヤーがCPUで動作してボトルネックに。対策：

VRAMに完全に収まるより小さいモデルを使う
より小さい量子化を使う（Q8の代わりにQ4）
コンテキスト長を短くしてVRAMをモデルレイヤーに確保

修正4: 電源設定を確認

ノートPCでは省電力モードでCPUとGPUの両方がスロットリングされます。「ハイパフォーマンス」モードか、ACアダプター接続を確認。

Mac:

# 低電力モードが有効か確認
pmset -g | grep lowpowermode

問題3: GPU未検出

NVIDIAユーザー

CUDAドライバーの確認：

# CUDAがインストールされて動作しているか確認
nvidia-smi

nvidia-smi が動作しないかエラーが出る場合：

nvidia.com/drivers からNVIDIAドライバーをインストールまたは更新
developer.nvidia.com/cuda-downloads からCUDA Toolkitをインストール
マシンを再起動

OllamaがGPUを認識しているか確認：

# GPUが表示されるはず
ollama show --system

AMDユーザー

AMD GPUサポートにはROCmが必要で、やや扱いが難しい：

ROCmをインストール：ROCmインストールガイドに従う
サポートされているGPUか確認（RX 7000シリーズが最適）
ROCm対応ビルドの推論エンジンを使用

# ROCmインストールの確認
rocminfo | head -20

既知の問題： 一部のAMD GPU（特に旧モデル）はサポートされていません。ROCm互換性リストを確認。

Macユーザー（Apple Silicon）

Apple SiliconではOllamaとllama.cppのMetalアクセラレーションがデフォルトで有効。動作しない場合：

# Metalが利用可能か確認
system_profiler SPDisplaysDataType | grep Metal

「Metal: Supported」と表示されればOK。OllamaはM1/M2/M3/M4 MacでMetalアクセラレーションを自動的に使用します。

問題4: モデルのダウンロードが止まる

Ollamaのダウンロードが止まる

# キャンセルしてリトライ
# Ctrl+Cで停止、その後：
ollama pull gemma4:e4b

繰り返し止まる場合：

インターネット接続を確認
別のネットワークを試す（VPNが助けになることも妨げになることも）
ディスク容量を確認: df -h

Hugging Faceのダウンロードが止まる

# 高速ダウンロードを有効化
pip install hf-transfer
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download google/gemma-4-e4b

Hugging Faceへのアクセスが遅い地域の場合、ミラーを使うかオフピーク時間にダウンロード。

ディスク容量不足

# 空き容量を確認
df -h

# 古いOllamaモデルを整理
ollama list          # インストール済みを確認
ollama rm modelname  # 不要なものを削除

参考：必要ディスク容量：

モデル	ディスク容量 (Q4_K_M)
E2B	約1.5 GB
E4B	約3 GB
26B	約8 GB
31B	約18 GB

問題5: Ollama固有のエラー

"Error: model not found"

正しいモデル名を使っているか確認：

# 正しい
ollama run gemma4
ollama run gemma4:e4b

# 間違い（よくあるミス）
ollama run gemma-4     # ハイフンは使えない
ollama run google/gemma4  # 組織名は含めない

トークナイザの問題

初期バージョンのllama.cppでGemma 4のトークナイザ関連のバグが報告されています。出力が文字化けする場合：

# Ollamaを最新バージョンに更新
# macOS
brew upgrade ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

修正はllama.cppにマージされ、Ollamaの最新リリースに反映されています。最新バージョンか確認してください。

"Unexpected token" やパースエラー

通常はGGUFファイルが破損しているか互換性がないことを意味します：

# モデルを削除して再ダウンロード
ollama rm gemma4:e4b
ollama pull gemma4:e4b

問題6: GPUがあるのにCPUで動いている

これは既知の問題です（OllamaのGitHub issue #15237参照）。モデルはロードされるがGPUがあるにもかかわらずCPUで動作。

診断

# Ollamaが何を使っているか確認
ollama ps
# PROCESSOR列を確認

解決策

ステップ1: Ollamaを最新バージョンに更新（多くのGPU検出バグが修正済み）：

brew upgrade ollama  # macOS
# Linuxはインストールスクリプトを再実行

ステップ2: GPU環境変数を明示的に設定：

# NVIDIA
export CUDA_VISIBLE_DEVICES=0
ollama run gemma4:e4b

# GPU使用を強制
OLLAMA_NUM_GPU=999 ollama run gemma4:e4b

ステップ3: モデルがGPUに対して大きすぎないか確認：

モデルがVRAMに収まらない場合、Ollamaは部分オフロードではなくCPU全体にフォールバックすることがあります。より小さいモデルか量子化を試してください。

ステップ4: Ollamaサービスを再起動：

# macOS
brew services restart ollama

# Linux (systemd)
sudo systemctl restart ollama

トラブルシューティング判断フロー

どこから始めればいいかわからない場合：

モデルはダウンロードできている？
- いいえ → インターネット、ディスク容量、モデル名のスペルを確認
- はい → 次へ
動作し始める？
- いいえ、OOMエラー → より小さいモデルか量子化を使用、コンテキスト長を短く
- いいえ、他のエラー → Ollamaを更新、モデル名を確認、再ダウンロード
- はい → 次へ
GPUが使われている？
- いいえ → ドライバー確認（NVIDIA: nvidia-smi、AMD: rocminfo）、Ollama更新、環境変数設定
- はい → 次へ
十分な速度が出ている？
- いいえ → 電源設定確認、他のアプリを閉じる、より小さい量子化を試す
- はい → 問題解決！
出力品質が悪い？
- 文字化け → Ollamaを更新（トークナイザ修正）、モデルを再ダウンロード
- 品質が低い → より大きいモデルまたはより緩い量子化を試す

それでも解決しない場合

上記のどれでも解決しない場合：

Ollamaの問題: github.com/ollama/ollama/issues で特定のエラーを検索
llama.cppの問題: github.com/ggml-org/llama.cpp/issues を確認
Reddit: r/LocalLLaMA を検索 — コミュニティは非常に親切で、同じ問題に遭遇した人がきっといます

次のステップ

ハードウェアに合ったモデルを選ぶ → どのGemma 4モデルを使うべき？
ハードウェア要件を確認 → Gemma 4ハードウェアガイド
ダウンロードまたは再ダウンロード → Gemma 4ダウンロードガイド
ブラウザ版を試す（インストール不要） → Google AI Studioガイド