Gemma 4が期待通りに動かない。心配無用 — ほとんどの問題にはシンプルな解決策があります。このガイドでは、Reddit、GitHubのIssue、コミュニティフォーラムから集めた実際に起こる問題をカバーします。
トラブルシューティングを始めましょう。
問題1: メモリ不足(OOM)
症状: システムがフリーズ、プロセスが強制終了、CUDA out of memory、mmap failed などのエラーが表示、またはスワップが暴走。
原因: モデルの重み + KVキャッシュが利用可能なRAMまたはVRAMを超過。
修正1: より小さいモデルを使う
最も確実な修正。16GB RAMで31Bを動かそうとしても無理です。
# これの代わりに(約20GB必要)
ollama run gemma4:31b
# これを試す(約6GB必要)
ollama run gemma4:e4bハードウェアに合ったサイズはモデル比較ガイドで確認。
修正2: より強い量子化を使う
GGUFファイルをロードしている場合、より小さい量子化を選びましょう。GGUFガイドで全量子化オプションを詳しく解説。
# Q4_K_MはQ8やFP16よりはるかに小さい
huggingface-cli download google/gemma-4-26b-GGUF \
--include "gemma-4-26b-Q4_K_M.gguf"| 量子化 | メモリ節約 | 品質への影響 |
|---|---|---|
| Q4_K_M | 約75%小 | わずか |
| Q5_K_M | 約65%小 | 非常に少ない |
| Q8_0 | 約50%小 | ほぼなし |
修正3: コンテキスト長を短くする
KVキャッシュはコンテキスト長とともに増大します。Gemma 4は最大262Kトークンをサポートしますが、そのキャッシュは膨大 — 31Bモデルのフルコンテキストで約22GBを消費するとの報告。
# コンテキストを4Kまたは8Kに制限
ollama run gemma4:31b --ctx-size 4096LM Studioでは設定から「Context Length」スライダーを下げます。
修正4: KVキャッシュ量子化を有効化
一部のバックエンドではKVキャッシュ自体の量子化をサポート、メモリ使用量を劇的に削減:
# llama.cppの場合
./llama-server -m gemma4-31b-Q4_K_M.gguf \
--ctx-size 8192 \
--cache-type-k q8_0 \
--cache-type-v q8_0修正5: 他のアプリを閉じる
当たり前に聞こえますが、Chromeだけで4〜8GBのRAMを消費します。大型モデル実行前にブラウザ、IDE、重いアプリを閉じましょう。
問題2: 推論が遅い
症状: トークン生成が非常に遅い — 20以上のトークン/秒を期待していたのに1〜2トークン/秒。速度最適化の包括的なウォークスルーは速度最適化ガイドをご覧ください。
修正1: GPUが実際に使われているか確認
推論速度低下の最大の原因。モデルがCPUだけで動いている可能性があり、気づいていないかもしれません。
# OllamaがGPUを使っているか確認
ollama ps「PROCESSOR」列を確認。GPUではなく「CPU」と表示されていたら、それが原因。
修正2: GPUオフロードが有効か確認
OllamaではGPUオフロードは自動的に行われますが、GPUを検出できない場合があります:
# 利用可能なGPUを確認
ollama show --system
# GPUレイヤーを強制(全レイヤー)
OLLAMA_NUM_GPU=999 ollama run gemma4:e4bllama.cppでは -ngl フラグを使用:
# 全レイヤーをGPUにオフロード
./llama-cli -m gemma4-e4b-Q4_K_M.gguf -ngl 999修正3: CPUがボトルネックかもしれない
モデルがVRAMに完全に収まらない場合、一部のレイヤーがCPUで動作してボトルネックに。対策:
- VRAMに完全に収まるより小さいモデルを使う
- より小さい量子化を使う(Q8の代わりにQ4)
- コンテキスト長を短くしてVRAMをモデルレイヤーに確保
修正4: 電源設定を確認
ノートPCでは省電力モードでCPUとGPUの両方がスロットリングされます。「ハイパフォーマンス」モードか、ACアダプター接続を確認。
Mac:
# 低電力モードが有効か確認
pmset -g | grep lowpowermode問題3: GPU未検出
NVIDIAユーザー
CUDAドライバーの確認:
# CUDAがインストールされて動作しているか確認
nvidia-sminvidia-smi が動作しないかエラーが出る場合:
- nvidia.com/drivers からNVIDIAドライバーをインストールまたは更新
- developer.nvidia.com/cuda-downloads からCUDA Toolkitをインストール
- マシンを再起動
OllamaがGPUを認識しているか確認:
# GPUが表示されるはず
ollama show --systemAMDユーザー
AMD GPUサポートにはROCmが必要で、やや扱いが難しい:
- ROCmをインストール:ROCmインストールガイドに従う
- サポートされているGPUか確認(RX 7000シリーズが最適)
- ROCm対応ビルドの推論エンジンを使用
# ROCmインストールの確認
rocminfo | head -20既知の問題: 一部のAMD GPU(特に旧モデル)はサポートされていません。ROCm互換性リストを確認。
Macユーザー(Apple Silicon)
Apple SiliconではOllamaとllama.cppのMetalアクセラレーションがデフォルトで有効。動作しない場合:
# Metalが利用可能か確認
system_profiler SPDisplaysDataType | grep Metal「Metal: Supported」と表示されればOK。OllamaはM1/M2/M3/M4 MacでMetalアクセラレーションを自動的に使用します。
問題4: モデルのダウンロードが止まる
Ollamaのダウンロードが止まる
# キャンセルしてリトライ
# Ctrl+Cで停止、その後:
ollama pull gemma4:e4b繰り返し止まる場合:
- インターネット接続を確認
- 別のネットワークを試す(VPNが助けになることも妨げになることも)
- ディスク容量を確認:
df -h
Hugging Faceのダウンロードが止まる
# 高速ダウンロードを有効化
pip install hf-transfer
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download google/gemma-4-e4bHugging Faceへのアクセスが遅い地域の場合、ミラーを使うかオフピーク時間にダウンロード。
ディスク容量不足
# 空き容量を確認
df -h
# 古いOllamaモデルを整理
ollama list # インストール済みを確認
ollama rm modelname # 不要なものを削除参考:必要ディスク容量:
| モデル | ディスク容量 (Q4_K_M) |
|---|---|
| E2B | 約1.5 GB |
| E4B | 約3 GB |
| 26B | 約8 GB |
| 31B | 約18 GB |
問題5: Ollama固有のエラー
"Error: model not found"
正しいモデル名を使っているか確認:
# 正しい
ollama run gemma4
ollama run gemma4:e4b
# 間違い(よくあるミス)
ollama run gemma-4 # ハイフンは使えない
ollama run google/gemma4 # 組織名は含めないトークナイザの問題
初期バージョンのllama.cppでGemma 4のトークナイザ関連のバグが報告されています。出力が文字化けする場合:
# Ollamaを最新バージョンに更新
# macOS
brew upgrade ollama
# Linux
curl -fsSL https://ollama.com/install.sh | sh修正はllama.cppにマージされ、Ollamaの最新リリースに反映されています。最新バージョンか確認してください。
"Unexpected token" やパースエラー
通常はGGUFファイルが破損しているか互換性がないことを意味します:
# モデルを削除して再ダウンロード
ollama rm gemma4:e4b
ollama pull gemma4:e4b問題6: GPUがあるのにCPUで動いている
これは既知の問題です(OllamaのGitHub issue #15237参照)。モデルはロードされるがGPUがあるにもかかわらずCPUで動作。
診断
# Ollamaが何を使っているか確認
ollama ps
# PROCESSOR列を確認解決策
ステップ1: Ollamaを最新バージョンに更新(多くのGPU検出バグが修正済み):
brew upgrade ollama # macOS
# Linuxはインストールスクリプトを再実行ステップ2: GPU環境変数を明示的に設定:
# NVIDIA
export CUDA_VISIBLE_DEVICES=0
ollama run gemma4:e4b
# GPU使用を強制
OLLAMA_NUM_GPU=999 ollama run gemma4:e4bステップ3: モデルがGPUに対して大きすぎないか確認:
モデルがVRAMに収まらない場合、Ollamaは部分オフロードではなくCPU全体にフォールバックすることがあります。より小さいモデルか量子化を試してください。
ステップ4: Ollamaサービスを再起動:
# macOS
brew services restart ollama
# Linux (systemd)
sudo systemctl restart ollamaトラブルシューティング判断フロー
どこから始めればいいかわからない場合:
-
モデルはダウンロードできている?
- いいえ → インターネット、ディスク容量、モデル名のスペルを確認
- はい → 次へ
-
動作し始める?
- いいえ、OOMエラー → より小さいモデルか量子化を使用、コンテキスト長を短く
- いいえ、他のエラー → Ollamaを更新、モデル名を確認、再ダウンロード
- はい → 次へ
-
GPUが使われている?
- いいえ → ドライバー確認(NVIDIA:
nvidia-smi、AMD:rocminfo)、Ollama更新、環境変数設定 - はい → 次へ
- いいえ → ドライバー確認(NVIDIA:
-
十分な速度が出ている?
- いいえ → 電源設定確認、他のアプリを閉じる、より小さい量子化を試す
- はい → 問題解決!
-
出力品質が悪い?
- 文字化け → Ollamaを更新(トークナイザ修正)、モデルを再ダウンロード
- 品質が低い → より大きいモデルまたはより緩い量子化を試す
それでも解決しない場合
上記のどれでも解決しない場合:
- Ollamaの問題: github.com/ollama/ollama/issues で特定のエラーを検索
- llama.cppの問題: github.com/ggml-org/llama.cpp/issues を確認
- Reddit: r/LocalLLaMA を検索 — コミュニティは非常に親切で、同じ問題に遭遇した人がきっといます
次のステップ
- ハードウェアに合ったモデルを選ぶ → どのGemma 4モデルを使うべき?
- ハードウェア要件を確認 → Gemma 4ハードウェアガイド
- ダウンロードまたは再ダウンロード → Gemma 4ダウンロードガイド
- ブラウザ版を試す(インストール不要) → Google AI Studioガイド



