NVIDIA GPUはGemma 4をローカルで動かす最も簡単な方法です。予算のRTX 3060でも強力なRTX 4090でも、CUDAエコシステムはセットアップを簡単にします。このガイドでは、ドライバー要件から高度なTensorRT-LLM最適化まですべてをカバーします。
CUDAドライバー要件
何よりもまず、NVIDIAドライバーとCUDAツールキットが最新であることを確認:
| コンポーネント | 最小バージョン | 推奨 |
|---|---|---|
| NVIDIAドライバー | 535以上 | 560以上 |
| CUDAツールキット | 12.1 | 12.4以上 |
| cuDNN | 8.9 | 9.0以上 |
| Python | 3.10 | 3.11以上 |
現在のセットアップを確認:
# ドライバーバージョンを確認
nvidia-smi
# CUDAバージョンを確認
nvcc --version
# nvccが見つからない場合、CUDAツールキットがPATHにない可能性
export PATH=/usr/local/cuda/bin:$PATHドライバーの更新
Linuxで:
# Ubuntu/Debian
sudo apt update
sudo apt install nvidia-driver-560
sudo rebootWindowsでは、nvidia.com/driversから最新ドライバーをダウンロードするか、GeForce Experienceを使用してください。
最も簡単な方法:Ollama
OllamaはNVIDIA GPUを自動検出し、すべてを処理します。CUDAツールキットのインストールは不要 — Ollamaが独自のものをバンドルしています:
# Ollamaをインストール
curl -fsSL https://ollama.com/install.sh | sh
# Gemma 4を実行
ollama run gemma4:12b
# GPUが使用されていることを確認
ollama ps
# プロセッサ列に"GPU"が表示されるはずこれだけ。OllamaはあなたのNVIDIA GPUを検出し、モデルをVRAMにロードし、生成を開始します。ほとんどのユーザーにとって、これだけで十分です。
GPUオフロード設定
モデルがVRAMに完全に収まらない場合、GPUとCPU間で分割できます。これは部分オフロードと呼ばれます:
# Ollama:GPUに何層を送るかを制御
OLLAMA_NUM_GPU=35 ollama run gemma4:12b
# llama.cpp:GPU層を指定
./llama-server -m gemma-4-12b-Q4_K_M.gguf -ngl 35
# 0でCPUのみ、999でフルGPU最適解はVRAMによって異なります。一般的なルール:
| VRAM | 推奨層数(12B Q4) | 意味 |
|---|---|---|
| 6GB | 15-20 | 約50%がGPU |
| 8GB | 25-30 | 約75%がGPU |
| 12GB | 35-40 | 約95%がGPU |
| 16GB以上 | 999(すべて) | 完全にGPUアクセラレーション |
| 24GB以上 | 999(すべて) | 長いコンテキストの余裕 |
RTX性能比較
異なるRTXカードでのGemma 4 12B推論速度の期待値:
| GPU | VRAM | Q4_K_M (tok/s) | Q8_0 (tok/s) | FP16 (tok/s) | 備考 |
|---|---|---|---|---|---|
| RTX 3060 | 12GB | 約25 | 約15 | OOM | 優れた予算オプション |
| RTX 3060 Ti | 8GB | 約20* | OOM | OOM | *部分オフロード |
| RTX 3070 | 8GB | 約22* | OOM | OOM | *部分オフロード |
| RTX 3090 | 24GB | 約40 | 約25 | 約12 | 今でも優秀 |
| RTX 4060 | 8GB | 約28* | OOM | OOM | *部分オフロード |
| RTX 4070 Ti | 12GB | 約38 | 約22 | OOM | 良好なミドルレンジ |
| RTX 4080 | 16GB | 約50 | 約30 | OOM | 強力 |
| RTX 4090 | 24GB | 約65 | 約40 | 約20 | コンシューマーキング |
OOM = その量子化レベルでメモリ不足
RTX 3060 12GBは正直最高のコストパフォーマンスの選択 — 4090のわずかな価格で12GBのVRAM、Q4モデルを十分に使える速度で動かせます。
NVIDIA Jetson Orinサポート
Gemma 4はNVIDIAのJetsonプラットフォームで動作し、エッジデバイスでのデプロイを可能にします:
# Jetson Orin(JetPack 6.x)で
# Ollama ARM64ビルドをインストール
curl -fsSL https://ollama.com/install.sh | sh
# 小さいモデルを実行
ollama run gemma4:4b
# 1BモデルがJetson Orin Nanoに最適
ollama run gemma4:1b| Jetsonモデル | RAM | ベストGemma 4モデル | ユースケース |
|---|---|---|---|
| Orin Nano 8GB | 8GB | 1Bまたは4B Q4 | 組み込みAIアシスタント |
| Orin NX 16GB | 16GB | 4Bまたは12B Q4 | エッジ推論 |
| AGX Orin 64GB | 64GB | 12B FP16または27B Q4 | フル機能エッジAI |
DGX Spark
NVIDIAのDGX Sparkは128GBの統合メモリを持つデスクトップAIワークステーション — フル26B Gemma 4をFP16で楽々と動かします:
# DGX Sparkで、フル27Bモデルを実行
ollama run gemma4:27b
# またはフル精度で実行
python -m vllm.entrypoints.openai.api_server \
--model google/gemma-4-27b-it \
--dtype float16 \
--max-model-len 32768TensorRT-LLM最適化
NVIDIAハードウェアで最大スループットを得るには、TensorRT-LLMがGPU専用にモデルをコンパイルします:
# TensorRT-LLMをインストール
pip install tensorrt-llm
# モデルを変換して最適化
python convert_checkpoint.py \
--model_dir google/gemma-4-12b-it \
--output_dir ./gemma4-trt \
--dtype float16
# TensorRTエンジンをビルド
trtllm-build \
--checkpoint_dir ./gemma4-trt \
--output_dir ./gemma4-engine \
--max_batch_size 4 \
--max_input_len 4096 \
--max_seq_len 8192
# 推論を実行
python run.py --engine_dir ./gemma4-engine --max_output_len 512TensorRT-LLMは通常、バニラPyTorchと比較して2-3倍のスループット改善を提供しますが、ビルドプロセスには10-30分かかり、エンジンは特定のGPUモデルにロックされます。
Flash Attention
より良いメモリ効率と速度のために、Flash Attentionが有効になっていることを確認:
# Flash Attention 2をインストール
pip install flash-attn --no-build-isolation
# 使用されていることを確認(Pythonで)
python -c "import flash_attn; print(flash_attn.__version__)"ほとんどのフレームワーク(vLLM、SGLang、transformers)は、Flash Attentionが利用可能な場合自動的に使用します。VRAM使用量を減らし、特に長いコンテキスト長で速度を上げます。
次のステップ
- ハードウェア購入のアドバイスが必要? 予算別の詳細な推奨はハードウェア要件ガイドをチェック
- エラーに遭遇? トラブルシューティングガイドでドライバー不一致やOOMエラーなどCUDA特有の問題をカバー
- まずOllamaを試したい? Gemma 4を実行する最もシンプルな道のためにOllamaセットアップガイドに従う
NVIDIA GPUはローカルAIのゴールドスタンダードであり続けています。成熟したドライバー、広いフレームワークサポート、TensorRT-LLMのようなツールの組み合わせにより、デバッグの時間が少なく、実際にGemma 4を使う時間がより多くなります。
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


