Gemma 4をNVIDIA RTXで動かす方法（CUDAセットアップと最適化）

NVIDIA GPUはGemma 4をローカルで動かす最も簡単な方法です。予算のRTX 3060でも強力なRTX 4090でも、CUDAエコシステムはセットアップを簡単にします。このガイドでは、ドライバー要件から高度なTensorRT-LLM最適化まですべてをカバーします。

CUDAドライバー要件

何よりもまず、NVIDIAドライバーとCUDAツールキットが最新であることを確認：

コンポーネント	最小バージョン	推奨
NVIDIAドライバー	535以上	560以上
CUDAツールキット	12.1	12.4以上
cuDNN	8.9	9.0以上
Python	3.10	3.11以上

現在のセットアップを確認：

# ドライバーバージョンを確認
nvidia-smi

# CUDAバージョンを確認
nvcc --version

# nvccが見つからない場合、CUDAツールキットがPATHにない可能性
export PATH=/usr/local/cuda/bin:$PATH

ドライバーの更新

Linuxで：

# Ubuntu/Debian
sudo apt update
sudo apt install nvidia-driver-560
sudo reboot

Windowsでは、nvidia.com/driversから最新ドライバーをダウンロードするか、GeForce Experienceを使用してください。

最も簡単な方法：Ollama

OllamaはNVIDIA GPUを自動検出し、すべてを処理します。CUDAツールキットのインストールは不要 — Ollamaが独自のものをバンドルしています：

# Ollamaをインストール
curl -fsSL https://ollama.com/install.sh | sh

# Gemma 4を実行
ollama run gemma4:12b

# GPUが使用されていることを確認
ollama ps
# プロセッサ列に"GPU"が表示されるはず

これだけ。OllamaはあなたのNVIDIA GPUを検出し、モデルをVRAMにロードし、生成を開始します。ほとんどのユーザーにとって、これだけで十分です。

GPUオフロード設定

モデルがVRAMに完全に収まらない場合、GPUとCPU間で分割できます。これは部分オフロードと呼ばれます：

# Ollama：GPUに何層を送るかを制御
OLLAMA_NUM_GPU=35 ollama run gemma4:12b

# llama.cpp：GPU層を指定
./llama-server -m gemma-4-12b-Q4_K_M.gguf -ngl 35

# 0でCPUのみ、999でフルGPU

最適解はVRAMによって異なります。一般的なルール：

VRAM	推奨層数（12B Q4）	意味
6GB	15-20	約50%がGPU
8GB	25-30	約75%がGPU
12GB	35-40	約95%がGPU
16GB以上	999（すべて）	完全にGPUアクセラレーション
24GB以上	999（すべて）	長いコンテキストの余裕

RTX性能比較

異なるRTXカードでのGemma 4 12B推論速度の期待値：

GPU	VRAM	Q4_K_M (tok/s)	Q8_0 (tok/s)	FP16 (tok/s)	備考
RTX 3060	12GB	約25	約15	OOM	優れた予算オプション
RTX 3060 Ti	8GB	約20*	OOM	OOM	*部分オフロード
RTX 3070	8GB	約22*	OOM	OOM	*部分オフロード
RTX 3090	24GB	約40	約25	約12	今でも優秀
RTX 4060	8GB	約28*	OOM	OOM	*部分オフロード
RTX 4070 Ti	12GB	約38	約22	OOM	良好なミドルレンジ
RTX 4080	16GB	約50	約30	OOM	強力
RTX 4090	24GB	約65	約40	約20	コンシューマーキング

OOM = その量子化レベルでメモリ不足

RTX 3060 12GBは正直最高のコストパフォーマンスの選択 — 4090のわずかな価格で12GBのVRAM、Q4モデルを十分に使える速度で動かせます。

NVIDIA Jetson Orinサポート

Gemma 4はNVIDIAのJetsonプラットフォームで動作し、エッジデバイスでのデプロイを可能にします：

# Jetson Orin（JetPack 6.x）で
# Ollama ARM64ビルドをインストール
curl -fsSL https://ollama.com/install.sh | sh

# 小さいモデルを実行
ollama run gemma4:4b

# 1BモデルがJetson Orin Nanoに最適
ollama run gemma4:1b

Jetsonモデル	RAM	ベストGemma 4モデル	ユースケース
Orin Nano 8GB	8GB	1Bまたは4B Q4	組み込みAIアシスタント
Orin NX 16GB	16GB	4Bまたは12B Q4	エッジ推論
AGX Orin 64GB	64GB	12B FP16または27B Q4	フル機能エッジAI

DGX Spark

NVIDIAのDGX Sparkは128GBの統合メモリを持つデスクトップAIワークステーション — フル26B Gemma 4をFP16で楽々と動かします：

# DGX Sparkで、フル27Bモデルを実行
ollama run gemma4:27b

# またはフル精度で実行
python -m vllm.entrypoints.openai.api_server \
  --model google/gemma-4-27b-it \
  --dtype float16 \
  --max-model-len 32768

TensorRT-LLM最適化

NVIDIAハードウェアで最大スループットを得るには、TensorRT-LLMがGPU専用にモデルをコンパイルします：

# TensorRT-LLMをインストール
pip install tensorrt-llm

# モデルを変換して最適化
python convert_checkpoint.py \
  --model_dir google/gemma-4-12b-it \
  --output_dir ./gemma4-trt \
  --dtype float16

# TensorRTエンジンをビルド
trtllm-build \
  --checkpoint_dir ./gemma4-trt \
  --output_dir ./gemma4-engine \
  --max_batch_size 4 \
  --max_input_len 4096 \
  --max_seq_len 8192

# 推論を実行
python run.py --engine_dir ./gemma4-engine --max_output_len 512

TensorRT-LLMは通常、バニラPyTorchと比較して2-3倍のスループット改善を提供しますが、ビルドプロセスには10-30分かかり、エンジンは特定のGPUモデルにロックされます。

Flash Attention

より良いメモリ効率と速度のために、Flash Attentionが有効になっていることを確認：

# Flash Attention 2をインストール
pip install flash-attn --no-build-isolation

# 使用されていることを確認（Pythonで）
python -c "import flash_attn; print(flash_attn.__version__)"

ほとんどのフレームワーク（vLLM、SGLang、transformers）は、Flash Attentionが利用可能な場合自動的に使用します。VRAM使用量を減らし、特に長いコンテキスト長で速度を上げます。