0% read

Gemma 4をNVIDIA RTXで動かす方法(CUDAセットアップと最適化)

4月 7, 2026

NVIDIA GPUはGemma 4をローカルで動かす最も簡単な方法です。予算のRTX 3060でも強力なRTX 4090でも、CUDAエコシステムはセットアップを簡単にします。このガイドでは、ドライバー要件から高度なTensorRT-LLM最適化まですべてをカバーします。

CUDAドライバー要件

何よりもまず、NVIDIAドライバーとCUDAツールキットが最新であることを確認:

コンポーネント最小バージョン推奨
NVIDIAドライバー535以上560以上
CUDAツールキット12.112.4以上
cuDNN8.99.0以上
Python3.103.11以上

現在のセットアップを確認:

# ドライバーバージョンを確認
nvidia-smi

# CUDAバージョンを確認
nvcc --version

# nvccが見つからない場合、CUDAツールキットがPATHにない可能性
export PATH=/usr/local/cuda/bin:$PATH

ドライバーの更新

Linuxで:

# Ubuntu/Debian
sudo apt update
sudo apt install nvidia-driver-560
sudo reboot

Windowsでは、nvidia.com/driversから最新ドライバーをダウンロードするか、GeForce Experienceを使用してください。

最も簡単な方法:Ollama

OllamaはNVIDIA GPUを自動検出し、すべてを処理します。CUDAツールキットのインストールは不要 — Ollamaが独自のものをバンドルしています:

# Ollamaをインストール
curl -fsSL https://ollama.com/install.sh | sh

# Gemma 4を実行
ollama run gemma4:12b

# GPUが使用されていることを確認
ollama ps
# プロセッサ列に"GPU"が表示されるはず

これだけ。OllamaはあなたのNVIDIA GPUを検出し、モデルをVRAMにロードし、生成を開始します。ほとんどのユーザーにとって、これだけで十分です。

GPUオフロード設定

モデルがVRAMに完全に収まらない場合、GPUとCPU間で分割できます。これは部分オフロードと呼ばれます:

# Ollama:GPUに何層を送るかを制御
OLLAMA_NUM_GPU=35 ollama run gemma4:12b

# llama.cpp:GPU層を指定
./llama-server -m gemma-4-12b-Q4_K_M.gguf -ngl 35

# 0でCPUのみ、999でフルGPU

最適解はVRAMによって異なります。一般的なルール:

VRAM推奨層数(12B Q4)意味
6GB15-20約50%がGPU
8GB25-30約75%がGPU
12GB35-40約95%がGPU
16GB以上999(すべて)完全にGPUアクセラレーション
24GB以上999(すべて)長いコンテキストの余裕

RTX性能比較

異なるRTXカードでのGemma 4 12B推論速度の期待値:

GPUVRAMQ4_K_M (tok/s)Q8_0 (tok/s)FP16 (tok/s)備考
RTX 306012GB約25約15OOM優れた予算オプション
RTX 3060 Ti8GB約20*OOMOOM*部分オフロード
RTX 30708GB約22*OOMOOM*部分オフロード
RTX 309024GB約40約25約12今でも優秀
RTX 40608GB約28*OOMOOM*部分オフロード
RTX 4070 Ti12GB約38約22OOM良好なミドルレンジ
RTX 408016GB約50約30OOM強力
RTX 409024GB約65約40約20コンシューマーキング

OOM = その量子化レベルでメモリ不足

RTX 3060 12GBは正直最高のコストパフォーマンスの選択 — 4090のわずかな価格で12GBのVRAM、Q4モデルを十分に使える速度で動かせます。

NVIDIA Jetson Orinサポート

Gemma 4はNVIDIAのJetsonプラットフォームで動作し、エッジデバイスでのデプロイを可能にします:

# Jetson Orin(JetPack 6.x)で
# Ollama ARM64ビルドをインストール
curl -fsSL https://ollama.com/install.sh | sh

# 小さいモデルを実行
ollama run gemma4:4b

# 1BモデルがJetson Orin Nanoに最適
ollama run gemma4:1b
JetsonモデルRAMベストGemma 4モデルユースケース
Orin Nano 8GB8GB1Bまたは4B Q4組み込みAIアシスタント
Orin NX 16GB16GB4Bまたは12B Q4エッジ推論
AGX Orin 64GB64GB12B FP16または27B Q4フル機能エッジAI

DGX Spark

NVIDIAのDGX Sparkは128GBの統合メモリを持つデスクトップAIワークステーション — フル26B Gemma 4をFP16で楽々と動かします:

# DGX Sparkで、フル27Bモデルを実行
ollama run gemma4:27b

# またはフル精度で実行
python -m vllm.entrypoints.openai.api_server \
  --model google/gemma-4-27b-it \
  --dtype float16 \
  --max-model-len 32768

TensorRT-LLM最適化

NVIDIAハードウェアで最大スループットを得るには、TensorRT-LLMがGPU専用にモデルをコンパイルします:

# TensorRT-LLMをインストール
pip install tensorrt-llm

# モデルを変換して最適化
python convert_checkpoint.py \
  --model_dir google/gemma-4-12b-it \
  --output_dir ./gemma4-trt \
  --dtype float16

# TensorRTエンジンをビルド
trtllm-build \
  --checkpoint_dir ./gemma4-trt \
  --output_dir ./gemma4-engine \
  --max_batch_size 4 \
  --max_input_len 4096 \
  --max_seq_len 8192

# 推論を実行
python run.py --engine_dir ./gemma4-engine --max_output_len 512

TensorRT-LLMは通常、バニラPyTorchと比較して2-3倍のスループット改善を提供しますが、ビルドプロセスには10-30分かかり、エンジンは特定のGPUモデルにロックされます。

Flash Attention

より良いメモリ効率と速度のために、Flash Attentionが有効になっていることを確認:

# Flash Attention 2をインストール
pip install flash-attn --no-build-isolation

# 使用されていることを確認(Pythonで)
python -c "import flash_attn; print(flash_attn.__version__)"

ほとんどのフレームワーク(vLLM、SGLang、transformers)は、Flash Attentionが利用可能な場合自動的に使用します。VRAM使用量を減らし、特に長いコンテキスト長で速度を上げます。

次のステップ

NVIDIA GPUはローカルAIのゴールドスタンダードであり続けています。成熟したドライバー、広いフレームワークサポート、TensorRT-LLMのようなツールの組み合わせにより、デバッグの時間が少なく、実際にGemma 4を使う時間がより多くなります。

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

Gemma 4をNVIDIA RTXで動かす方法(CUDAセットアップと最適化) | ブログ