GPU NVIDIA adalah jalan termudah untuk menjalankan Gemma 4 secara lokal. Entah kamu punya RTX 3060 budget atau RTX 4090 beefy, ekosistem CUDA membuat setup-nya langsung. Panduan ini mencakup semuanya dari kebutuhan driver hingga optimasi TensorRT-LLM lanjutan.
Kebutuhan Driver CUDA
Sebelum apa pun, pastikan driver NVIDIA dan CUDA toolkit-mu up to date:
| Komponen | Versi Minimum | Direkomendasikan |
|---|---|---|
| NVIDIA Driver | 535+ | 560+ |
| CUDA Toolkit | 12.1 | 12.4+ |
| cuDNN | 8.9 | 9.0+ |
| Python | 3.10 | 3.11+ |
Cek setup saat ini:
# Cek versi driver
nvidia-smi
# Cek versi CUDA
nvcc --version
# Jika nvcc tidak ditemukan, CUDA toolkit mungkin tidak ada di PATH
export PATH=/usr/local/cuda/bin:$PATHMengupdate Driver
Di Linux:
# Ubuntu/Debian
sudo apt update
sudo apt install nvidia-driver-560
sudo rebootDi Windows, unduh driver terbaru dari nvidia.com/drivers atau gunakan GeForce Experience.
Cara Termudah: Ollama
Ollama auto-detect GPU NVIDIA dan menangani semuanya untukmu. Tidak butuh instalasi CUDA toolkit — Ollama membundel miliknya sendiri:
# Instal Ollama
curl -fsSL https://ollama.com/install.sh | sh
# Jalankan Gemma 4
ollama run gemma4:12b
# Verifikasi GPU sedang digunakan
ollama ps
# Harusnya menampilkan "GPU" di kolom processorItu saja. Ollama mendeteksi GPU NVIDIA-mu, memuat model ke VRAM, dan mulai menghasilkan. Untuk kebanyakan user, ini yang kamu butuhkan.
Pengaturan GPU Offloading
Saat modelmu tidak sepenuhnya muat di VRAM, kamu bisa membaginya antara GPU dan CPU. Ini disebut partial offloading:
# Ollama: kontrol berapa layer masuk ke GPU
OLLAMA_NUM_GPU=35 ollama run gemma4:12b
# llama.cpp: tentukan layer GPU
./llama-server -m gemma-4-12b-Q4_K_M.gguf -ngl 35
# Set ke 0 untuk CPU-only, atau 999 untuk GPU penuhSweet spot tergantung VRAM-mu. Aturan umum:
| VRAM | Layer Direkomendasikan (12B Q4) | Artinya |
|---|---|---|
| 6GB | 15-20 | ~50% di GPU |
| 8GB | 25-30 | ~75% di GPU |
| 12GB | 35-40 | ~95% di GPU |
| 16GB+ | 999 (semua) | Sepenuhnya terakselerasi GPU |
| 24GB+ | 999 (semua) | Ruang untuk konteks lebih panjang |
Perbandingan Performa RTX
Berikut yang bisa diharapkan untuk kecepatan inferensi Gemma 4 12B di berbagai kartu RTX:
| GPU | VRAM | Q4_K_M (tok/dtk) | Q8_0 (tok/dtk) | FP16 (tok/dtk) | Catatan |
|---|---|---|---|---|---|
| RTX 3060 | 12GB | ~25 | ~15 | OOM | Pilihan budget bagus |
| RTX 3060 Ti | 8GB | ~20* | OOM | OOM | *Partial offload |
| RTX 3070 | 8GB | ~22* | OOM | OOM | *Partial offload |
| RTX 3090 | 24GB | ~40 | ~25 | ~12 | Masih sangat baik |
| RTX 4060 | 8GB | ~28* | OOM | OOM | *Partial offload |
| RTX 4070 Ti | 12GB | ~38 | ~22 | OOM | Mid-range bagus |
| RTX 4080 | 16GB | ~50 | ~30 | OOM | Performer kuat |
| RTX 4090 | 24GB | ~65 | ~40 | ~20 | Raja konsumer |
OOM = Out of Memory di level kuantisasi tersebut
RTX 3060 12GB jujur adalah pilihan value terbaik — 12GB VRAM dengan harga jauh lebih murah dari 4090, dan menjalankan model Q4 pada kecepatan yang sempurna untuk digunakan.
Dukungan NVIDIA Jetson Orin
Gemma 4 berjalan di platform Jetson NVIDIA, memungkinkan deployment di perangkat edge:
# Di Jetson Orin (JetPack 6.x)
# Instal Ollama ARM64 build
curl -fsSL https://ollama.com/install.sh | sh
# Jalankan model lebih kecil
ollama run gemma4:4b
# Model 1B terbaik untuk Jetson Orin Nano
ollama run gemma4:1b| Model Jetson | RAM | Model Gemma 4 Terbaik | Kasus Penggunaan |
|---|---|---|---|
| Orin Nano 8GB | 8GB | 1B atau 4B Q4 | Asisten AI embedded |
| Orin NX 16GB | 16GB | 4B atau 12B Q4 | Inferensi edge |
| AGX Orin 64GB | 64GB | 12B FP16 atau 27B Q4 | AI edge berfitur lengkap |
DGX Spark
DGX Spark dari NVIDIA adalah workstation AI desktop dengan 128GB unified memory — menjalankan Gemma 4 27B penuh di FP16 tanpa kesulitan:
# Di DGX Spark, jalankan model 27B penuh
ollama run gemma4:27b
# Atau jalankan dengan presisi penuh
python -m vllm.entrypoints.openai.api_server \
--model google/gemma-4-27b-it \
--dtype float16 \
--max-model-len 32768Optimasi TensorRT-LLM
Untuk throughput maksimum di hardware NVIDIA, TensorRT-LLM mengompilasi model spesifik untuk GPU-mu:
# Instal TensorRT-LLM
pip install tensorrt-llm
# Konversi dan optimalkan model
python convert_checkpoint.py \
--model_dir google/gemma-4-12b-it \
--output_dir ./gemma4-trt \
--dtype float16
# Build TensorRT engine
trtllm-build \
--checkpoint_dir ./gemma4-trt \
--output_dir ./gemma4-engine \
--max_batch_size 4 \
--max_input_len 4096 \
--max_seq_len 8192
# Jalankan inferensi
python run.py --engine_dir ./gemma4-engine --max_output_len 512TensorRT-LLM biasanya memberikan peningkatan throughput 2-3x atas PyTorch vanilla, tapi proses build-nya memakan 10-30 menit dan engine-nya terkunci ke model GPU spesifikmu.
Flash Attention
Pastikan Flash Attention diaktifkan untuk efisiensi memori dan kecepatan lebih baik:
# Instal Flash Attention 2
pip install flash-attn --no-build-isolation
# Verifikasi sedang digunakan (di Python)
python -c "import flash_attn; print(flash_attn.__version__)"Sebagian besar framework (vLLM, SGLang, transformers) otomatis menggunakan Flash Attention saat tersedia. Ia mengurangi penggunaan VRAM dan meningkatkan kecepatan, terutama di panjang konteks yang lebih panjang.
Langkah Selanjutnya
- Butuh saran beli hardware? Cek Panduan Kebutuhan Hardware untuk rekomendasi detail berdasarkan budget
- Mengalami error? Panduan Troubleshooting mencakup masalah spesifik CUDA seperti ketidakcocokan driver dan error OOM
- Ingin coba Ollama dulu? Ikuti Panduan Setup Ollama kami untuk jalan paling sederhana menjalankan Gemma 4
GPU NVIDIA tetap menjadi standar emas untuk AI lokal. Kombinasi driver matang, dukungan framework luas, dan tool seperti TensorRT-LLM berarti kamu akan menghabiskan lebih sedikit waktu debugging dan lebih banyak waktu benar-benar menggunakan Gemma 4.
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


