Cara Menjalankan Gemma 4 di NVIDIA RTX (Setup CUDA & Optimasi)

GPU NVIDIA adalah jalan termudah untuk menjalankan Gemma 4 secara lokal. Entah kamu punya RTX 3060 budget atau RTX 4090 beefy, ekosistem CUDA membuat setup-nya langsung. Panduan ini mencakup semuanya dari kebutuhan driver hingga optimasi TensorRT-LLM lanjutan.

Kebutuhan Driver CUDA

Sebelum apa pun, pastikan driver NVIDIA dan CUDA toolkit-mu up to date:

Komponen	Versi Minimum	Direkomendasikan
NVIDIA Driver	535+	560+
CUDA Toolkit	12.1	12.4+
cuDNN	8.9	9.0+
Python	3.10	3.11+

Cek setup saat ini:

# Cek versi driver
nvidia-smi

# Cek versi CUDA
nvcc --version

# Jika nvcc tidak ditemukan, CUDA toolkit mungkin tidak ada di PATH
export PATH=/usr/local/cuda/bin:$PATH

Mengupdate Driver

Di Linux:

# Ubuntu/Debian
sudo apt update
sudo apt install nvidia-driver-560
sudo reboot

Di Windows, unduh driver terbaru dari nvidia.com/drivers atau gunakan GeForce Experience.

Cara Termudah: Ollama

Ollama auto-detect GPU NVIDIA dan menangani semuanya untukmu. Tidak butuh instalasi CUDA toolkit — Ollama membundel miliknya sendiri:

# Instal Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Jalankan Gemma 4
ollama run gemma4:12b

# Verifikasi GPU sedang digunakan
ollama ps
# Harusnya menampilkan "GPU" di kolom processor

Itu saja. Ollama mendeteksi GPU NVIDIA-mu, memuat model ke VRAM, dan mulai menghasilkan. Untuk kebanyakan user, ini yang kamu butuhkan.

Pengaturan GPU Offloading

Saat modelmu tidak sepenuhnya muat di VRAM, kamu bisa membaginya antara GPU dan CPU. Ini disebut partial offloading:

# Ollama: kontrol berapa layer masuk ke GPU
OLLAMA_NUM_GPU=35 ollama run gemma4:12b

# llama.cpp: tentukan layer GPU
./llama-server -m gemma-4-12b-Q4_K_M.gguf -ngl 35

# Set ke 0 untuk CPU-only, atau 999 untuk GPU penuh

Sweet spot tergantung VRAM-mu. Aturan umum:

VRAM	Layer Direkomendasikan (12B Q4)	Artinya
6GB	15-20	~50% di GPU
8GB	25-30	~75% di GPU
12GB	35-40	~95% di GPU
16GB+	999 (semua)	Sepenuhnya terakselerasi GPU
24GB+	999 (semua)	Ruang untuk konteks lebih panjang

Perbandingan Performa RTX

Berikut yang bisa diharapkan untuk kecepatan inferensi Gemma 4 12B di berbagai kartu RTX:

GPU	VRAM	Q4_K_M (tok/dtk)	Q8_0 (tok/dtk)	FP16 (tok/dtk)	Catatan
RTX 3060	12GB	~25	~15	OOM	Pilihan budget bagus
RTX 3060 Ti	8GB	~20*	OOM	OOM	*Partial offload
RTX 3070	8GB	~22*	OOM	OOM	*Partial offload
RTX 3090	24GB	~40	~25	~12	Masih sangat baik
RTX 4060	8GB	~28*	OOM	OOM	*Partial offload
RTX 4070 Ti	12GB	~38	~22	OOM	Mid-range bagus
RTX 4080	16GB	~50	~30	OOM	Performer kuat
RTX 4090	24GB	~65	~40	~20	Raja konsumer

OOM = Out of Memory di level kuantisasi tersebut

RTX 3060 12GB jujur adalah pilihan value terbaik — 12GB VRAM dengan harga jauh lebih murah dari 4090, dan menjalankan model Q4 pada kecepatan yang sempurna untuk digunakan.

Dukungan NVIDIA Jetson Orin

Gemma 4 berjalan di platform Jetson NVIDIA, memungkinkan deployment di perangkat edge:

# Di Jetson Orin (JetPack 6.x)
# Instal Ollama ARM64 build
curl -fsSL https://ollama.com/install.sh | sh

# Jalankan model lebih kecil
ollama run gemma4:4b

# Model 1B terbaik untuk Jetson Orin Nano
ollama run gemma4:1b

Model Jetson	RAM	Model Gemma 4 Terbaik	Kasus Penggunaan
Orin Nano 8GB	8GB	1B atau 4B Q4	Asisten AI embedded
Orin NX 16GB	16GB	4B atau 12B Q4	Inferensi edge
AGX Orin 64GB	64GB	12B FP16 atau 27B Q4	AI edge berfitur lengkap

DGX Spark

DGX Spark dari NVIDIA adalah workstation AI desktop dengan 128GB unified memory — menjalankan Gemma 4 27B penuh di FP16 tanpa kesulitan:

# Di DGX Spark, jalankan model 27B penuh
ollama run gemma4:27b

# Atau jalankan dengan presisi penuh
python -m vllm.entrypoints.openai.api_server \
  --model google/gemma-4-27b-it \
  --dtype float16 \
  --max-model-len 32768

Optimasi TensorRT-LLM

Untuk throughput maksimum di hardware NVIDIA, TensorRT-LLM mengompilasi model spesifik untuk GPU-mu:

# Instal TensorRT-LLM
pip install tensorrt-llm

# Konversi dan optimalkan model
python convert_checkpoint.py \
  --model_dir google/gemma-4-12b-it \
  --output_dir ./gemma4-trt \
  --dtype float16

# Build TensorRT engine
trtllm-build \
  --checkpoint_dir ./gemma4-trt \
  --output_dir ./gemma4-engine \
  --max_batch_size 4 \
  --max_input_len 4096 \
  --max_seq_len 8192

# Jalankan inferensi
python run.py --engine_dir ./gemma4-engine --max_output_len 512

TensorRT-LLM biasanya memberikan peningkatan throughput 2-3x atas PyTorch vanilla, tapi proses build-nya memakan 10-30 menit dan engine-nya terkunci ke model GPU spesifikmu.

Flash Attention

Pastikan Flash Attention diaktifkan untuk efisiensi memori dan kecepatan lebih baik:

# Instal Flash Attention 2
pip install flash-attn --no-build-isolation

# Verifikasi sedang digunakan (di Python)
python -c "import flash_attn; print(flash_attn.__version__)"

Sebagian besar framework (vLLM, SGLang, transformers) otomatis menggunakan Flash Attention saat tersedia. Ia mengurangi penggunaan VRAM dan meningkatkan kecepatan, terutama di panjang konteks yang lebih panjang.

Langkah Selanjutnya

Butuh saran beli hardware? Cek Panduan Kebutuhan Hardware untuk rekomendasi detail berdasarkan budget
Mengalami error? Panduan Troubleshooting mencakup masalah spesifik CUDA seperti ketidakcocokan driver dan error OOM
Ingin coba Ollama dulu? Ikuti Panduan Setup Ollama kami untuk jalan paling sederhana menjalankan Gemma 4

GPU NVIDIA tetap menjadi standar emas untuk AI lokal. Kombinasi driver matang, dukungan framework luas, dan tool seperti TensorRT-LLM berarti kamu akan menghabiskan lebih sedikit waktu debugging dan lebih banyak waktu benar-benar menggunakan Gemma 4.

gemma4 — interact