0% read

Cara Menjalankan Gemma 4 di NVIDIA RTX (Setup CUDA & Optimasi)

Apr 7, 2026

GPU NVIDIA adalah jalan termudah untuk menjalankan Gemma 4 secara lokal. Entah kamu punya RTX 3060 budget atau RTX 4090 beefy, ekosistem CUDA membuat setup-nya langsung. Panduan ini mencakup semuanya dari kebutuhan driver hingga optimasi TensorRT-LLM lanjutan.

Kebutuhan Driver CUDA

Sebelum apa pun, pastikan driver NVIDIA dan CUDA toolkit-mu up to date:

KomponenVersi MinimumDirekomendasikan
NVIDIA Driver535+560+
CUDA Toolkit12.112.4+
cuDNN8.99.0+
Python3.103.11+

Cek setup saat ini:

# Cek versi driver
nvidia-smi

# Cek versi CUDA
nvcc --version

# Jika nvcc tidak ditemukan, CUDA toolkit mungkin tidak ada di PATH
export PATH=/usr/local/cuda/bin:$PATH

Mengupdate Driver

Di Linux:

# Ubuntu/Debian
sudo apt update
sudo apt install nvidia-driver-560
sudo reboot

Di Windows, unduh driver terbaru dari nvidia.com/drivers atau gunakan GeForce Experience.

Cara Termudah: Ollama

Ollama auto-detect GPU NVIDIA dan menangani semuanya untukmu. Tidak butuh instalasi CUDA toolkit — Ollama membundel miliknya sendiri:

# Instal Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Jalankan Gemma 4
ollama run gemma4:12b

# Verifikasi GPU sedang digunakan
ollama ps
# Harusnya menampilkan "GPU" di kolom processor

Itu saja. Ollama mendeteksi GPU NVIDIA-mu, memuat model ke VRAM, dan mulai menghasilkan. Untuk kebanyakan user, ini yang kamu butuhkan.

Pengaturan GPU Offloading

Saat modelmu tidak sepenuhnya muat di VRAM, kamu bisa membaginya antara GPU dan CPU. Ini disebut partial offloading:

# Ollama: kontrol berapa layer masuk ke GPU
OLLAMA_NUM_GPU=35 ollama run gemma4:12b

# llama.cpp: tentukan layer GPU
./llama-server -m gemma-4-12b-Q4_K_M.gguf -ngl 35

# Set ke 0 untuk CPU-only, atau 999 untuk GPU penuh

Sweet spot tergantung VRAM-mu. Aturan umum:

VRAMLayer Direkomendasikan (12B Q4)Artinya
6GB15-20~50% di GPU
8GB25-30~75% di GPU
12GB35-40~95% di GPU
16GB+999 (semua)Sepenuhnya terakselerasi GPU
24GB+999 (semua)Ruang untuk konteks lebih panjang

Perbandingan Performa RTX

Berikut yang bisa diharapkan untuk kecepatan inferensi Gemma 4 12B di berbagai kartu RTX:

GPUVRAMQ4_K_M (tok/dtk)Q8_0 (tok/dtk)FP16 (tok/dtk)Catatan
RTX 306012GB~25~15OOMPilihan budget bagus
RTX 3060 Ti8GB~20*OOMOOM*Partial offload
RTX 30708GB~22*OOMOOM*Partial offload
RTX 309024GB~40~25~12Masih sangat baik
RTX 40608GB~28*OOMOOM*Partial offload
RTX 4070 Ti12GB~38~22OOMMid-range bagus
RTX 408016GB~50~30OOMPerformer kuat
RTX 409024GB~65~40~20Raja konsumer

OOM = Out of Memory di level kuantisasi tersebut

RTX 3060 12GB jujur adalah pilihan value terbaik — 12GB VRAM dengan harga jauh lebih murah dari 4090, dan menjalankan model Q4 pada kecepatan yang sempurna untuk digunakan.

Dukungan NVIDIA Jetson Orin

Gemma 4 berjalan di platform Jetson NVIDIA, memungkinkan deployment di perangkat edge:

# Di Jetson Orin (JetPack 6.x)
# Instal Ollama ARM64 build
curl -fsSL https://ollama.com/install.sh | sh

# Jalankan model lebih kecil
ollama run gemma4:4b

# Model 1B terbaik untuk Jetson Orin Nano
ollama run gemma4:1b
Model JetsonRAMModel Gemma 4 TerbaikKasus Penggunaan
Orin Nano 8GB8GB1B atau 4B Q4Asisten AI embedded
Orin NX 16GB16GB4B atau 12B Q4Inferensi edge
AGX Orin 64GB64GB12B FP16 atau 27B Q4AI edge berfitur lengkap

DGX Spark

DGX Spark dari NVIDIA adalah workstation AI desktop dengan 128GB unified memory — menjalankan Gemma 4 27B penuh di FP16 tanpa kesulitan:

# Di DGX Spark, jalankan model 27B penuh
ollama run gemma4:27b

# Atau jalankan dengan presisi penuh
python -m vllm.entrypoints.openai.api_server \
  --model google/gemma-4-27b-it \
  --dtype float16 \
  --max-model-len 32768

Optimasi TensorRT-LLM

Untuk throughput maksimum di hardware NVIDIA, TensorRT-LLM mengompilasi model spesifik untuk GPU-mu:

# Instal TensorRT-LLM
pip install tensorrt-llm

# Konversi dan optimalkan model
python convert_checkpoint.py \
  --model_dir google/gemma-4-12b-it \
  --output_dir ./gemma4-trt \
  --dtype float16

# Build TensorRT engine
trtllm-build \
  --checkpoint_dir ./gemma4-trt \
  --output_dir ./gemma4-engine \
  --max_batch_size 4 \
  --max_input_len 4096 \
  --max_seq_len 8192

# Jalankan inferensi
python run.py --engine_dir ./gemma4-engine --max_output_len 512

TensorRT-LLM biasanya memberikan peningkatan throughput 2-3x atas PyTorch vanilla, tapi proses build-nya memakan 10-30 menit dan engine-nya terkunci ke model GPU spesifikmu.

Flash Attention

Pastikan Flash Attention diaktifkan untuk efisiensi memori dan kecepatan lebih baik:

# Instal Flash Attention 2
pip install flash-attn --no-build-isolation

# Verifikasi sedang digunakan (di Python)
python -c "import flash_attn; print(flash_attn.__version__)"

Sebagian besar framework (vLLM, SGLang, transformers) otomatis menggunakan Flash Attention saat tersedia. Ia mengurangi penggunaan VRAM dan meningkatkan kecepatan, terutama di panjang konteks yang lebih panjang.

Langkah Selanjutnya

GPU NVIDIA tetap menjadi standar emas untuk AI lokal. Kombinasi driver matang, dukungan framework luas, dan tool seperti TensorRT-LLM berarti kamu akan menghabiskan lebih sedikit waktu debugging dan lebih banyak waktu benar-benar menggunakan Gemma 4.

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

Cara Menjalankan Gemma 4 di NVIDIA RTX (Setup CUDA & Optimasi) | Blog