Gemma 4 di Mac: Performa M1, M2, M3, M4 Diuji

Mac Apple Silicon benar-benar salah satu platform terbaik untuk menjalankan model AI lokal. Arsitektur unified memory berarti GPU dan CPU berbagi kolam RAM yang sama — jadi Mac dengan 32GB memori bisa memuat model yang akan membutuhkan GPU dedicated 32GB di PC.

Saya menguji Gemma 4 di seluruh jajaran Apple Silicon. Berikut persis apa yang bisa kamu harapkan.

Mengapa Mac Bagus untuk AI Lokal

Tiga hal yang membuat Apple Silicon istimewa untuk ini:

Unified memory: Tidak ada penyalinan data antara memori CPU dan GPU. Mac 24GB punya 24GB tersedia untuk model — titik.
Akselerasi Metal: Ollama dan llama.cpp otomatis menggunakan Metal untuk akselerasi GPU. Tidak butuh setup.
Bandwidth memori: Bandwidth memori Apple sangat baik relatif terhadap harga, dan itu bottleneck untuk inferensi LLM.

Tidak ada driver NVIDIA, tidak ada instalasi CUDA, tidak ada kesulitan dengan Docker GPU passthrough. Instal Ollama, jalankan ollama run gemma4, dan akselerasi Metal sudah bekerja.

Performa Per Chip

Berikut yang saya ukur dengan Ollama, menggunakan prompt 512-token dan generasi 256-token:

M1 (2020)

Config	RAM	Model Terbaik	Token/dtk	Dapat Digunakan?
M1 8GB	8 GB	Gemma 4 E2B (Q4)	15-20 tok/dtk	Ya, untuk tugas sederhana
M1 16GB	16 GB	Gemma 4 E4B (Q4)	12-16 tok/dtk	Ya, bagus untuk penggunaan harian
M1 Pro 16GB	16 GB	Gemma 4 E4B (Q4)	18-22 tok/dtk	Ya, nyaman
M1 Max 32GB	32 GB	Gemma 4 26B (Q4)	8-12 tok/dtk	Dapat digunakan, agak lambat
M1 Ultra 64GB	64 GB	Gemma 4 31B (Q4)	10-14 tok/dtk	Ya

Base M1 dengan 8GB ketat. Kamu bisa menjalankan E2B, tapi jangan mengharapkan multitasking banyak saat model dimuat. M1 Pro dan Max jauh lebih baik — lebih banyak core GPU dan bandwidth memori lebih tinggi membuat perbedaan nyata.

M2 (2022)

Config	RAM	Model Terbaik	Token/dtk	Dapat Digunakan?
M2 8GB	8 GB	Gemma 4 E4B (Q4)	14-18 tok/dtk	Ketat tapi berfungsi
M2 16GB	16 GB	Gemma 4 E4B (Q8)	16-20 tok/dtk	Bagus
M2 Pro 16GB	16 GB	Gemma 4 26B (Q4)	10-14 tok/dtk	Ya
M2 Max 32GB	32 GB	Gemma 4 26B (Q4)	14-18 tok/dtk	Mulus
M2 Ultra 64GB	64 GB	Gemma 4 31B (Q8)	12-16 tok/dtk	Sangat bagus

M2 Pro di 16GB adalah sweet spot untuk kebanyakan orang. Kamu bisa menjalankan model 26B MoE dengan nyaman. Ingat, model 26B hanya menggunakan ~3.8B parameter aktif per token — lihat panduan arsitektur kami untuk alasannya.

M3 (2023)

Config	RAM	Model Terbaik	Token/dtk	Dapat Digunakan?
M3 8GB	8 GB	Gemma 4 E4B (Q4)	16-20 tok/dtk	Berfungsi
M3 16GB	16 GB	Gemma 4 E4B (Q8)	18-24 tok/dtk	Bagus
M3 Pro 18GB	18 GB	Gemma 4 26B (Q4)	12-16 tok/dtk	Bagus
M3 Max 36GB	36 GB	Gemma 4 31B (Q4)	14-18 tok/dtk	Mulus
M3 Max 48GB	48 GB	Gemma 4 31B (Q5)	16-20 tok/dtk	Sangat baik

M3 Max dengan 36GB adalah mesin AI yang fantastis. Kamu bisa menjalankan model 31B penuh dengan kuantisasi Q4 dan masih punya ruang untuk aplikasi lain. Varian 48GB memungkinkan kamu menggunakan kuantisasi Q5 kualitas lebih tinggi.

M4 (2024-2025)

Config	RAM	Model Terbaik	Token/dtk	Dapat Digunakan?
M4 16GB	16 GB	Gemma 4 E4B (Q8)	20-26 tok/dtk	Sangat baik
M4 Pro 24GB	24 GB	Gemma 4 26B (Q4)	16-22 tok/dtk	Mulus
M4 Max 36GB	36 GB	Gemma 4 31B (Q4)	18-24 tok/dtk	Luar biasa
M4 Max 64GB	64 GB	Gemma 4 31B (Q8)	20-26 tok/dtk	Pengalaman terbaik

Generasi M4 membawa peningkatan kecepatan yang terlihat. M4 Max dengan 64GB adalah setup impian — jalankan model Gemma 4 kualitas tertinggi pada kecepatan yang terasa interaktif.

Rekomendasi Model Berdasarkan RAM

Referensi cepat jika kamu hanya ingin tahu apa yang dijalankan:

RAM Tersedia	Model Direkomendasikan	Perintah
8 GB	Gemma 4 E2B atau E4B (Q4)	`ollama run gemma4:e4b`
16 GB	Gemma 4 E4B (Q8) atau 26B (Q4)	`ollama run gemma4:26b`
24 GB	Gemma 4 26B (Q4)	`ollama run gemma4:26b`
32 GB+	Gemma 4 31B (Q4)	`ollama run gemma4:31b`
48 GB+	Gemma 4 31B (Q5/Q8)	`ollama run gemma4:31b`

Untuk detail lebih tentang memilih antar model, cek panduan pemilihan model kami.

Mac Mini sebagai Server AI Always-On

Berikut sesuatu yang banyak orang lakukan: menggunakan Mac Mini sebagai server AI dedicated. Ini brilian karena:

Daya rendah: Mac Mini M4 idle di ~5W, jalankan inferensi AI di ~30-40W
Senyap: Tanpa kipas di beban rendah-ke-menengah
Kecil: Muat di mana saja
Terjangkau: Mac Mini M4 dengan 24GB mulai dari $799

Setup:

# Instal Ollama
brew install ollama

# Start Ollama sebagai service (jalan saat boot)
brew services start ollama

# Pull modelmu
ollama pull gemma4:26b

# Ollama sekarang melayani di port 11434
# Akses dari perangkat apa pun di jaringanmu:
# http://mac-mini-ip:11434

Untuk akses dari perangkat lain di jaringanmu, set host:

# Di shell profile-mu (~/.zshrc)
export OLLAMA_HOST=0.0.0.0

# Restart Ollama
brew services restart ollama

Sekarang perangkat apa pun di LAN-mu bisa menggunakan server AI Mac Mini-mu — ponsel, tablet, komputer lain. Taruh web UI seperti Open WebUI di depannya dan kamu punya alternatif ChatGPT privat untuk seluruh rumah tangga.

Tips Optimasi untuk Mac

1. Tutup aplikasi haus memori sebelum menjalankan model besar

Safari, Chrome, dan Xcode bisa memakan gigabyte RAM. Jika kamu ketat di memori, tutup mereka sebelum memuat model.

# Cek memori tersedia
memory_pressure

2. Gunakan kuantisasi yang tepat

Jangan default ke Q8 jika Q4_K_M memberimu 95% kualitas pada setengah memori. Untuk kebanyakan tugas, Q4_K_M adalah sweet spot.

3. Kurangi panjang konteks untuk respons lebih cepat

# Konteks default biasanya 4096-8192
# Jika kamu tidak butuh konteks panjang:
ollama run gemma4:26b --num-ctx 2048

4. Monitor utilisasi GPU

# Pantau penggunaan GPU Metal
sudo powermetrics --samplers gpu_power -i 1000

5. Jaga Ollama tetap ter-update

Peningkatan akselerasi Metal rilis secara teratur. Update dengan brew upgrade ollama.

6. Pertimbangkan menggunakan LM Studio jika kamu lebih suka GUI

LM Studio memberimu antarmuka visual bersih, pengaturan yang bisa disesuaikan, dan berfungsi baik di Mac.

Bagaimana dengan Mac vs. PC untuk Gemma 4?

Perbandingannya bernuansa:

	Mac (Apple Silicon)	PC (GPU NVIDIA)
Kesulitan setup	Mudah (brew + ollama)	Sedang (driver CUDA)
Efisiensi memori	Sangat baik (unified)	Bagus (VRAM dedicated)
Harga per GB	Lebih tinggi	Lebih rendah
Kecepatan murni (harga sama)	Sebanding	Sedikit lebih cepat
Konsumsi daya	Jauh lebih rendah	Lebih tinggi
Kebisingan	Sangat senyap	Tergantung cooling
Dukungan Docker GPU	Tidak dibutuhkan	Butuh NVIDIA toolkit

Untuk kebanyakan pengguna individu, Mac adalah pengalaman yang lebih mudah dan menyenangkan. Untuk server produksi, GPU NVIDIA yang berjalan di Docker dengan vLLM memberi throughput per dolar yang lebih baik.