0% read

Gemma 4 di Mac: Performa M1, M2, M3, M4 Diuji

Apr 7, 2026

Mac Apple Silicon benar-benar salah satu platform terbaik untuk menjalankan model AI lokal. Arsitektur unified memory berarti GPU dan CPU berbagi kolam RAM yang sama — jadi Mac dengan 32GB memori bisa memuat model yang akan membutuhkan GPU dedicated 32GB di PC.

Saya menguji Gemma 4 di seluruh jajaran Apple Silicon. Berikut persis apa yang bisa kamu harapkan.

Mengapa Mac Bagus untuk AI Lokal

Tiga hal yang membuat Apple Silicon istimewa untuk ini:

  1. Unified memory: Tidak ada penyalinan data antara memori CPU dan GPU. Mac 24GB punya 24GB tersedia untuk model — titik.
  2. Akselerasi Metal: Ollama dan llama.cpp otomatis menggunakan Metal untuk akselerasi GPU. Tidak butuh setup.
  3. Bandwidth memori: Bandwidth memori Apple sangat baik relatif terhadap harga, dan itu bottleneck untuk inferensi LLM.

Tidak ada driver NVIDIA, tidak ada instalasi CUDA, tidak ada kesulitan dengan Docker GPU passthrough. Instal Ollama, jalankan ollama run gemma4, dan akselerasi Metal sudah bekerja.

Performa Per Chip

Berikut yang saya ukur dengan Ollama, menggunakan prompt 512-token dan generasi 256-token:

M1 (2020)

ConfigRAMModel TerbaikToken/dtkDapat Digunakan?
M1 8GB8 GBGemma 4 E2B (Q4)15-20 tok/dtkYa, untuk tugas sederhana
M1 16GB16 GBGemma 4 E4B (Q4)12-16 tok/dtkYa, bagus untuk penggunaan harian
M1 Pro 16GB16 GBGemma 4 E4B (Q4)18-22 tok/dtkYa, nyaman
M1 Max 32GB32 GBGemma 4 26B (Q4)8-12 tok/dtkDapat digunakan, agak lambat
M1 Ultra 64GB64 GBGemma 4 31B (Q4)10-14 tok/dtkYa

Base M1 dengan 8GB ketat. Kamu bisa menjalankan E2B, tapi jangan mengharapkan multitasking banyak saat model dimuat. M1 Pro dan Max jauh lebih baik — lebih banyak core GPU dan bandwidth memori lebih tinggi membuat perbedaan nyata.

M2 (2022)

ConfigRAMModel TerbaikToken/dtkDapat Digunakan?
M2 8GB8 GBGemma 4 E4B (Q4)14-18 tok/dtkKetat tapi berfungsi
M2 16GB16 GBGemma 4 E4B (Q8)16-20 tok/dtkBagus
M2 Pro 16GB16 GBGemma 4 26B (Q4)10-14 tok/dtkYa
M2 Max 32GB32 GBGemma 4 26B (Q4)14-18 tok/dtkMulus
M2 Ultra 64GB64 GBGemma 4 31B (Q8)12-16 tok/dtkSangat bagus

M2 Pro di 16GB adalah sweet spot untuk kebanyakan orang. Kamu bisa menjalankan model 26B MoE dengan nyaman. Ingat, model 26B hanya menggunakan ~3.8B parameter aktif per token — lihat panduan arsitektur kami untuk alasannya.

M3 (2023)

ConfigRAMModel TerbaikToken/dtkDapat Digunakan?
M3 8GB8 GBGemma 4 E4B (Q4)16-20 tok/dtkBerfungsi
M3 16GB16 GBGemma 4 E4B (Q8)18-24 tok/dtkBagus
M3 Pro 18GB18 GBGemma 4 26B (Q4)12-16 tok/dtkBagus
M3 Max 36GB36 GBGemma 4 31B (Q4)14-18 tok/dtkMulus
M3 Max 48GB48 GBGemma 4 31B (Q5)16-20 tok/dtkSangat baik

M3 Max dengan 36GB adalah mesin AI yang fantastis. Kamu bisa menjalankan model 31B penuh dengan kuantisasi Q4 dan masih punya ruang untuk aplikasi lain. Varian 48GB memungkinkan kamu menggunakan kuantisasi Q5 kualitas lebih tinggi.

M4 (2024-2025)

ConfigRAMModel TerbaikToken/dtkDapat Digunakan?
M4 16GB16 GBGemma 4 E4B (Q8)20-26 tok/dtkSangat baik
M4 Pro 24GB24 GBGemma 4 26B (Q4)16-22 tok/dtkMulus
M4 Max 36GB36 GBGemma 4 31B (Q4)18-24 tok/dtkLuar biasa
M4 Max 64GB64 GBGemma 4 31B (Q8)20-26 tok/dtkPengalaman terbaik

Generasi M4 membawa peningkatan kecepatan yang terlihat. M4 Max dengan 64GB adalah setup impian — jalankan model Gemma 4 kualitas tertinggi pada kecepatan yang terasa interaktif.

Rekomendasi Model Berdasarkan RAM

Referensi cepat jika kamu hanya ingin tahu apa yang dijalankan:

RAM TersediaModel DirekomendasikanPerintah
8 GBGemma 4 E2B atau E4B (Q4)ollama run gemma4:e4b
16 GBGemma 4 E4B (Q8) atau 26B (Q4)ollama run gemma4:26b
24 GBGemma 4 26B (Q4)ollama run gemma4:26b
32 GB+Gemma 4 31B (Q4)ollama run gemma4:31b
48 GB+Gemma 4 31B (Q5/Q8)ollama run gemma4:31b

Untuk detail lebih tentang memilih antar model, cek panduan pemilihan model kami.

Mac Mini sebagai Server AI Always-On

Berikut sesuatu yang banyak orang lakukan: menggunakan Mac Mini sebagai server AI dedicated. Ini brilian karena:

  • Daya rendah: Mac Mini M4 idle di ~5W, jalankan inferensi AI di ~30-40W
  • Senyap: Tanpa kipas di beban rendah-ke-menengah
  • Kecil: Muat di mana saja
  • Terjangkau: Mac Mini M4 dengan 24GB mulai dari $799

Setup:

# Instal Ollama
brew install ollama

# Start Ollama sebagai service (jalan saat boot)
brew services start ollama

# Pull modelmu
ollama pull gemma4:26b

# Ollama sekarang melayani di port 11434
# Akses dari perangkat apa pun di jaringanmu:
# http://mac-mini-ip:11434

Untuk akses dari perangkat lain di jaringanmu, set host:

# Di shell profile-mu (~/.zshrc)
export OLLAMA_HOST=0.0.0.0

# Restart Ollama
brew services restart ollama

Sekarang perangkat apa pun di LAN-mu bisa menggunakan server AI Mac Mini-mu — ponsel, tablet, komputer lain. Taruh web UI seperti Open WebUI di depannya dan kamu punya alternatif ChatGPT privat untuk seluruh rumah tangga.

Tips Optimasi untuk Mac

1. Tutup aplikasi haus memori sebelum menjalankan model besar

Safari, Chrome, dan Xcode bisa memakan gigabyte RAM. Jika kamu ketat di memori, tutup mereka sebelum memuat model.

# Cek memori tersedia
memory_pressure

2. Gunakan kuantisasi yang tepat

Jangan default ke Q8 jika Q4_K_M memberimu 95% kualitas pada setengah memori. Untuk kebanyakan tugas, Q4_K_M adalah sweet spot.

3. Kurangi panjang konteks untuk respons lebih cepat

# Konteks default biasanya 4096-8192
# Jika kamu tidak butuh konteks panjang:
ollama run gemma4:26b --num-ctx 2048

4. Monitor utilisasi GPU

# Pantau penggunaan GPU Metal
sudo powermetrics --samplers gpu_power -i 1000

5. Jaga Ollama tetap ter-update

Peningkatan akselerasi Metal rilis secara teratur. Update dengan brew upgrade ollama.

6. Pertimbangkan menggunakan LM Studio jika kamu lebih suka GUI

LM Studio memberimu antarmuka visual bersih, pengaturan yang bisa disesuaikan, dan berfungsi baik di Mac.

Bagaimana dengan Mac vs. PC untuk Gemma 4?

Perbandingannya bernuansa:

Mac (Apple Silicon)PC (GPU NVIDIA)
Kesulitan setupMudah (brew + ollama)Sedang (driver CUDA)
Efisiensi memoriSangat baik (unified)Bagus (VRAM dedicated)
Harga per GBLebih tinggiLebih rendah
Kecepatan murni (harga sama)SebandingSedikit lebih cepat
Konsumsi dayaJauh lebih rendahLebih tinggi
KebisinganSangat senyapTergantung cooling
Dukungan Docker GPUTidak dibutuhkanButuh NVIDIA toolkit

Untuk kebanyakan pengguna individu, Mac adalah pengalaman yang lebih mudah dan menyenangkan. Untuk server produksi, GPU NVIDIA yang berjalan di Docker dengan vLLM memberi throughput per dolar yang lebih baik.

Langkah Selanjutnya

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

Gemma 4 di Mac: Performa M1, M2, M3, M4 Diuji | Blog