Google baru saja meluncurkan model AI open source multimodal terbaru mereka, Gemma 3n. Keunggulan utama model ini adalah kemampuannya untuk beroperasi secara lokal di smartphone dengan hanya membutuhkan 2GB memori, memberikan pengalaman aplikasi AI yang mulus bagi para developer. Gemma 3n tidak hanya mendukung input teks, tetapi juga kompatibel dengan pengolahan suara, gambar, dan video, memungkinkan pengguna untuk menikmati fungsi multimodal secara komprehensif di perangkat mobile.
Sebagai bagian dari keluarga model Google Gemma, filosofi pengembangan Gemma 3n secara konsisten menekankan keterbukaan dan kustomisasi. Model utama E4B dan model anak E2B yang diluncurkan secara resmi kini dapat diunduh di platform Hugging Face dan Kaggle. Arsitektur model ini dilatih dengan teknologi “MatFormer”, yang menghasilkan struktur mirip boneka Rusia, di mana E2B berfungsi sebagai versi lebih ringkas dari E4B dan dapat beroperasi secara mandiri.
Model E2B yang dirancang khusus untuk platform bergerak memiliki 5B parameter dan berhasil mengompresi penggunaan memori hingga hanya 2GB. Semua ini berkat desain inovatifnya yang disebut “Per-Layer Embeddings (PLE)”, yang secara signifikan mengurangi beban akses data saat model dijalankan, memungkinkan model dengan kebutuhan memori tinggi untuk berjalan lancar di smartphone.
Perlu dicatat bahwa model E4B dari Gemma 3n memiliki 8B parameter, dan hasil pengujian menunjukkan bahwa konsumsi memori saat beroperasi mirip dengan model konvensional 4B, hanya memerlukan 3GB. Dari segi performa, Gemma 3n E4B bahkan melampaui GPT 4.1-nano, serta mengalahkan model yang lebih besar seperti Llama 4 Maverick 17B-128E dan Phi-4.
Saat ini, Gemma 3n mendukung berbagai lingkungan eksekusi, termasuk Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama, dan MLX. Pengguna juga dapat menginstal aplikasi Galeri AI Edge Google untuk menjalankan secara lokal melalui perangkat mobile seperti Pixel 8 Pro. Selain itu, pengguna dapat menguji fitur obrolan di Google AI Studio.
Google melalui Gemma 3n menunjukkan kemungkinan bahwa model AI tidak lagi dibatasi oleh perangkat keras. Desain yang dapat diunduh secara terbuka dan dengan kebutuhan memori yang rendah ini dapat mendorong masa depan penerapan AI multimodal yang cepat pada ponsel pintar dan perangkat Internet of Things.



