Googleは最近、新しいマルチモーダルオープンソースAIモデル「Gemma 3n」を発表しました。このモデルの最大の魅力は、スマートフォン上でわずか2GBのメモリでローカルに動作できる点で、開発者にスムーズなAIアプリケーション体験を提供します。Gemma 3nはテキスト入力だけでなく、音声、画像、動画のデータ処理にも対応しており、ユーザーはモバイルデバイスで完全なマルチモーダル機能を実現することができます。
Google Gemmaモデルファミリーの一部として、Gemma 3nの開発理念は常にオープン性とカスタマイズ性を強調しています。今回正式にリリースされたE4B主モデルとE2B子モデルは、Hugging FaceおよびKaggleプラットフォームでダウンロード可能です。これらのモデルは「MatFormer」技術によって訓練されており、ロシアのマトリョーシカのような構造を実現しています。E2BはE4Bの簡略版として独立して機能することができます。
流動プラットフォーム向けに設計されたE2Bモデルは5Bのパラメータを持ち、メモリ使用量をわずか2GBに圧縮することに成功しました。これは、革新的な「Per-Layer Embeddings(PLE)」設計のおかげで、モデル実行時のデータアクセス負担が大幅に軽減され、高メモリ要求のモデルがスマートフォン上でスムーズに動作できるようになっています。
注目すべきは、Gemma 3nのE4Bモデルが8Bパラメータを搭載していることです。実測結果によると、その実行時メモリ消費は従来の4Bモデルと同程度で、わずか3GBで済みます。性能面では、Gemma 3n E4BはGPT 4.1-nanoを上回り、さらに大容量のLlama 4 Maverick 17B-128EやPhi-4などのモデルも打ち負かしました。
現在、Gemma 3n は複数の実行環境をサポートしており、Hugging Face Transformers、llama.cpp、Google AI Edge、Ollama、MLX などが含まれています。ユーザーは Pixel 8 Pro などのモバイルデバイスを介して Google AI Edge Gallery アプリをインストールし、ローカルで実行することが可能です。また、Google AI Studio でチャット機能をテストすることもできます。
GoogleはGemma 3nを通じて、AIモデルがハードウェアの制約を受けなくなる可能性を示しました。このオープンダウンロードと低メモリ要件の設計は、スマートフォンやIoTデバイスに多様なAIアプリケーションを迅速に導入する未来を推進するかもしれません。



