Googleは最近、新しいマルチモーダルオープンソースAIモデル「Gemma 3n」を発表しました。このモデルの最大の特徴は、スマートフォン上でわずか2GBのメモリでローカルに動作でき、開発者にスムーズなAIアプリケーション体験を提供することです。Gemma 3nはテキスト入力だけでなく、音声、画像、動画データの処理にも対応しており、ユーザーはモバイルデバイス上で完全なマルチモーダル機能を実現できます。
Google Gemma モデルファミリーの一部として、Gemma 3n の開発理念は一貫してオープン性とカスタマイズ性を重視しています。この度正式に発表された E4B 主モデルと E2B 子モデルは、Hugging Face および Kaggle プラットフォームでダウンロード可能です。これらのモデルは「MatFormer」技術を用いて構築されており、ロシアの入れ子人形のような構造を実現しています。その中で、E2B は E4B の簡易版として独立して機能します。
流動プラットフォーム向けに設計されたE2Bモデルは、5Bのパラメータを持ち、メモリ使用量をわずか2GBに圧縮することに成功しました。これは、革新的な「Per-Layer Embeddings(PLE)」設計のおかげで、モデル実行中のデータアクセスの負担が大幅に軽減され、高いメモリを必要とするモデルがスマートフォン上でスムーズに動作することを可能にしています。
注目すべきは、Gemma 3n の E4B モデルが 80 億パラメータを持ちながら、実際の運用時に必要なメモリ消費が従来の 40 億モデルと同等の 3GB に抑えられている点です。性能面では、Gemma 3n E4B は GPT 4.1-nano を上回り、さらに Llama 4 Maverick 17B-128E や Phi-4 など、より大きなモデルをも打ち負かしています。
現在、Gemma 3n は複数の実行環境をサポートしています。Hugging Face Transformers、llama.cpp、Google AI Edge、Ollama、MLX などが含まれます。ユーザーは Pixel 8 Pro などのモバイルデバイスに Google AI Edge Gallery アプリをインストールして、ローカル環境で実行することも可能です。また、ユーザーは Google AI Studio でチャット機能を試すことができます。
GoogleはGemma 3nを通じて、AIモデルがもはやハードウェアの制約を受けない可能性を示しました。このダウンロード可能で、メモリ要件が低い設計は、スマートフォンやIoTデバイスにおける多モーダルAIアプリケーションの急速な導入を推动することになるでしょう。



