Google이 최근에 새로운 다중 모드 오픈 소스 AI 모델인 Gemma 3n을 출시했습니다. 이 모델의 가장 큰 장점은 스마트폰에서 단 2GB의 메모리로 로컬에서 실행할 수 있어 개발자들에게 매끄러운 AI 애플리케이션 경험을 제공한다는 점입니다. Gemma 3n은 텍스트 입력을 지원할 뿐만 아니라 음성, 이미지 및 비디오 데이터 처리도 호환되어 사용자가 이동 기기에서 완전한 다중 모드 기능을 실현할 수 있게 합니다.
Google Gemma 모델 가족의 일환으로, Gemma 3n의 개발 이념은 개방성과 맞춤성을 강조합니다. 이번에 정식 출시된 E4B 주 모델과 E2B 하위 모델은 Hugging Face와 Kaggle 플랫폼에서 다운로드할 수 있습니다. 이 모델들의 구조는 “MatFormer” 기술로 훈련되어, 러시아 인형과 같은 구조를 구현하였으며, E2B는 E4B의 간소화된 복제본으로 독립적으로 실행할 수 있습니다.
모바일 플랫폼을 위해 설계된 E2B 모델은 5B 파라미터를 가지고 있으며, 메모리 사용량을 단 2GB로 압축하는 데 성공했습니다. 이는 혁신적인 “Per-Layer Embeddings (PLE)” 디자인 덕분이며, 모델 실행 시 데이터 접근 부담을 크게 줄여 고메모리 요구 모델이 스마트폰에서 원활하게 운영될 수 있도록 합니다.
흥미로운 점은 Gemma 3n의 E4B 모델이 8B 파라미터를 갖고 있으며, 실제 측정한 결과 운영 시 메모리 소모가 전통적인 4B 모델과 비슷하게 단 3GB에 불과하다는 것입니다. 성능 측면에서 Gemma 3n E4B는 GPT 4.1-nano를 초월했으며, 더 큰 Llama 4 Maverick 17B-128E와 Phi-4 모델을 능가했습니다.
현재 Gemma 3n은 Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama 및 MLX 등 여러 실행 환경을 지원하며, 사용자는 Pixel 8 Pro 같은 모바일 장치를 통해 구글 AI 엣지 갤러리 애플리케이션을 설치하여 로컬에서 실행할 수 있습니다. 또한, 사용자들은 Google AI Studio에서 채팅 기능을 테스트할 수 있습니다.
Google은 Gemma 3n을 통해 AI 모델이 더 이상 하드웨어 제약을 받지 않는 가능성을 보여주었습니다. 이 오픈 다운로드와 낮은 메모리 요구 사항의 설계는 스마트폰과 사물인터넷 장치가 멀티모달 AI 애플리케이션을 신속하게 도입하는 미래를 촉진할 것으로 예상됩니다.


