Google은 최근에 새로운 다중 모드 오픈소스 AI 모델인 Gemma 3n을 출시했습니다. 이 모델의 가장 큰 장점은 스마트폰에서 단 2GB의 메모리로도 로컬 실행이 가능하다는 점입니다. 개발자들에게 부드러운 AI 애플리케이션 경험을 제공합니다. Gemma 3n은 텍스트 입력을 지원할 뿐만 아니라, 음성, 이미지 및 비디오 데이터 처리도 호환 가능하여 사용자들이 모바일 장치에서 완벽한 다중 모드 기능을 실현할 수 있게 합니다.
Google Gemma 모델 패밀리의 일환으로, Gemma 3n은 개방성과 커스터마이징을 중시하는 개발 철학을 가지고 있습니다. 이번에 정식 출시된 E4B 주 모델과 E2B 하위 모델은 Hugging Face와 Kaggle 플랫폼에서 다운로드할 수 있습니다. 이 모델들은 ‘MatFormer’ 기술을 통해 훈련되었으며, 러시아 인형처럼 다양한 구조를 실현했습니다. E2B는 E4B의 간소화된 복사본으로, 독립적으로 실행이 가능합니다.
모바일 플랫폼을 위해 설계된 E2B 모델은 5B 매개변수를 보유하고 있으며, 메모리 사용량을 단 2GB로 압축하는 데 성공했습니다. 이는 혁신적인 “Per-Layer Embeddings(PLE)” 디자인 덕분으로, 모델 실행 시 데이터 접근 부담을 크게 줄여 메모리가 많이 필요한 모델이 스마트폰에서도 매끄럽게 작동할 수 있게 했습니다.
주목할 만한 점은, Gemma 3n의 E4B 모델이 8B 파라미터를 가지고 있으며, 실제 측정 결과 운영 중 메모리 소모가 전통적인 4B 모델과 비슷하고 단 3GB만 필요하다는 것이다. 성능 면에서 Gemma 3n E4B는 GPT 4.1-nano를 초월했으며, 더 큰 Llama 4 Maverick 17B-128E와 Phi-4 같은 모델도 제쳤다.
현재 Gemma 3n은 Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama, MLX 등 여러 실행 환경을 지원합니다. 사용자는 Pixel 8 Pro와 같은 모바일 장치를 통해 구글 AI 엣지 갤러리 애플리케이션을 설치하여 로컬에서 실행할 수 있습니다. 또한, 사용자는 Google AI Studio에서 채팅 기능을 테스트할 수 있습니다.
Google은 Gemma 3n을 통해 AI 모델이 더 이상 하드웨어에 제한받지 않는 가능성을 보여주었습니다. 다운로드가 가능하고 낮은 메모리 요구 사항을 가진 이 디자인은 스마트폰과 IoT 기기가 다중 모드 AI 애플리케이션을 빠르게 도입하는 미래를 촉진할 수 있습니다.



