
알리바바 클라우드(Alibaba Cloud)가 27일(현지 시간) 자사 홈페이지를 통해 텍스트, 이미지, 오디오, 비디오를 통합 처리하는 엔드투엔드 멀티모달 AI 모델 'Qwen 2.5-옴니-7B(Qwen2.5-Omni-7B)'를 출시했다고 밝혔다. 이 모델은 7B 파라미터의 컴팩트한 크기에도 불구하고 강력한 멀티모달 기능을 제공해 모바일폰이나 노트북 같은 엣지 디바이스 사용에 최적화되었다.
Qwen 2.5-옴니-7B는 혁신적인 아키텍처를 통해 효율성과 고성능을 실현했다. 텍스트 생성과 음성 합성을 분리하는 씽커-토커 아키텍처(Thinker-Talker Architecture)를 도입하여 서로 다른 모달리티 간의 간섭을 최소화했다. 또한 비디오와 오디오 동기화를 위한 포지션 임베딩 기술인 TMRoPE(Time-aligned Multimodal RoPE)를 적용하고, 블록 단위 스트리밍 처리 방식을 통해 지연 시간이 짧은 실시간 음성 상호작용을 지원한다.
이 모델은 시각 장애인을 위한 실시간 오디오 환경 설명, 비디오 분석을 통한 요리 가이드 제공, 지능형 고객 서비스 등 다양한 실용적 애플리케이션에 활용될 수 있다. 알리바바 클라우드는 Qwen 2.5-옴니-7B를 허깅 페이스(Hugging Face)와 깃허브(GitHub)에 오픈소스로 공개했으며, Qwen Chat과 모델스코프(ModelScope)를 통해서도 접근 가능하다. 알리바바 클라우드는 최근 몇 년간 200개 이상의 생성형 AI 모델을 오픈소스로 공개해왔다.
해당 모델에 대한 자세한 사항은 링크에서 확인할 수 있다.
이미지 출처: 알리바바
기사는 클로드와 챗GPT를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기