중국 빅테크(Big Tech) 기업 알리바바(Alibaba)의 AI 연구팀 'Qwen 팀'이 텍스트, 음성, 이미지, 영상을 단일 계산 파이프라인(pipeline) 내에서 동시에 처리하는 멀티모달(multimodal) AI 모델 'Qwen 3.5 Omni'를 공개했다. 마크테크포스트(MarkTechPost)에 따르면, 이 모델은 2026년 3월 30일 정식 공개됐으며 36개 언어로 실시간 음성 합성(TTS, Text-to-Speech)을 지원한다.
Qwen 3.5 Omni의 가장 두드러진 기술적 특징은 통합 멀티모달 처리 능력이다. 기존 AI 모델이 텍스트, 음성, 이미지 등 입력 형식별로 별도 처리 모듈을 사용하는 것과 달리, 이 모델은 모든 형태의 입력을 단일 파이프라인 내에서 통합적으로 처리한다. 자동 음성 인식(ASR, Automatic Speech Recognition) 분야에서는 113개 언어 및 방언을 지원하며, 음성 합성은 36개 언어에서 구현된다. 또한 동적 ARIA 정렬(alignment) 방식을 통해 고정 비율의 텍스트-오디오 토크나이저(tokenizer) 방식을 대체했으며, 컨텍스트 윈도(context window)는 기존 32K에서 256K로 8배 확장됐다.
음성 복제(voice cloning) 기능도 탑재됐다. 사용자가 짧은 음성 샘플을 업로드하면 모델이 해당 목소리를 학습해 응답에 적용하며, 의미 기반 끊기 인식(semantic interruption)도 지원한다. 특히 '오디오-비주얼 바이브 코딩(Audio-Visual Vibe Coding)' 기능은 사용자가 화면 녹화나 작업 영상을 올리면 그 내용을 보고 들으며 기능하는 코드를 자동으로 생성해 주는 독창적인 기능이다. 이 외에도 텍스트 입력 기반 음성 대화와 이미지 기반 음성 응답을 동시에 처리하는 멀티턴(multi-turn) 대화 기능도 지원한다.
Qwen 3.5 Omni는 오픈소스(open-source) 형태로 허깅페이스(Hugging Face)를 통해 공개돼 있으며, 스마트폰이나 노트북과 같은 소비자용 하드웨어에서도 구동 가능한 경량 모델도 포함돼 있다. 알리바바의 이번 출시는 중국 AI 기업들이 오픈소스 멀티모달 AI 경쟁에서 글로벌 주도권을 확보하려는 전략의 일환으로 풀이된다. Qwen 팀은 이번 모델이 텍스트 기반 대화 품질과 음성·영상 처리 능력을 동시에 극대화한 것으로, 향후 교육, 의료, 고객 서비스 등 다양한 분야에서 복합 모달 AI 활용이 확산될 것으로 전망했다.
자세한 내용은 마크테크포스트(MarkTechPost)에서 확인할 수 있다.
이미지 출처: 이디오그램 생성
AI Matters 뉴스레터 구독하기








