알리바바가 디지털 휴먼 제작 기술의 새로운 지평을 열 최신 오픈소스 모델 ‘Wan2.2-S2V(Speech-to-Video)’를 공개했다. 이번 모델은 인물 사진 한 장과 음성 파일만으로 영화 수준의 아바타 영상을 구현해 실제 인물이 대화하거나 노래하고 연기하는 듯한 사실감을 제공한다.
‘Wan2.2-S2V’는 알리바바가 올해 선보인 ‘Wan2.2’ 영상 생성 시리즈의 일환으로, 단일 이미지와 음성만으로 고품질 애니메이션 영상을 제작할 수 있다. 얼굴 클로즈업부터 상반신, 전신까지 다양한 구도의 캐릭터 영상을 지원하며, 프롬프트 지시에 따라 동작과 배경 요소를 자동으로 생성해 제작자가 의도하는 스토리와 디자인을 정밀하게 반영할 수 있다.
특히 자연스러운 대화 장면은 물론 음악 공연, 연기 등 다양한 퍼포먼스를 표현할 수 있으며, 한 장면에서 여러 캐릭터를 매끄럽게 구현할 수 있는 점이 특징이다. 음성 녹음을 실제 애니메이션 동작으로 변환하는 기능과 더불어 만화풍, 동물, 스타일화된 캐릭터 등 다양한 아바타 제작에도 활용할 수 있다.
이번 모델은 480P와 720P 해상도를 지원해 전문적·창의적 영상 제작에 적합하다. 이를 통해 소셜미디어 콘텐츠, 프레젠테이션, 영화 및 방송용 영상 등 다양한 분야에서 고품질 결과물을 제공할 수 있다.
‘Wan2.2-S2V’의 가장 큰 혁신은 텍스트 기반의 전체 동작과 음성 기반 세부 움직임을 결합했다는 점이다. 기존 단순 토킹 헤드 애니메이션의 한계를 뛰어넘어 복잡한 상황에서도 자연스럽고 풍부한 캐릭터 동작을 구현한다.
또한 혁신적인 프레임 처리 기술을 적용해, 임의 길이의 이전 프레임들을 압축된 잠재 표현(latent representation)으로 변환함으로써 연산 부담을 크게 줄였다. 이로써 장편 애니메이션 제작의 난제였던 긴 영상 생성의 안정성이 크게 향상됐다.
알리바바 연구팀은 영화 및 방송 제작 환경에 최적화된 대규모 음성·영상 데이터셋을 구축하고 다중 해상도 학습 기법을 적용했다. 이를 통해 모델은 세로형 숏폼 콘텐츠부터 전통적인 가로 영화·TV 영상까지 다양한 형식에 유연하게 대응할 수 있다.
‘Wan2.2-S2V’는 허깅페이스(Hugging Face), 깃허브(GitHub), 알리바바 클라우드 오픈소스 커뮤니티 ‘모델스코프(ModelScope)’에서 다운로드할 수 있다. 알리바바는 이미 2월 ‘Wan2.1’과 7월 ‘Wan2.2’ 모델을 공개한 바 있으며, 현재까지 ‘Wan’ 시리즈는 허깅페이스와 모델스코프에서 690만 회 이상 다운로드되는 성과를 거뒀다.
이번 ‘Wan2.2-S2V’ 공개는 디지털 휴먼 및 생성형 AI 영상 분야에서 글로벌 오픈소스 생태계를 선도하는 알리바바의 위상을 더욱 강화하는 계기가 될 것으로 보인다.
이준문 기자/jun@newstap.co.kr
ⓒ 뉴스탭(https://www.newstap.co.kr) 무단전재 및 재배포금지
[뉴스탭 인기 기사]
· 구글 ‘픽셀 워치 4’ 공식 발표… 위성 비상통화·수리 친화 설계·배터리 25%↑
· 조텍코리아, RTX 5070 Ti 그래픽카드 2종 한정 특가 이벤트 진행
· 캘빈클라인, 배우 나나와 함께한 2025 가을 데님 캠페인 공개
· MSI, AMD 라이젠 Z2 익스트림 기반 휴대용 게임기 ‘클로 A8 BZ2EM’ 8월 22일 국내 출시
· KFC, 인기 점심 메뉴 ‘런치킨 박스’ 9월 말까지 한정 판매