인공지능 오디오 연구개발 전문 스타트업 일레븐랩스(ElevenLabs)가 영상 및 오디오 콘텐츠의 번역과 더빙을 보다 자연스럽게 구현하는 신규 AI 더빙 모델 ‘더빙 v2(Dubbing v2)’를 발표했다.
이번에 공개된 더빙 v2는 기존 AI 더빙이 텍스트 스크립트에만 의존해 단조롭고 끊기는 오디오를 생성하던 한계를 개선한 모델이다. 특히 원본 음성에 담긴 감정, 톤, 억양, 말의 간격, 전달 방식 등 화자의 실제 퍼포먼스를 분석해 다국어 음성에 반영하는 점이 특징이다. 이를 통해 단순 번역을 넘어 보다 자연스럽고 몰입감 있는 다국어 더빙 경험을 제공한다.
K-콘텐츠 글로벌 확장 겨냥
대한민국은 드라마, 영화, K-팝, 웹툰·웹소설 기반 IP, 게임, 애니메이션, VTuber 및 크리에이터 영상 등 전 세계 시청자를 겨냥할 수 있는 콘텐츠 자산을 보유하고 있다. 그러나 기존 글로벌 진출 과정에서는 번역, 대본 작성, 성우 녹음, 오디오 편집, 타이밍 조정 등 복잡한 제작 공정과 비용이 필요했다.
일레븐랩스는 더빙 v2가 한국어 원본 콘텐츠의 화자나 캐릭터가 가진 감정 표현과 목소리의 개성을 최대한 살리면서 영어를 비롯한 90개 이상의 언어로 확장할 수 있도록 지원한다고 설명했다. 이에 따라 국내 콘텐츠 기업과 크리에이터가 보유한 IP의 해외 전개에도 활용될 수 있을 것으로 보인다.
더빙 v2의 핵심은 원본 음성의 감정과 톤, 연기적 표현을 보존하는 데 있다. 원본 화자의 고유한 감정, 억양, 말의 간격을 반영해 다국어 음성을 생성함으로써 화자의 의도와 콘텐츠의 분위기를 다른 언어권 시청자에게 전달하도록 설계됐다.
번역 방식도 단어를 직역하는 데 머무르지 않는다. 목표 언어의 문맥에서 자연스럽게 들리는 표현으로 번역과 조정을 수행해 시청자의 몰입감을 높이는 방식이다. 또한 번역 후 생성된 음성이 원본 음성의 시작과 종료 타이밍에 맞춰 자연스럽게 정렬되도록 설계됐다. 이는 영상 자체를 조작하거나 립싱크를 강제 생성하는 방식이 아니라 발화 타이밍을 매끄럽게 맞춰 영상 시청 시 어색함을 줄이는 구조다.
자동 보이스 클로닝 기능도 제공된다. 더빙 v2는 원본 화자의 음색, 피치, 톤을 자동으로 반영해 별도의 수동 클로닝 과정 없이도 화자 고유의 개성을 살린 다국어 더빙을 생성할 수 있도록 한다. 지원 언어는 영어를 포함해 90개 이상이며, 영상, 팟캐스트, 교육, 기업 비즈니스 등 다양한 오디오·비디오 포맷에 적용할 수 있다.
엔터테인먼트·게임·교육·기업 영상 활용 가능
국내 시장에서는 문화 콘텐츠와 비즈니스 영역 전반에서 활용이 예상된다. 드라마, 영화, 웹툰 및 애니메이션 IP의 경우 적절한 권리 처리와 동의에 기반해 출연자와 캐릭터의 감정선, 연기적 뉘앙스를 살린 다국어 전개를 지원할 수 있다. 캐릭터의 개성을 유지한 음성 예고편이나 숏폼 프로모션 콘텐츠 제작에도 활용될 수 있다.
게임 및 인터랙티브 콘텐츠 분야에서는 한국어로 제작된 게임 캐릭터 대사, 컷신, 튜토리얼 영상을 원본의 분위기와 캐릭터성을 유지한 채 다국어로 확장할 수 있다. 이를 통해 글로벌 이용자에게 보다 일관된 몰입감을 제공하는 것이 가능하다.
VTuber와 유튜브 크리에이터에게도 활용도가 높다. 크리에이터 본인의 목소리와 말투 뉘앙스를 살린 다국어 영상을 제작함으로써 해외 시청자 도달 범위를 넓히고 글로벌 팬 기반을 확장하는 데 도움을 줄 수 있다.
교육, 관광, 공공 정보 영역에서도 더빙 v2의 활용이 가능하다. 한국어 교육 콘텐츠나 인바운드 관광 홍보 영상을 다국어화할 때 화자의 설명 방식과 전달력을 유지해 해외 학습자와 여행자에게 정보를 명확히 제공할 수 있다. 기업 영역에서는 경영진 메시지, 사내 교육, 제품 소개 영상 등을 다국어로 전개해 해외 지사와 글로벌 고객에게 일관된 브랜드 메시지를 전달하는 데 활용될 수 있다.
SBS 협업 통해 방송 제작 적용 사례 확보
일레븐랩스의 음성 AI 기술은 국내 지상파 방송사의 다큐멘터리 제작에도 적용된 바 있다. 회사 측에 따르면 SBS는 자체 개발한 인식형 AI 모델을 방송 제작 현장에 적용해 왔으며, 생성형 AI 도입 과정에서는 콘텐츠 신뢰성과 방송사로서의 책임을 우선 기준으로 삼고 있다.
SBS는 지난해 다큐멘터리 ‘괴물의 시간’ 제작 과정에 일레븐랩스의 오디오 AI 기술을 도입해 실존 인물의 목소리를 재생성했다. 이를 통해 실제 방송 제작 환경에서도 해당 기술이 적용 가능한 수준임을 확인했다.
SBS AI파트너십팀 박재현 부장은 “일레븐랩스의 기술을 토대로 K-콘텐츠의 글로벌 더빙 및 로컬라이제이션 영역에서 협력을 확대해 나갈 계획”이라며 “일레븐랩스가 K-콘텐츠의 해외 유통을 확장하는 기술 파트너가 될 것으로 기대한다”고 밝혔다.
홍상원 일레븐랩스 한국 총괄은 “번역된 음성이 마치 원본 화자가 실제로 그 언어를 구사한 것처럼 느끼게 만드는 것은 그동안 AI 더빙 분야의 가장 큰 난제 중 하나였다”며 “이번에 선보인 더빙 v2는 정교한 감정 재현력과 뛰어난 싱크를 바탕으로, 국내 크리에이터와 마케터, 콘텐츠 기업들이 언어의 장벽을 넘어 전 세계 사람들과 더 깊고 자연스럽게 소통하는 강력한 교두보가 될 것”이라고 말했다.
더빙 v2는 일레븐랩스 UI 플랫폼을 통해 제공된다. 크리에이터, 마케팅 팀, 미디어 기업, 엔터프라이즈 기업 등은 해당 플랫폼에서 다국어 더빙을 제작할 수 있다. 대규모 콘텐츠 제작 워크플로우나 기존 시스템과의 연동을 검토하는 기업 고객을 위한 API 제공도 순차적으로 확대될 예정이다. 상세한 연동 및 개별 상담은 일레븐랩스 영업팀을 통해 확인할 수 있다.
이준문 기자/jun@newstap.co.kr
ⓒ 뉴스탭(https://www.newstap.co.kr) 무단전재 및 재배포금지
[뉴스탭 인기 기사]
· 조텍, RTX 5060 그래픽카드 10만원 구매 기회 연다
· 한국레노버, 975g 초경량부터 RTX 5070 크리에이터 노트북까지 요가 AI PC 4종 출시
· HYTE 건담 윙 콜라보 라인업 국내 출시…터치스크린 PC 케이스부터 데스크 굿즈까지
· ipTIME, 기가비트 스위칭 허브 4종 출시…24포트·16포트 라인업 확대
· CL26부터 10,000MT/s까지… KLEVV, 컴퓨텍스 2026서 DDR5 승부수 던졌다 [컴퓨텍스 2026]




국