ElevenLabs가 새로운 음성 합성 모델 Eleven v3를 선보이며 AI 음성 기술의 새로운 가능성을 열었다. 이번 v3는 단순한 텍스트 읽기를 넘어 실제 배우처럼 연기하는 수준에 도달했으며, 등장인물을 바꾸거나 문장 중간에 톤을 전환하는 것도 자연스럽게 처리한다. 또한 속삭임, 웃음소리, 숨 소리, 박수 등 비언어적 지시도 실제 음성과 구별하기 힘든 자연스러운 품질로 구현해 AI 음성이 공연 수준의 연출력을 확보했다.
현재 공개된 Eleven v3는 알파(Alpha) 버전으로 기존 모델보다 세부적인 지시가 필요하지만, 이를 통해 더욱 뛰어난 성능을 발휘한다. 최종 결과물은 실제 인간의 목소리처럼 감정과 리얼리티가 풍부하게 담겨 청자에게 깊은 감동을 전달한다.
지원 언어도 기존 32개에서 70개 이상으로 확장됐다. 이를 통해 세계 인구 커버리지가 60%에서 90%로 확대되었으며, 앞으로도 지속적인 업데이트로 사용성이 더욱 향상될 예정이다.
이번에 공개된 v3의 주요 발전 사항은 다음과 같다. 우선 70개 이상의 언어를 지원해 글로벌 활용 범위를 크게 넓혔다. 또한 대화 모드에서는 화자 전환, 끼어들기, 톤과 감정 흐름을 자연스럽게 처리한다. 텍스트에 음성 태그를 추가할 수도 있다. 예를 들어 속삭임, 웃음, 아이러니한 톤 같은 감정적 지시뿐 아니라 군중 환호, 문 삐걱거리는 소리와 같은 효과음도 텍스트에 삽입해 현장감을 높인다.
감정 표현 폭도 한층 강화됐다. 한 문장 내에서도 감정과 속도 변화를 자유롭게 조정할 수 있어 보다 풍부한 음성 합성이 가능하다. 모든 사용자가 이용할 수 있도록 Eleven v3 (alpha)는 공식 웹사이트를 통해 체험할 수 있다.
스트리밍 지원 기능도 곧 제공될 예정이다. 이를 통해 콜센터 및 실시간 대화형 AI 에이전트와 같은 영역에서도 v3의 기술이 적용될 전망이다. 아울러 Eleven v3 (alpha)의 공개 API도 곧 출시될 예정으로, 얼리 액세스를 원하는 경우 영업팀에 문의하면 된다.
이번 Eleven v3는 특히 콘텐츠 창작자, 개발자, 기업들이 오디오북, 캐릭터 대화, 인터랙티브 미디어 제작 등에서 높은 표현력이 요구되는 콘텐츠 제작에 매우 효과적이다. 더욱 정교한 음성 표현 조정이 가능하며, 콘텐츠에 맞는 적절한 지시가 고품질 음성 생성의 핵심이 된다.
실시간 대화형 AI 등 낮은 지연시간이 중요한 경우에는 기존 v2.5 모델 사용이 권장된다. 현재 ElevenLabs는 v3의 실시간 버전도 개발 중이다.
Eleven v3가 음성 생성 분야에 가져올 영향도 주목된다. 이번 모델은 AI 음성 합성에 진정한 표현력을 더했다. 문장 내에서 톤과 감정을 세부적으로 조정할 수 있을 뿐 아니라, 단 한 번의 녹음으로 화자를 자연스럽게 전환할 수 있어 마치 하나의 연기처럼 구현된다. 이는 기존 읽기 중심의 AI 음성 한계를 넘어, 새로운 퍼포먼스 영역으로의 확장을 의미한다.
ElevenLabs는 이번 v3 출시를 기념해 6월 한 달간 UI 이용 시 80% 할인 이벤트를 진행 중이다. 제품은 공식 웹사이트를 통해 체험 가능하다.
ElevenLabs 공동창업자 겸 CEO인 Mati Staniszewski는 “Eleven v3는 감정과 표현, 비언어적 지시까지 이해하고 제어할 수 있는 가장 표현력이 뛰어난 TTS(Text-to-Speech) 모델”이라며 “오디오 태그를 통해 속삭임, 웃음, 억양 변경, 노래 지시까지 가능하다. 70개 이상의 언어로 모든 대본에 맞춰 속도, 감정, 스타일을 자유롭게 조정할 수 있다”고 밝혔다. 그는 이어 “우리의 글로벌 미션으로 이 모델을 70개 이상의 언어로 확장한 것을 기쁘게 생각한다. 이번 릴리스는 공동 창업자인 Piotr Dabkowski와 그의 탁월한 팀의 비전과 리더십 덕분이다. 뛰어난 제품을 만드는 과정의 어려움을 극복하고 패러다임 시프트를 이뤄낸 성과에 매우 기쁘다. 앞으로도 더욱 발전할 수 있도록 최선을 다하겠다”고 강조했다.
한국어 TTS 기능도 이번 v3에서 대폭 강화됐다. 많은 크리에이터와 기업이 요청했던 기능으로, 정교한 감정 표현은 물론 사투리, 축구 중계 스타일과 같은 특별한 요청도 자연스럽게 구현할 수 있다. 이를 통해 정부 기관, 지방 자치단체의 정보 전달부터 개인 크리에이터의 콘텐츠까지 다양한 표현 가능성이 확대될 전망이다.
이준문 기자/jun@newstap.co.kr
ⓒ 뉴스탭(https://www.newstap.co.kr) 무단전재 및 재배포금지
[뉴스탭 인기 기사]
· 카시오, 풀 메탈 G-쇼크 신제품 2종 출시…하이브리드와 디지털 모델 동시 공개
· 블랙베리 클래식, 중국 기업 손에서 부활…'Zinwa Q25'로 재탄생
· 스팀덱이 키보드 속으로…무선 키보드 형태 PC ‘Bento’ 등장
· 홈플러스, 몰로코와 손잡고 리테일 미디어 광고 본격 진출
· 스페이스X, 스타링크 V3로 1Tbps 시대 연다…지연시간 5ms까지 단축