[출처:아마존 홈페이지]
아마존이 현지시간 8일, 자사의 최신 음성 AI 모델 ‘노바 소닉(Nova Sonic)’을 공식 발표했다. 노바 소닉은 기존의 음성 인식 기술을 뛰어넘어, 말투, 억양, 뉘앙스까지 이해할 수 있는 고도화된 음성 AI 모델이다. 사용자가 말을 더듬거나 웅얼거리거나, 주변 환경이 시끄러운 경우에도 의도를 정확히 파악해 보다 자연스럽고 매끄러운 커뮤니케이션이 가능하다.
기존 음성 기반 시스템은 일반적으로 음성을 텍스트로 변환하고, 이를 대규모 언어 모델(LLM)을 통해 해석한 뒤, 다시 텍스트를 음성으로 변환하는 다단계 과정을 거쳐야 했다. 이는 개발 복잡성과 비용 증가, 그리고 대화의 자연스러움을 저해하는 주요 원인이었다.
이에 반해, 노바 소닉은 이러한 과정을 단일 모델로 통합했다. 이를 통해 응답 속도가 빨라졌을 뿐 아니라, 개발자가 보다 쉽게 서비스를 구축할 수 있게 됐으며, 화자의 감정이나 의도까지 반영한 자연스러운 대화 구현이 가능해졌다. 예컨대, 노바 소닉은 대화 중 적절한 타이밍에 멈추거나 망설이는 등의 인간적인 대화 패턴을 이해하고 반응할 수 있다.
[출처:아마존 홈페이지]
기술적 성능도 주목할 만하다. 여러 명이 동시에 대화하는 상황을 평가하는 벤치마크인 AMI 기준으로, 노바 소닉은 OpenAI의 GPT-4o-transcribe 모델 대비 단어 오류율(WER)에서 46.7% 높은 정확도를 기록했다.
또한 평균 응답 대기 시간은 1.09초로, 업계 최고 수준의 반응 속도를 자랑한다.
다국어 인식 성능에서도 우수한 평가를 받았다. 영어, 프랑스어, 독일어, 이탈리아어, 스페인어 등 다양한 언어를 포함한 LibriSpeech 벤치마크에서는 평균 WER 4.2%를 기록해 뛰어난 다국어 음성 인식 능력을 입증했다.
[출처:아마존 홈페이지]
특히, 사용자와의 상호작용 중 대화 맥락과 행동을 파악해 말투나 응답 방식을 자동으로 조정할 수 있는 기능이 강점으로 꼽힌다. 필요 시 자연스럽게 후속 질문을 제시하거나, 항공권 예약, 계좌 정보 확인 등의 실시간 작업도 수행 가능하다.
아마존은 또한, 노바 소닉이 GPT-4o 대비 약 80% 저렴하다는 점을 강조하며, 고성능과 경제성을 동시에 갖춘 AI 모델임을 부각했다. 로히트 프라사드(Rohit Prasad) 아마존 인공지능 총괄 수석 부사장은 “노바 소닉은 시작에 불과하다”며, “앞으로 이미지, 비디오, 음성 등 다양한 입력을 이해할 수 있는 멀티모달 AI 모델을 지속적으로 선보일 계획”이라고 밝혔다.
현재 노바 소닉은 AWS 베드록 플랫폼을 통해 양방향 스트리밍 API 형태로 제공되고 있으며, 아마존의 디지털 음성 비서 ‘알렉사 플러스’에도 일부 기능이 적용된 것으로 알려졌다.
글 / 홍정민 news@cowave.kr
(c) 비교하고 잘 사는, 다나와 www.danawa.com