AI가 음악·음성·사운드를 평가한다고? 메타, '오디오박스 미학' 공개 : 다나와 DPG는 내맘을 디피지

Meta Audiobox Aesthetics: Unified Automatic Quality Assessment for Speech, Music, and Sound

메타(Meta)가 AI를 활용해 음악, 음성, 사운드 등 오디오 전반의 미학적 품질을 평가하는 새 시스템인 ‘오디오박스 미학(Audiobox-Aesthetics)’을 발표했다. 이는 사람이 직접 소리를 들어보고 주관적으로 “좋다” 혹은 “나쁘다”를 결정하던 방식에서 벗어나, AI가 오디오의 기술적·예술적 요소를 자동으로 수치화하고 점수를 매기는 모델이다. 메타는 기존의 이미지 미학 예측기처럼, 오디오 분야에서도 사람의 취향과 인식에 좌우되던 평가 과정을 AI가 일관적으로 수행할 수 있도록 하는 연구를 진행해 왔다.

AI 시대의 새로운 도전: 오디오 품질 자동 평가의 필요성

오디오 미학적 품질은 주파수 응답이나 신호 대 잡음비 같은 객관적인 지표만으로는 제대로 측정하기 어렵다. 음악이나 음성, 사운드를 들을 때 사람마다 다르게 느끼는 예술적·문화적 맥락을 고려해야 하기 때문이다. 이 때문에 지금까지는 사람이 직접 듣고 점수를 매기는 방식이 주로 쓰였는데, 이는 비용과 시간이 많이 들고 사람마다 평가 기준이 달라 일관성이 부족하다는 문제가 있었다. 메타는 AI가 이 복잡한 문제를 해결하는 데 큰 역할을 할 수 있다고 보고 오디오박스 미학 시스템을 개발했다.

PESQ부터 FAD까지: 기존 오디오 평가의 한계와 도전 과제

음성 품질 측정 분야에서는 PESQ나 POLQA 같은 지표가 발화 수준의 음성 품질을 평가해 왔으나, 이 방법들은 원본 음성이 필요하다는 제약이 있어 실제 활용 범위가 제한적이었다. 음악과 오디오 분야에서 널리 사용되는 프레셰 오디오 거리(FAD)는 사전에 학습된 모델의 임베딩을 비교해 거리를 산출하지만, 개별 오디오 파일마다 세부적인 품질 점수를 제시하기에는 어려움이 있었다. 잡음이나 음색 변화를 측정하는 NISQA, DNSMOS 등의 시스템도 음성 전송이나 향상 작업에 특화되어 있어, 복합적인 오디오 구성이나 음악 영역을 정확히 평가하기에는 한계가 있었다.

4개 최고 성능 시스템과의 비교: 철저한 벤치마크 검증

메타 연구진은 오디오박스 미학의 성능을 객관적으로 검증하기 위해 음성 품질 평가용으로 쓰이는 DNSMOS의 P.808 MOS, SQUIM의 PESQ, VMC24 최고 시스템인 UTMOSv2, 그리고 전체 오디오 유형 평가용인 PAM 등 4개 시스템을 선정해 비교 실험을 진행했다. 내부 예비 평가를 통해 이들 시스템이 각자의 분야에서 최적의 결과를 내는 것으로 파악됐고, 특히 SQUIM은 다양한 지표 중 PESQ가 자연 음성 품질 측면에서 가장 우수한 성능을 보여서 채택됐다. 메타는 이와 같은 최적의 경쟁 모델들과 직접 비교함으로써 오디오박스 미학의 실제 성능을 확인했다.

오디오 품질 평가의 혁신: 4가지 평가축과 158명의 전문 평가단

메타는 오디오박스 미학을 설계하면서 기존 평가 방식이 모호하고 일관성이 부족하다는 점을 주목했고, 이를 해소하기 위해 네 가지 핵심 축을 도입했다. 제작 품질(Production Quality)은 명확성, 충실도, 다이내믹스, 주파수, 공간화 등 오디오의 기술적 면모를 평가한다. 제작 복잡성(Production Complexity)은 하나의 오디오에 포함된 사운드 요소가 얼마나 복합적으로 구성돼 있는지 살핀다.

음악, 음성, 효과음이 뒤섞인 팟캐스트가 예로 들 수 있다. 콘텐츠 향유도(Content Enjoyment)는 감정적인 임팩트, 예술적 완성도, 독창성 등 듣는 사람이 느끼는 매력도를 측정하고, 콘텐츠 유용성(Content Usefulness)은 유튜브나 인스타그램 같은 플랫폼에서 재활용할 가치가 있는지 평가한다. 이렇게 총 네 가지 평가축을 정립한 뒤, 158명의 전문 평가단이 광범위한 오디오 샘플을 직접 듣고 점수를 매겨 데이터를 축적했다.

고도화된 AI 모델: 12층 트랜스포머와 다중 지표 최적화

오디오박스 미학 모델은 웨이브LM(WavLM) 기반의 12층 트랜스포머 구조로 되어 있으며, 각 층은 768차원의 은닉 레이어를 채택했다. 오디오 입력은 16kHz 단일 채널로 리샘플링되며, 학습 시에는 10초 길이의 오디오를 무작위로 선택해 평균 절대 오차(MAE)와 평균 제곱 오차(MSE)를 동시에 최소화하도록 훈련한다. 이렇게 함으로써 모델이 오디오 품질을 보다 정교하게 예측할 수 있도록 했으며, 최종 출력값은 제로 평균, 단위 표준편차로 정규화해 일관성 있는 점수를 보장한다.

검증된 성능: 기존 평가 시스템 대비 최대 89.8% 향상

메타 연구진이 VMC22-main 데이터셋을 사용해 오디오박스 미학을 검증한 결과, 제작 품질과 콘텐츠 향유도 항목에서 각각 0.689와 0.775의 발화 수준 피어슨 상관계수를 기록했다. 이는 DNSMOS(0.612)나 SQUIM(0.708) 등 기존 시스템보다 훨씬 높은 수치로, 주관적인 오디오 만족도 측면까지 정확하게 반영하고 있음을 보여준다. 중국어 데이터셋인 VMC22-OOD에서 역시 콘텐츠 향유도 0.767, 시스템 수준 상관계수 0.876을 달성해, 언어가 다른 환경에서도 우수한 일반화 성능을 보였다. 이는 오디오박스 미학이 특정 언어나 특정 오디오 유형에 제한되지 않고 폭넓은 도메인을 커버할 수 있음을 시사한다.

AI 오디오 생성 품질 향상: 프롬프팅 전략으로 최대 50.19% 개선

오디오박스 미학은 AI 오디오 생성 시스템의 품질을 끌어올리는 데도 도움을 주는 것으로 나타났다. 특히 AI가 오디오를 만들 때 사전에 특정 문장이나 조건을 제공하는 프롬프팅 전략을 적용했을 경우, 음성 분야는 최대 45.07%, 사운드는 18.52%, 음악은 무려 50.19%의 품질 개선 효과를 보였다. 이는 단순히 저품질 데이터를 거르는 방식보다 훨씬 효과적이며, 텍스트 음성 변환(TTS) 영역에서는 단어 오류율(WER)을 2.95%에서 2.76%로 낮추는 데도 기여했다.

연구 확장: 11.2시간 분량의 AES-Natural 데이터셋 공개

메타는 오디오박스 미학의 활용을 더욱 확장하기 위해 AES-Natural이라는 새 데이터셋을 공개했다. LibriTTS, Common Voice, MUSDB18-HQ, MusicCaps, AudioSet 등 다양한 출처에서 수집한 2,950개의 오디오 샘플이 포함되며, 각 샘플은 10명의 전문 평가자가 앞서 언급한 네 가지 평가축에 따라 점수를 매겼다. 이는 총 11.2시간 분량으로, 추후 연구자들이 오디오 미학 평가 기술을 개발하거나 개선할 때 활용할 수 있는 귀중한 벤치마크로 자리 잡을 것으로 보인다.

오디오박스 미학은 이렇게 수집된 대규모 오디오 샘플과 전문 평가단의 정교한 라벨링이 결합되어, 음악부터 음성, 복합 사운드까지 폭넓은 오디오 도메인에서 높은 평가 정확도를 나타내는 모델로 완성됐다. 메타 측은 앞으로도 더 많은 오디오 유형에 대해 적용 범위를 넓히며, AI 오디오 연구를 활성화하는 데 기여하겠다는 계획을 밝혔다.

해당 기사에 인용된 리포트 원문은 링크에서 확인 가능하다.

기사는 클로드 3.5 Sonnet과 챗GPT를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

중국 신차 개발 주기 단축으로 인한 안전성은?	글로벌오토뉴스
메이드 인 차이나를 지워라, 미국의 커넥티드카 탈중국 잔혹사	글로벌오토뉴스
마이바흐 정조준한 BMW의 승부수, 'BMW 알피나' 내년 브랜드 출범	글로벌오토뉴스
422. 커넥티비티가 완벽해야 SDV와 자율주행이 가능하다	글로벌오토뉴스
혼다, 중국 광저우자동차와 합작 기한 2038년까지 연장	글로벌오토뉴스
테슬라 로보택시 운행 거리 정체…누적 착시 뒤에 숨겨진 성장 한계	글로벌오토뉴스
폭스바겐, 2027년 중국시장에 ADAS 레벨3 모델 출시한다	글로벌오토뉴스
중국 니오 산하 반도체사 제니테크, WAIC서 자율주행·AI 칩 대거 공개	글로벌오토뉴스
상하이 모빌리티, 2027년 양산 목표 전용 로보택시 개발 착수	글로벌오토뉴스
포티투닷, 모빌리티 AI 인재 200명 채용 박차	글로벌오토뉴스
기아-KT-에스유엠, 원격 운전 기술 사업화 MOU 체결	글로벌오토뉴스
테슬라 운전자 보조 시스템 사고 월 207건 역대 최다… 데이터 은폐 논란 가열	글로벌오토뉴스
테슬라 사이버캡, 스페이스X 스타링크 V5 탑재 발표… 실효성·내부거래 논란	글로벌오토뉴스
삼성전자, CEO 직속 'RX 부문' 신설…로봇 사업 성장 동력 육성	글로벌오토뉴스
포드 차세대 전기차 플랫폼 UEV 공개	글로벌오토뉴스
NXP, 차세대 차량용 통합 오디오·라디오 프로세서 ‘SAF9800’ 발표	글로벌오토뉴스
BMW, 업계 최초 ChatGPT 플러그인 도입…대화형 차량 구성 채널 구축	글로벌오토뉴스
타르가 텔레매틱스, 현대 커넥티드 모빌리티와 유럽 커넥티드카 데이터 관리 협력 확장	글로벌오토뉴스
메르세데스-벤츠, 롱 휠베이스 전기 GLC 중국시장 출시	글로벌오토뉴스
피아트 500e, 영국 정부 보조금으로 진입 가격 1,700파운드 대 인하	글로벌오토뉴스
폭스바겐, 3세대 아마록 배터리 전기차 전환	글로벌오토뉴스
테슬라·스페이스X 사업 중복 확대…통합 가능성 대두	글로벌오토뉴스
포드, 스페인 공장 지분 지리자동차에 매각	글로벌오토뉴스
JLR 코리아, '레인지로버 GT' 공개… 전동화 EMA 플랫폼 기반의 첫 순수 전기 모델	글로벌오토뉴스
지케이모빌리티, 강동 아이파크 더리버몰서 ‘지커 임시 전시장’ 운영	글로벌오토뉴스
BYD코리아, 맨시티 내한 맞아 전국 34개 전시장에 고객 참여 이벤트 진행	글로벌오토뉴스
테슬라 2분기 매출 282억 달러 사상 최고… AI·로보택시 투자 급증에 이익은 반토막	글로벌오토뉴스
레인지로버, 브랜드 첫 전기 GT 개발 완료 단계	글로벌오토뉴스
기아, 인도 전략형 소형 전기 SUV 시로스 EV 공개… 배터리 평생 보증	글로벌오토뉴스
빈패스트, 상반기 베트남서 전기차 역대 최대 11만 5,000대 판매	글로벌오토뉴스
유럽연합 26개국, 전기차 보급 맞춰 충전망 인프라 목표 달성 완료	글로벌오토뉴스
미국 보조금 폐지에 전기차 시장 둔화…GM·포드 투자 축소 속 실용 노선 선회	글로벌오토뉴스
GM 벤처스 투자 유치한 피크 에너지, 새크라멘토에 미국 최초 그리드 규모 나트륨 이온 배터리 공장 건설	글로벌오토뉴스
볼보자동차코리아, 순수 전기 플래그십 세단 'ES90' 공개… 7,294만 원부터 본격 판매	글로벌오토뉴스
폴스타, 미국 시장 철수 결정… 커넥티드카 규제 상소 포기	글로벌오토뉴스
토요타 유럽, 2026년 상반기 순수 전기차 판매 2배 돌파… 전동화 비중 87% 기록	글로벌오토뉴스
현대차그룹·SK온 합작 배터리 공장 HSBMA, 美 조지아주 양산 개시	글로벌오토뉴스
폭스바겐, 자동차 안전기술 접목한 프리미엄 e바이크 출시… 스마트뷰·HUD 안경 탑재 (1)	글로벌오토뉴스
지커, 영국 시장 진출 위해 전 JLR·이네오스 임원 영입	글로벌오토뉴스
미국 미네소타대, "제한 속도만 지켜도 미국서 하루 2,200만 달러 연료비 절감"	글로벌오토뉴스
인제스피디움, ‘2026 강원 국제 모터 페스타’ 성료… 1만여 관람객 몰리며 성황	글로벌오토뉴스
현대모비스 2분기 영업이익 9,752억원 달성… 전장부품·A/S 사업 성장 견인	글로벌오토뉴스
한국타이어 라우펜 폭스바겐 폴로에 신차용 타이어 공급	글로벌오토뉴스
한국앤컴퍼니그룹 팀 간 교류 프로그램 우연한 시리즈 확대 운영	글로벌오토뉴스
미쉐린코리아 ‘타이어모어’, 2026 여름 MORE 프로모션 실시	글로벌오토뉴스
콘티넨탈타이어, 스마트기기 브랜드 '가민'과 맞손	글로벌오토뉴스
르노그룹, 엑소텍 물류 로봇 도입으로 부품 출고 시간 87% 단축	글로벌오토뉴스
아시아·태평양 사륜구동 시장, 2033년 1,290만 대 규모 확대 전망	글로벌오토뉴스
메르세데스 벤츠 코리아, 한국여자오픈 우승자 김민솔 선수에 GLE 450 4MATIC 전달	글로벌오토뉴스
폭스바겐코리아 2026 장마철 침수 피해 차량 지원 캠페인 실시	글로벌오토뉴스
벤틀리모터스 굿우드 페스티벌 오브 스피드서 100년 유산과 장인정신 공개	글로벌오토뉴스
미 커넥티드카 중국산 부품 규제에 미국 부품업계 공급망 재편 속도	글로벌오토뉴스
르노, 중국계 브랜드 공세 속 상반기 글로벌 판매량 117만 대 기록	글로벌오토뉴스
현대차 2026년 2분기 매출 49조 2,153억원 역대 최대 달성	글로벌오토뉴스
기아 스포티지, 독일 아우토 모토 운트 슈포트 SUV 비교 평가 종합 1위	글로벌오토뉴스
현대차그룹, 브라질 사회공헌 활동 확대… 친환경·의료·문화 다각도 지원	글로벌오토뉴스
MINI 코리아 코오롱 모터스, MINI 분당 전시장 이전 개장	글로벌오토뉴스
메르세데스-벤츠, 중국 지분 15% 제한 미국 입법 규제 완화 타진	글로벌오토뉴스
GM, 내연기관 중심 전략 재편 속 2026년 실적 전망치 상향 조정	글로벌오토뉴스
고속도로 휴게소 ‘바가지 물가’ 잡는다… 다단계 운영 구조 전면 개편	글로벌오토뉴스
기아 경기 안양지점 황경하 선임, 누적 4천 대 판매… 39번째 ‘그랜드 마스터’ 등극	글로벌오토뉴스
캐딜락&GMC, 충청권 거점 '청주 팝업 전시장' 오픈… 프리미엄 고객 접점 확대	글로벌오토뉴스
메르세데스-벤츠 사회공헌위원회, 전국 소방기관에 전기 SUV EQB 5대 기증	글로벌오토뉴스
국내 완성차 5사, '하계 휴가철 자동차 무상점검 서비스' 실시	글로벌오토뉴스
BMW 그룹, 롤스로이스와 7시리즈 잇는 독자 브랜드 'BMW 알피나' 공식 출범	글로벌오토뉴스
현재 판매 모델 중 가장 멀리 달린 차, 디스커버리·RX 공동 1위	글로벌오토뉴스
혼다, 중국 광저우자동차와의 합작 계약 10년 연장	글로벌오토뉴스
애스턴마틴·브라이틀링, '탑 타임 B01 크로노그래프 41 DB5 헌정 에디션' 공개	글로벌오토뉴스
GM 한국사업장, KSQI 자동차 A/S 부문 8년 연속 1위 달성	글로벌오토뉴스
메르세데스-벤츠, 중 자본 규제 법안 로비… 美 상원 법안 수정 타진	글로벌오토뉴스
GM 2분기 핵심 이익 30% 급증…SUV·트럭 호조로 연간 실적 전망 상향	글로벌오토뉴스
하데스풍 로그라이크 '신데리아', 첫 대규모 업데이트 적용	게임메카
공동명의 차량 이전도 관공서 안 간다…카방, 온라인 이전등록 서비스 확대	IT동아
일본 특허청, 닌텐도 게임 특허 거절...양측 공방	게임동아
EU 집행위, 사우디 펀드의 80조 규모 EA 인수 일부 승인	게임동아
그램퍼스, 인공지능 기반 뮤직비지니스 엔터테인먼트 사업 확장	게임동아
넵튠, ‘K컬처 글로벌 스타트업 육성 기술 개발’ 과제 수행 기업으로 선정	게임동아
지인 위해 보스 즉사시킨 '월드 오브 워크래프트' GM 해고	게임동아
넷마블, 갤럭시 Z 폴드8 출시 맞아 ‘세나 리버스·몬길’ 테마 공개	게임동아
현대차·기아 '상품성 만족도' 하락... BMW, 세그먼트 최우수 모델 최다	오토헤럴드
포르쉐, 최대 6000명 추가 감원 추진 '지난해 영업이익 93% 급감'	오토헤럴드
볼보 신형 EX60, 1회 충전 최대 531km '브랜드 최장거리 전기차 등극'	오토헤럴드
테슬라, 미국 밖 판매 차량에 무릎 에어백 제외…안전성 차별화 논란	오토헤럴드
제네시스 ‘마그마 X GMR’ 특별전... 대한민국 대표 고성능 한자리에	오토헤럴드
'테슬라 굿즈 끝판왕' 페달 없는 어린이용 밸런스 바이크 공개	오토헤럴드
BYD 덴자, 벤츠 EQS·BMW i7 겨냥한 신형 전기 세단 'Z9S' 공개	오토헤럴드
"V8 심장을 오케스트라로"…벤틀리, 토르칼 전용 '다이내믹 심포니' 공개	오토헤럴드
현대차그룹, EV 배터리 활용 V2X 서비스 '올데이에너지' 론칭	오토헤럴드
포드, 익스플로러 등 67만 대... 현대차 코나 좌석벨트 버클 결함 리콜	오토헤럴드
제네시스, GV60보다 작은 보급형 전기차 검토 '아이오닉 3 기반 가능성' (1)	오토헤럴드
월드컵 39일의 열기... 현대차그룹, 27년 동행 FIFA 파트너십 가치 입증 (1)	오토헤럴드
아우디 A2, 20여 년 만에 전기차로 부활 "브랜드 진입 장벽 낮춘다"	오토헤럴드
벤츠, 첫 MB.EA 전기 SUV 흥행 조짐 '일렉트릭 GLC' 사전계약 1000대 돌파	오토헤럴드
커넥티드카 해킹, 주행 중 탈취보다 '대규모 운행 중단·정보 유출' 현실적 위험	오토헤럴드
애스턴마틴 본드카 'DB5' DNA 입은 '브라이틀링 한정판 크로노그래프' 출시	오토헤럴드
[시승기] "이동의 의미를 바꾼 전기 MPV" 더 뉴 스타리아 리무진 EV	오토헤럴드
[시승기] '짜장이냐 짬뽕이냐' 고민 끝 BYD 씨라이언 6 DM-i...3750만 원	오토헤럴드
테슬라, 역대급 매출에도 수익 반토막...AI 부문 58억 달러 투자 부담	오토헤럴드
한국지엠 노사, '두 달 만에 끝냈다'... 2026년 임단협 잠정합의안 도출	오토헤럴드
플레오스가 바꿀 현대차의 미래 "출고 후에도 계속 진화하는 자동차"	오토헤럴드

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

AI가 음악·음성·사운드를 평가한다고? 메타, '오디오박스 미학' 공개

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

AI가 음악·음성·사운드를 평가한다고? 메타, '오디오박스 미학' 공개

공유하기

공감/비공감