AI가 음악·음성·사운드를 평가한다고? 메타, '오디오박스 미학' 공개 : 다나와 DPG는 내맘을 디피지

Meta Audiobox Aesthetics: Unified Automatic Quality Assessment for Speech, Music, and Sound

메타(Meta)가 AI를 활용해 음악, 음성, 사운드 등 오디오 전반의 미학적 품질을 평가하는 새 시스템인 ‘오디오박스 미학(Audiobox-Aesthetics)’을 발표했다. 이는 사람이 직접 소리를 들어보고 주관적으로 “좋다” 혹은 “나쁘다”를 결정하던 방식에서 벗어나, AI가 오디오의 기술적·예술적 요소를 자동으로 수치화하고 점수를 매기는 모델이다. 메타는 기존의 이미지 미학 예측기처럼, 오디오 분야에서도 사람의 취향과 인식에 좌우되던 평가 과정을 AI가 일관적으로 수행할 수 있도록 하는 연구를 진행해 왔다.

AI 시대의 새로운 도전: 오디오 품질 자동 평가의 필요성

오디오 미학적 품질은 주파수 응답이나 신호 대 잡음비 같은 객관적인 지표만으로는 제대로 측정하기 어렵다. 음악이나 음성, 사운드를 들을 때 사람마다 다르게 느끼는 예술적·문화적 맥락을 고려해야 하기 때문이다. 이 때문에 지금까지는 사람이 직접 듣고 점수를 매기는 방식이 주로 쓰였는데, 이는 비용과 시간이 많이 들고 사람마다 평가 기준이 달라 일관성이 부족하다는 문제가 있었다. 메타는 AI가 이 복잡한 문제를 해결하는 데 큰 역할을 할 수 있다고 보고 오디오박스 미학 시스템을 개발했다.

PESQ부터 FAD까지: 기존 오디오 평가의 한계와 도전 과제

음성 품질 측정 분야에서는 PESQ나 POLQA 같은 지표가 발화 수준의 음성 품질을 평가해 왔으나, 이 방법들은 원본 음성이 필요하다는 제약이 있어 실제 활용 범위가 제한적이었다. 음악과 오디오 분야에서 널리 사용되는 프레셰 오디오 거리(FAD)는 사전에 학습된 모델의 임베딩을 비교해 거리를 산출하지만, 개별 오디오 파일마다 세부적인 품질 점수를 제시하기에는 어려움이 있었다. 잡음이나 음색 변화를 측정하는 NISQA, DNSMOS 등의 시스템도 음성 전송이나 향상 작업에 특화되어 있어, 복합적인 오디오 구성이나 음악 영역을 정확히 평가하기에는 한계가 있었다.

4개 최고 성능 시스템과의 비교: 철저한 벤치마크 검증

메타 연구진은 오디오박스 미학의 성능을 객관적으로 검증하기 위해 음성 품질 평가용으로 쓰이는 DNSMOS의 P.808 MOS, SQUIM의 PESQ, VMC24 최고 시스템인 UTMOSv2, 그리고 전체 오디오 유형 평가용인 PAM 등 4개 시스템을 선정해 비교 실험을 진행했다. 내부 예비 평가를 통해 이들 시스템이 각자의 분야에서 최적의 결과를 내는 것으로 파악됐고, 특히 SQUIM은 다양한 지표 중 PESQ가 자연 음성 품질 측면에서 가장 우수한 성능을 보여서 채택됐다. 메타는 이와 같은 최적의 경쟁 모델들과 직접 비교함으로써 오디오박스 미학의 실제 성능을 확인했다.

오디오 품질 평가의 혁신: 4가지 평가축과 158명의 전문 평가단

메타는 오디오박스 미학을 설계하면서 기존 평가 방식이 모호하고 일관성이 부족하다는 점을 주목했고, 이를 해소하기 위해 네 가지 핵심 축을 도입했다. 제작 품질(Production Quality)은 명확성, 충실도, 다이내믹스, 주파수, 공간화 등 오디오의 기술적 면모를 평가한다. 제작 복잡성(Production Complexity)은 하나의 오디오에 포함된 사운드 요소가 얼마나 복합적으로 구성돼 있는지 살핀다.

음악, 음성, 효과음이 뒤섞인 팟캐스트가 예로 들 수 있다. 콘텐츠 향유도(Content Enjoyment)는 감정적인 임팩트, 예술적 완성도, 독창성 등 듣는 사람이 느끼는 매력도를 측정하고, 콘텐츠 유용성(Content Usefulness)은 유튜브나 인스타그램 같은 플랫폼에서 재활용할 가치가 있는지 평가한다. 이렇게 총 네 가지 평가축을 정립한 뒤, 158명의 전문 평가단이 광범위한 오디오 샘플을 직접 듣고 점수를 매겨 데이터를 축적했다.

고도화된 AI 모델: 12층 트랜스포머와 다중 지표 최적화

오디오박스 미학 모델은 웨이브LM(WavLM) 기반의 12층 트랜스포머 구조로 되어 있으며, 각 층은 768차원의 은닉 레이어를 채택했다. 오디오 입력은 16kHz 단일 채널로 리샘플링되며, 학습 시에는 10초 길이의 오디오를 무작위로 선택해 평균 절대 오차(MAE)와 평균 제곱 오차(MSE)를 동시에 최소화하도록 훈련한다. 이렇게 함으로써 모델이 오디오 품질을 보다 정교하게 예측할 수 있도록 했으며, 최종 출력값은 제로 평균, 단위 표준편차로 정규화해 일관성 있는 점수를 보장한다.

검증된 성능: 기존 평가 시스템 대비 최대 89.8% 향상

메타 연구진이 VMC22-main 데이터셋을 사용해 오디오박스 미학을 검증한 결과, 제작 품질과 콘텐츠 향유도 항목에서 각각 0.689와 0.775의 발화 수준 피어슨 상관계수를 기록했다. 이는 DNSMOS(0.612)나 SQUIM(0.708) 등 기존 시스템보다 훨씬 높은 수치로, 주관적인 오디오 만족도 측면까지 정확하게 반영하고 있음을 보여준다. 중국어 데이터셋인 VMC22-OOD에서 역시 콘텐츠 향유도 0.767, 시스템 수준 상관계수 0.876을 달성해, 언어가 다른 환경에서도 우수한 일반화 성능을 보였다. 이는 오디오박스 미학이 특정 언어나 특정 오디오 유형에 제한되지 않고 폭넓은 도메인을 커버할 수 있음을 시사한다.

AI 오디오 생성 품질 향상: 프롬프팅 전략으로 최대 50.19% 개선

오디오박스 미학은 AI 오디오 생성 시스템의 품질을 끌어올리는 데도 도움을 주는 것으로 나타났다. 특히 AI가 오디오를 만들 때 사전에 특정 문장이나 조건을 제공하는 프롬프팅 전략을 적용했을 경우, 음성 분야는 최대 45.07%, 사운드는 18.52%, 음악은 무려 50.19%의 품질 개선 효과를 보였다. 이는 단순히 저품질 데이터를 거르는 방식보다 훨씬 효과적이며, 텍스트 음성 변환(TTS) 영역에서는 단어 오류율(WER)을 2.95%에서 2.76%로 낮추는 데도 기여했다.

연구 확장: 11.2시간 분량의 AES-Natural 데이터셋 공개

메타는 오디오박스 미학의 활용을 더욱 확장하기 위해 AES-Natural이라는 새 데이터셋을 공개했다. LibriTTS, Common Voice, MUSDB18-HQ, MusicCaps, AudioSet 등 다양한 출처에서 수집한 2,950개의 오디오 샘플이 포함되며, 각 샘플은 10명의 전문 평가자가 앞서 언급한 네 가지 평가축에 따라 점수를 매겼다. 이는 총 11.2시간 분량으로, 추후 연구자들이 오디오 미학 평가 기술을 개발하거나 개선할 때 활용할 수 있는 귀중한 벤치마크로 자리 잡을 것으로 보인다.

오디오박스 미학은 이렇게 수집된 대규모 오디오 샘플과 전문 평가단의 정교한 라벨링이 결합되어, 음악부터 음성, 복합 사운드까지 폭넓은 오디오 도메인에서 높은 평가 정확도를 나타내는 모델로 완성됐다. 메타 측은 앞으로도 더 많은 오디오 유형에 대해 적용 범위를 넓히며, AI 오디오 연구를 활성화하는 데 기여하겠다는 계획을 밝혔다.

해당 기사에 인용된 리포트 원문은 링크에서 확인 가능하다.

기사는 클로드 3.5 Sonnet과 챗GPT를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

두 비즈니스맨의 관계에 균열이 시작되었다 – 트럼프와 머스크 (2)	글로벌오토뉴스
BYD, 1분기 순이익 두 배 증가…전기차·하이브리드 판매 호조 (1)	글로벌오토뉴스
메르세데스-마이바흐 S-클래스의 품격, 가장 안락한 퍼스트클래스급 승차감을 제공한다	글로벌오토뉴스
스트라드비젼-악세라, 자율주행 혁신 가속 위한 전략적 협력 체결	글로벌오토뉴스
중국 자율주행 스타트업 모멘타, 상하이 모터쇼서 글로벌 자동차 브랜드와 대규모 협력 계약	글로벌오토뉴스
일렉트로비트-메톡, 소프트웨어 기반 차량 혁신 위해 전략적 파트너십 체결	글로벌오토뉴스
비스테온-볼케이노 엔진, AI 기반 스마트 콕핏 솔루션 공개…차량 내 경험 혁신 예고	글로벌오토뉴스
중국 세레스, 상하이 모터쇼서 지능형 안전 생태계 공개…미래 자동차 안전 표준 제시	글로벌오토뉴스
현대차, 'ACT 엑스포 2025'서 북미 수소 물류시장 본격 공략	글로벌오토뉴스
테슬라, 모델 3 롱레인지 무보증금 리스 출시	글로벌오토뉴스
알핀 A390, 브랜드 첫 전기 스포츠 패스트백 5월 27일 공개	글로벌오토뉴스
지커, 첫 PHEV 플래그십 SUV '9X' 공개…BMW X7·GLS 겨냥	글로벌오토뉴스
뉴욕주, 다시 테슬라와 충돌…직접판매 제한 논쟁 재점화	글로벌오토뉴스
폭스콘, 미국 EV 시장 진출 본격화…‘모델 C’ 제3 브랜드 통해 출시	글로벌오토뉴스
볼보 EX30, 미국 관세 여파로 생산지 전환	글로벌오토뉴스
메르세데스-AMG, 포르쉐 타이칸 겨냥한 전용 전기 패스트백 6월 공개 예정	글로벌오토뉴스
LG전자, 전기차 충전기 사업 철수 발표 (1)	글로벌오토뉴스
삼성SDI, '미국 관세로 EV 배터리 생산비용 상승 불가피' (1)	글로벌오토뉴스
한국타이어, WRC 4라운드 ‘이슬라스 카나리아스 랠리’서 기술력 입증	글로벌오토뉴스
혼다코리아, 모터스포츠 문화 확산 위한 2025 ‘혼다 원 메이커 레이스’ 1라운드 실시	글로벌오토뉴스
현대오토에버, 클라우드인프라센터장 이경수 상무 영입	글로벌오토뉴스
하만카돈, 기아 EV4에 프리미엄 사운드 시스템 적용	글로벌오토뉴스
한국타이어, 티스테이션 ‘올마이티(all my T)’ 신규 브랜드 필름 공개	글로벌오토뉴스
다쏘시스템, ‘2025 글로벌 3DEXPERIENCE 모드심 서밋’ 성료	글로벌오토뉴스
미쉐린코리아, 태백 스피드웨이서 ‘2025 미쉐린 트랙 데이’ 성료	글로벌오토뉴스
트럼프 대통령, 자동차 부품 관세 부담 완화 조치 발표	글로벌오토뉴스
지엠한마음재단, 농촌 일손 돕기 봉사활동 “강화로 오시겨” 진행	글로벌오토뉴스
기아 서상배 선임 오토컨설턴트, 4천대 판매 ‘그랜드 마스터’ 등극	글로벌오토뉴스
기아, 글로벌 인재 채용 플랫폼 '기아 탤런트 라운지' 개설	글로벌오토뉴스
아우디 코리아, ‘더 뉴 아우디 A5’ 국내 최초 공개 및 사전계약 개시	글로벌오토뉴스
페라리 12칠린드리, 2025 iF 디자인 어워드 골드 수상…자동차 부문 유일	글로벌오토뉴스
만트럭버스코리아, 조기 폐차 고객 대상 최대 1천만 원 할인 혜택 제공	글로벌오토뉴스
한성자동차, 2025년 서비스센터 신입직원 대규모 공개채용 실시	글로벌오토뉴스
할리데이비슨 코리아 ‘2025 트라이크 오너스 라이딩 투어’ 성공적 개최	글로벌오토뉴스
BMW, 중국 시장 공략 강화… 현지 AI 기업 딥시크 탑재	글로벌오토뉴스
토요타, '중국 주도' 현지화 전략으로 전환… 전기차 시장 공략 고삐	글로벌오토뉴스
폭스바겐, '중국 맞춤형' 전략 가속… 3년 내 30종 이상 신차 쏟아낸다	글로벌오토뉴스
캐나다, 미국산 보이콧 확산 속, 최대 22% 인상에 수요 '급감' 우려	글로벌오토뉴스
영국, 미국 자동차 관세 인하 검토…자국 수출품 보호 위한 협상 카드	글로벌오토뉴스
미국, 외국 건조 자동차 운반선에 입항료 부과 계획	글로벌오토뉴스
브랜드를 이끄는 리더, 메르세데스-AMG E 53 하이브리드 4MATIC+ 에디션 1 시승기	글로벌오토뉴스
PGA 안병훈 "작년이 아니라 올해가 '커리어 하이' 되길"	연합뉴스
'성장통' PGA 김주형 "바뀌는 과정…힘들어도 인내하겠다"	연합뉴스
정영화, KLPGA 드림투어 4차전 우승	연합뉴스
가상자산 거래소, SKT 이용 고객에게 ‘계정 보안 강화’ 당부 (1)	IT동아
KLPGA, 챔피언십 대회서 엄마 골퍼들에게 숙소 제공	연합뉴스
데이터 보호단체 “유비소프트가 싱글 플레이 게임에서 부당하게 개인정보 수집했다”	게임동아
1700만 다운로드 기록한 카카오게임즈 '오딘', 글로벌 시장 출격	게임동아
"치열하게 싸워라!" 스팀, 전쟁 게임 할인 행사 개최	게임동아
해긴, '플레이투게더'에 악몽이 찾아왔다	게임동아
웹젠, 기대작 '드래곤소드' 5월 8일 CBT 참가자 모집 개시	게임동아
'따라할 수 없는 독특한 스타일' 시트로엥, C5 에어크로스 티저 공개	오토헤럴드
[EV 트랜드] 테슬라, 뉴욕 직판 매장 폐쇄 위기... 프랜차이즈법 갈등 격화	오토헤럴드
르노, 신형 콤팩트 SUV '보레알' 출시 예고... 전 세계 70개국 출시 예정	오토헤럴드
연평균 121대, 기아 서상배 오토컨설턴트 ‘그랜드 마스터’ 등극... 누적 4001대	오토헤럴드
글로벌 인재 채용 플랫폼 '기아 탤런트 라운지' 오픈, 차별화된 콘텐츠 제공	오토헤럴드
감가율 낮추는 핵심 비결... 이 옵션 하나로 최대 2%, 중고찻값 확 달라진다	오토헤럴드
기아 EV4가 더 특별해진 비결... 하만카돈 프리미엄 카오디오 사운드 시스템	오토헤럴드
'축구장 20개 규모' BYD, 세계 최대 자동차 운송선 브라질로 첫 항해	오토헤럴드
페라리 12칠린드리ㆍ12칠린드리 스파이더, iF 디자인 '골드 어워드' 수상	오토헤럴드
만트럭, 노후 경유 트럭 폐차하고 신차 구입 대상 할인 혜택 제공	오토헤럴드
[EV 트렌드] '관세 전쟁 여파' 볼보 EX30, 벨기에 공장서 조기 생산 돌입	오토헤럴드
현대차, ACT 엑스포 2025 참가 '더 뉴 엑시언트 수소전기트럭' 최초 공개	오토헤럴드
바이두 창업자 "텍스트 기반 AI 시장 축소 중"... 딥시크 겨냥한 발언 주목	AI matters
美 트럼프 행정부, EU에 AI 규제 폐기 압박… “규제 내용 미국에 부당해”	AI matters
구글, AI 검색 기능 'AI 오버뷰' 성장세…월간 사용자 15억 명 돌파	AI matters
오픈AI, 클라우드 연결형 오픈 모델 개발 추진… 챗GPT 기능 강화	AI matters
앤트로픽, 자사 AI 코딩 도구 분석 시도한 개발자에 경고장 발송... 개발자들 비판 이어져	AI matters
메타 AI 챗봇, 미성년자와 성적 대화 가능성 드러나... 안전장치 논란	AI matters
"구글만이 크롬을 운영할 수 있다"... 크롬 총책임자, 법정에서 주장	AI matters
ChatGPT, 챗봇을 넘어 쇼핑 도우미로 진화할 수 있을까? (2)	다나와
'골프광' 향한 영국의 구애…트럼프 골프장서 디오픈 개최 검토	연합뉴스
오픈AI CEO “챗GPT-4o, 아첨꾼에 짜증나는 성격” (1)	다나와
'한국의 마스터스' GS칼텍스 매경오픈, 5월 1일부터 나흘간 열전	연합뉴스
보은 보청천 둔치 파크골프장 내달 1일 개장	연합뉴스
허위광고 주의, 한글 표기 확인…가정의 달 건기식 똑똑하게 고르기	뉴스탭
KLPGA, 위메이드와 대상 포인트 파트너십 재계약	연합뉴스
김효주, 메이저 준우승 아쉬움 떨치고 LPGA 시즌 2승 재도전	연합뉴스
레고랜드, 어린이날 맞아 '놀이 가치' 되새긴다…설문조사와 대규모 페스티벌 개최	뉴스탭
세계적 드러머 소니 에모리, 서울드럼페스티벌서 야마하와 만난다	뉴스탭
TJ미디어, 프로야구 팬심 잡는다…노래방 응원가 콘텐츠 대폭 강화	뉴스탭
절제된 카리스마와 깊은 풍미…추성훈, 와일드무어 화보로 매력 발산	뉴스탭
첫 메이저 KLPGA 챔피언십 5월 1일 개막…방신실·이정민 총출동	연합뉴스
마블 유니버스 동반자 넷마블, ‘마블 퓨처파이트’ 10주년 “앞으로도 쭉~”	게임동아
방수와 투습을 모두 잡다... 고어텍스 적용 트레일 러닝화 주목	뉴스탭
엔씨, 日 최대 서브컬처 축제 ‘니코니코 초회의’서 브레이커스 선봬	게임동아
[동아게임백과사전] 90년대 추억의 RPG 리마스터. 왜 팬들이 열광하나 (1)	게임동아
JND스튜디오, '스텔라 블레이드' 하이퍼 리얼 피규어 발매 당일 매진	게임동아
빈 공간을 만들고 활용하는 색다른 퍼즐. '레버리'가 주는 익숙함 속에 낯섦	게임동아
[LCK] 적수가 없는 젠지와 부진 이어진 T1	게임동아
넥슨, 5월 가정의 달 기념 사내 어린이집 가족행사 개최	게임동아
넥슨컴퓨터박물관, ‘메이플스토리’와 함께하는 이벤트 개최 (1)	게임동아
엔씨, 신작 '브레이커스'로 日 최대 서브컬처 축제 ‘니코니코 초회의’ 참가	게임동아
크래프톤, 배틀그라운드 e스포츠 국제대회 ‘PGS 7’ 개최	게임동아
펄어비스 '붉은사막' PAX EAST 출격. 북미 게이머들 만난다	게임동아
카카오게임즈 '오딘', ‘찾아가는 발할라 원정대’ 오프라인 이벤트 성료	게임동아
넷마블 '쿵야 레스토랑즈', 팝업스토어 '야채스타 육상 선수권 대회' 타임스퀘어에 마련 (1)	게임동아
컴투스 ‘서머너즈 워’, 11주년 업데이트 실시..육성 및 편의성 증진	게임동아
컴투스플랫폼 X-PLANET, '지구방위대 후뢰시맨' 앙코르 팬 미팅 개최 (1)	게임동아
GTA 온라인, 테러바이트 의뢰인 작업과 이동식 작전 임무 보상 두 배 이벤트 진행	뉴스탭

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

AI가 음악·음성·사운드를 평가한다고? 메타, '오디오박스 미학' 공개

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

AI가 음악·음성·사운드를 평가한다고? 메타, '오디오박스 미학' 공개

공유하기

공감/비공감