비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

수노, 유디오에 숨겨진 '주파수 지문' 발견... AI 음악, 이제 전부 잡아낸다

2025.06.29. 00:46:42
조회 수
515
12
댓글 수
1

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

A Fourier Explanation of AI-Music Artifacts


생성형 AI 기술의 발전으로 AI 음악 생성이 급속히 확산되고 있는 가운데, 프랑스 디저 리서치(Deezer Research) 연구팀이 AI 생성 음악의 고유한 주파수 특성을 수학적으로 규명하고 99% 이상의 정확도를 달성하는 새로운 탐지 기술을 개발했다고 발표했다.

디컨볼루션 모듈의 161개 주파수 피크... 푸리에 변환으로 증명한 AI 음악 아티팩트

연구팀이 발견한 핵심은 AI 음악 생성 모델에서 널리 사용되는 디컨볼루션(deconvolution) 모듈이 만들어내는 특별한 주파수 패턴이다. 디컨볼루션은 AI가 압축된 정보를 다시 원래 크기로 확장할 때 사용하는 핵심 기술로, 마치 작은 그림을 큰 그림으로 늘리는 과정과 비슷하다. 연구팀은 푸리에 변환 이론을 사용해 이 과정에서 필연적으로 주파수 아티팩트가 발생한다는 것을 수학적으로 증명했다. 디컨볼루션 과정에서 제로 업샘플링(zero-upsampling)이 일어나면, 원본 신호의 스펙트럼이 주기적으로 복제되면서 특정 주파수에서 피크(peak)가 나타나게 된다.

구체적으로 엔코덱(Encodec) 모델의 경우 스트라이드 설정이 {8, 5, 4, 2}로 되어 있는데, 이때 총 161개의 주파수 피크가 생성된다. 각 디컨볼루션 레이어를 거치면서 이전 레이어의 아티팩트가 프랙탈과 같은 방식으로 복제되어 더욱 복잡한 패턴을 만들어낸다. 가장 흥미로운 점은 이러한 아티팩트가 훈련 데이터나 모델 가중치와는 전혀 무관하다는 것이다. 연구팀은 "이는 모델이 어떤 음악으로 학습했는지, 얼마나 잘 훈련되었는지와 상관없이 아키텍처 자체에서 비롯되는 현상"이라고 설명했다. 이는 곧 동일한 구조를 가진 AI 모델이라면 어떤 것이든 같은 주파수 지문을 남긴다는 의미다.

수노·유디오부터 엔코덱까지... 상용·오픈소스 모델 모두에서 동일 현상 확인

연구팀은 이론을 검증하기 위해 다양한 AI 음악 생성 모델을 분석했다. 먼저 오픈소스 모델인 DAC, 엔코덱(Encodec), 뮤지카(Musika!) 등을 대상으로 실험한 결과, 모든 모델에서 예측한 위치에 정확히 주파수 피크가 나타나는 것을 확인했다. 더 놀라운 것은 현재 상용 서비스로 널리 사용되고 있는 수노(Suno)와 유디오(Udio)에서도 동일한 현상이 발견됐다는 점이다. 연구팀은 최근 공개된 SONICS 데이터셋에 포함된 5만 개의 수노·유디오 생성 음악을 분석해 이들 역시 특정한 주파수 아티팩트 패턴을 보인다는 것을 입증했다.

특히 DAC 모델을 서로 다른 데이터셋(FMA, MTAT, MTG-Jamendo)으로 훈련시키고 다른 랜덤 시드를 사용해도 피크의 위치는 동일하게 나타났다. 이는 아티팩트가 정말로 아키텍처에만 의존한다는 강력한 증거다. 연구팀은 "훈련 데이터나 가중치가 달라도 피크 패턴이 같다는 것은 이 현상이 모델 구조의 본질적 특성임을 보여준다"고 강조했다. 실제로 각 모델별로 학습된 로지스틱 회귀 계수를 시각화한 결과, DAC, 엔코덱, 수노에서 각각 뚜렷하고 서로 다른 피크 패턴이 나타났다. 이는 각 모델의 아키텍처가 고유한 주파수 지문을 남긴다는 것을 의미한다.


1만 vs 2천만 매개변수... 단순 선형 모델이 복잡한 트랜스포머와 동등한 성능

연구팀이 개발한 탐지 방법은 놀랍도록 단순하다. 음악의 평균 스펙트럼을 계산한 후, 슬라이딩 윈도우를 사용해 지역 최솟값을 빼서 피크를 강조하는 방식이다. 여기에 5kHz에서 16kHz 대역폭으로 제한해 멜로디 정보와 불필요한 노이즈를 제거한다. 이 간단한 방법을 바탕으로 만든 로지스틱 회귀 모델은 겨우 1만 개의 매개변수만 사용한다. 반면 기존의 딥러닝 기반 탐지 모델들은 수백만에서 수천만 개의 매개변수를 사용한다. 그럼에도 불구하고 성능은 놀라울 정도로 뛰어나다.

오픈소스 모델 탐지에서는 실제 음악 99.87%, DAC 합성 음악 99.68%, 엔코덱 합성 음악 99.81%, 뮤지카 합성 음악 99.97%의 정확도를 기록했다. 이는 기존 연구에서 보고된 CNN 기반 모델의 성능과 거의 동일한 수준이다. 상용 서비스 탐지에서도 인상적인 결과를 보였다. 실제 음악은 99.97%, 수노 v3.5는 100%, 우디오 130은 100%의 완벽한 탐지율을 달성했다. 다만 훈련 시 보지 못한 우디오 32 버전에서는 39.83%로 성능이 크게 떨어졌는데, 이는 유디오가 32 버전과 130 버전 사이에 모델 아키텍처를 변경했을 가능성을 시사한다.

연구팀은 "복잡한 딥러닝 모델 대신 단순한 선형 모델로도 이런 성능을 얻을 수 있다는 것은 AI 음악의 아티팩트가 매우 뚜렷하고 일관된 특성을 가지고 있음을 보여준다"고 설명했다.


스트리밍 플랫폼 음악 20% 이상 AI 생성... 음악가 수익 24% 위험 경고

AI 음악 생성 기술의 급속한 발전과 함께 음악 산업에는 전례 없는 변화가 일어나고 있다. 최근 보고서에 따르면 스트리밍 플랫폼에 업로드되는 음악의 최소 20%가 현재 AI로 생성된 것으로 추정된다. 이는 AI 음악이 더 이상 실험적 기술이 아니라 음악 산업의 현실이 되었음을 의미한다. 수노의 CEO는 "사람들은 음악을 만드는 과정을 실제로는 즐기지 않는다"고 주장하며 AI 음악 생성의 필요성을 역설했지만, 이는 음악계에서 큰 논란을 불러일으켰다. 실제로 음악가들과 업계 종사자들 사이에서는 AI 음악에 대한 우려가 크게 증가하고 있다.

국제저작권단체연맹(CISAC)의 연구에 따르면 생성형 AI로 인해 향후 몇 년 내에 음악가 수익의 24%가 위험에 처할 것으로 예상된다. 이는 단순히 경제적 문제를 넘어 음악 창작의 본질과 관련된 근본적인 질문을 제기한다. 저작권 침해 문제도 심각하다. 여러 음반사들이 수노와 우디오를 상대로 저작권 침해 소송을 제기했으며, AI 모델이 기존 음악을 무단으로 학습했다고 주장하고 있다. 가디언 등 주요 언론들도 이 문제를 집중 보도하며 AI 음악 생성의 윤리적 문제를 제기하고 있다.

이런 상황에서 AI 생성 음악을 정확하게 탐지할 수 있는 기술의 중요성이 더욱 부각되고 있다. 현재까지 나온 AI 탐지 서비스들도 대부분 블랙박스 방식으로 작동해 투명성이 부족했지만, 이번 연구는 수학적 이론에 기반한 해석 가능한 방법을 제시했다는 점에서 의미가 크다. 연구팀은 "AI와 탐지기 사이의 군비경쟁에서 한 발 물러나 합성 콘텐츠의 본질적 특성이 무엇인지, 어떻게 탐지할 수 있는지를 근본적으로 이해하려 했다"며 연구의 의의를 설명했다.


FAQ

Q: AI 음악 탐지가 왜 중요한가요?

A: 스트리밍 플랫폼 음악의 20% 이상이 AI로 생성되고 있어 저작권 보호와 음악가 수익 보장을 위해 정확한 탐지 기술이 필요합니다. 또한 음악 산업의 투명성과 공정성을 위해서도 중요합니다.

Q: 이 연구의 탐지 방법이 기존 방법과 다른 점은 무엇인가요?

A: 기존의 블랙박스 방식과 달리 수학적 이론에 기반한 해석 가능한 방법입니다. 푸리에 변환을 이용해 주파수 아티팩트를 분석하며, 단순한 선형 모델로도 99% 이상의 높은 정확도를 달성할 수 있습니다.

Q: 모든 AI 음악 생성 모델에서 이런 아티팩트가 나타나나요?

A: 디컨볼루션 모듈을 사용하는 대부분의 생성형 AI 모델에서 이러한 주파수 아티팩트가 나타납니다. 연구팀은 오픈소스 모델뿐만 아니라 수노, 우디오 등 상용 서비스에서도 동일한 현상을 확인했습니다.

해당 기사에 인용된 논문에 대한 자세한 사항은 arxiv에서 확인 가능하다.

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
[오늘의 스팀] 한 주 동안 판매 1위, '바하 레퀴엠' 출시 코앞 게임메카
2026 VCT 첫 국제전, 마스터스 산티아고 3월 1일 열린다 게임메카
처치 곤란했던 폐가전, 스티커 없이 무료 배출하는 방법 IT동아
BMW 모토라드, 15대 한정판 ‘BMW R 12 S’ 국내 출시 글로벌오토뉴스
BMW 코리아 미래재단, 대학생 사회공헌 공모전 ‘영 이노베이터 드림 프로젝트’ 개최 글로벌오토뉴스
틸 셰어 폭스바겐그룹코리아 사장, 한국수입자동차협회(KAIDA) 회장 3연임 글로벌오토뉴스
[영상] 영국 두 아이콘의 만남, MINI 폴 스미스 에디션을 만나다 글로벌오토뉴스
소파가 전시 오브제로…알로소, ‘서울리빙디자인페어’서 체험형 공간 선보여 뉴스탭
“집이 곧 필드”…텔몬파크골프, 가정용 시뮬레이터로 시장 판 바꿨다 뉴스탭
“아이마다 다른 공부 리듬”…일룸, 체험형 팝업으로 학생방 새 기준 제시 뉴스탭
바나나·파인애플·용과의 변신…야외 미식 트렌드 ‘밖슐랭’ 확산 뉴스탭
이채민과 함께한 K2 2026 SS 화보 공개…기능성과 스타일 모두 잡았다 뉴스탭
이동휘의 ‘스피드 무드’ 통했다…버커루 2026 S/S 캠페인 공개 뉴스탭
36년 만의 블러드문 뜬다…식품·유통업계, 정월대보름 마케팅 ‘후끈’ 뉴스탭
뷔의 담백한 무드로 완성한 ‘일상 아웃도어’…스노우피크 26 스프링 컬렉션 공개 뉴스탭
“노래 들으며 타자 연습”… 코르티스 신곡 가사 ‘타자 게임’으로 최초 공개 뉴스탭
3천원대 마요부터 단백질 강화 메뉴까지…도시락 시장, 초개인화 경쟁 본격화 (1) 뉴스탭
코지마 감성 입은 ROG, ‘루덴스’ 철학 담은 한정판 Z13 전격 공개 뉴스탭
한예슬 효과 통했다…세르본 ‘튜닝엑스’, 면세점·백화점 온라인몰 전격 입점 뉴스탭
“상금 2억2000만원” 구글 딥마인드, 서울서 ‘제미나이 3’ 해커톤 연다 뉴스탭
이 시간 HOT 댓글!
1/4