
A Fourier Explanation of AI-Music Artifacts
생성형 AI 기술의 발전으로 AI 음악 생성이 급속히 확산되고 있는 가운데, 프랑스 디저 리서치(Deezer Research) 연구팀이 AI 생성 음악의 고유한 주파수 특성을 수학적으로 규명하고 99% 이상의 정확도를 달성하는 새로운 탐지 기술을 개발했다고 발표했다.
디컨볼루션 모듈의 161개 주파수 피크... 푸리에 변환으로 증명한 AI 음악 아티팩트
연구팀이 발견한 핵심은 AI 음악 생성 모델에서 널리 사용되는 디컨볼루션(deconvolution) 모듈이 만들어내는 특별한 주파수 패턴이다. 디컨볼루션은 AI가 압축된 정보를 다시 원래 크기로 확장할 때 사용하는 핵심 기술로, 마치 작은 그림을 큰 그림으로 늘리는 과정과 비슷하다. 연구팀은 푸리에 변환 이론을 사용해 이 과정에서 필연적으로 주파수 아티팩트가 발생한다는 것을 수학적으로 증명했다. 디컨볼루션 과정에서 제로 업샘플링(zero-upsampling)이 일어나면, 원본 신호의 스펙트럼이 주기적으로 복제되면서 특정 주파수에서 피크(peak)가 나타나게 된다.
구체적으로 엔코덱(Encodec) 모델의 경우 스트라이드 설정이 {8, 5, 4, 2}로 되어 있는데, 이때 총 161개의 주파수 피크가 생성된다. 각 디컨볼루션 레이어를 거치면서 이전 레이어의 아티팩트가 프랙탈과 같은 방식으로 복제되어 더욱 복잡한 패턴을 만들어낸다. 가장 흥미로운 점은 이러한 아티팩트가 훈련 데이터나 모델 가중치와는 전혀 무관하다는 것이다. 연구팀은 "이는 모델이 어떤 음악으로 학습했는지, 얼마나 잘 훈련되었는지와 상관없이 아키텍처 자체에서 비롯되는 현상"이라고 설명했다. 이는 곧 동일한 구조를 가진 AI 모델이라면 어떤 것이든 같은 주파수 지문을 남긴다는 의미다.
수노·유디오부터 엔코덱까지... 상용·오픈소스 모델 모두에서 동일 현상 확인
연구팀은 이론을 검증하기 위해 다양한 AI 음악 생성 모델을 분석했다. 먼저 오픈소스 모델인 DAC, 엔코덱(Encodec), 뮤지카(Musika!) 등을 대상으로 실험한 결과, 모든 모델에서 예측한 위치에 정확히 주파수 피크가 나타나는 것을 확인했다. 더 놀라운 것은 현재 상용 서비스로 널리 사용되고 있는 수노(Suno)와 유디오(Udio)에서도 동일한 현상이 발견됐다는 점이다. 연구팀은 최근 공개된 SONICS 데이터셋에 포함된 5만 개의 수노·유디오 생성 음악을 분석해 이들 역시 특정한 주파수 아티팩트 패턴을 보인다는 것을 입증했다.
특히 DAC 모델을 서로 다른 데이터셋(FMA, MTAT, MTG-Jamendo)으로 훈련시키고 다른 랜덤 시드를 사용해도 피크의 위치는 동일하게 나타났다. 이는 아티팩트가 정말로 아키텍처에만 의존한다는 강력한 증거다. 연구팀은 "훈련 데이터나 가중치가 달라도 피크 패턴이 같다는 것은 이 현상이 모델 구조의 본질적 특성임을 보여준다"고 강조했다. 실제로 각 모델별로 학습된 로지스틱 회귀 계수를 시각화한 결과, DAC, 엔코덱, 수노에서 각각 뚜렷하고 서로 다른 피크 패턴이 나타났다. 이는 각 모델의 아키텍처가 고유한 주파수 지문을 남긴다는 것을 의미한다.
1만 vs 2천만 매개변수... 단순 선형 모델이 복잡한 트랜스포머와 동등한 성능
연구팀이 개발한 탐지 방법은 놀랍도록 단순하다. 음악의 평균 스펙트럼을 계산한 후, 슬라이딩 윈도우를 사용해 지역 최솟값을 빼서 피크를 강조하는 방식이다. 여기에 5kHz에서 16kHz 대역폭으로 제한해 멜로디 정보와 불필요한 노이즈를 제거한다. 이 간단한 방법을 바탕으로 만든 로지스틱 회귀 모델은 겨우 1만 개의 매개변수만 사용한다. 반면 기존의 딥러닝 기반 탐지 모델들은 수백만에서 수천만 개의 매개변수를 사용한다. 그럼에도 불구하고 성능은 놀라울 정도로 뛰어나다.
오픈소스 모델 탐지에서는 실제 음악 99.87%, DAC 합성 음악 99.68%, 엔코덱 합성 음악 99.81%, 뮤지카 합성 음악 99.97%의 정확도를 기록했다. 이는 기존 연구에서 보고된 CNN 기반 모델의 성능과 거의 동일한 수준이다. 상용 서비스 탐지에서도 인상적인 결과를 보였다. 실제 음악은 99.97%, 수노 v3.5는 100%, 우디오 130은 100%의 완벽한 탐지율을 달성했다. 다만 훈련 시 보지 못한 우디오 32 버전에서는 39.83%로 성능이 크게 떨어졌는데, 이는 유디오가 32 버전과 130 버전 사이에 모델 아키텍처를 변경했을 가능성을 시사한다.
연구팀은 "복잡한 딥러닝 모델 대신 단순한 선형 모델로도 이런 성능을 얻을 수 있다는 것은 AI 음악의 아티팩트가 매우 뚜렷하고 일관된 특성을 가지고 있음을 보여준다"고 설명했다.
스트리밍 플랫폼 음악 20% 이상 AI 생성... 음악가 수익 24% 위험 경고
AI 음악 생성 기술의 급속한 발전과 함께 음악 산업에는 전례 없는 변화가 일어나고 있다. 최근 보고서에 따르면 스트리밍 플랫폼에 업로드되는 음악의 최소 20%가 현재 AI로 생성된 것으로 추정된다. 이는 AI 음악이 더 이상 실험적 기술이 아니라 음악 산업의 현실이 되었음을 의미한다. 수노의 CEO는 "사람들은 음악을 만드는 과정을 실제로는 즐기지 않는다"고 주장하며 AI 음악 생성의 필요성을 역설했지만, 이는 음악계에서 큰 논란을 불러일으켰다. 실제로 음악가들과 업계 종사자들 사이에서는 AI 음악에 대한 우려가 크게 증가하고 있다.
국제저작권단체연맹(CISAC)의 연구에 따르면 생성형 AI로 인해 향후 몇 년 내에 음악가 수익의 24%가 위험에 처할 것으로 예상된다. 이는 단순히 경제적 문제를 넘어 음악 창작의 본질과 관련된 근본적인 질문을 제기한다. 저작권 침해 문제도 심각하다. 여러 음반사들이 수노와 우디오를 상대로 저작권 침해 소송을 제기했으며, AI 모델이 기존 음악을 무단으로 학습했다고 주장하고 있다. 가디언 등 주요 언론들도 이 문제를 집중 보도하며 AI 음악 생성의 윤리적 문제를 제기하고 있다.
이런 상황에서 AI 생성 음악을 정확하게 탐지할 수 있는 기술의 중요성이 더욱 부각되고 있다. 현재까지 나온 AI 탐지 서비스들도 대부분 블랙박스 방식으로 작동해 투명성이 부족했지만, 이번 연구는 수학적 이론에 기반한 해석 가능한 방법을 제시했다는 점에서 의미가 크다. 연구팀은 "AI와 탐지기 사이의 군비경쟁에서 한 발 물러나 합성 콘텐츠의 본질적 특성이 무엇인지, 어떻게 탐지할 수 있는지를 근본적으로 이해하려 했다"며 연구의 의의를 설명했다.
FAQ
Q: AI 음악 탐지가 왜 중요한가요?
A: 스트리밍 플랫폼 음악의 20% 이상이 AI로 생성되고 있어 저작권 보호와 음악가 수익 보장을 위해 정확한 탐지 기술이 필요합니다. 또한 음악 산업의 투명성과 공정성을 위해서도 중요합니다.
Q: 이 연구의 탐지 방법이 기존 방법과 다른 점은 무엇인가요?
A: 기존의 블랙박스 방식과 달리 수학적 이론에 기반한 해석 가능한 방법입니다. 푸리에 변환을 이용해 주파수 아티팩트를 분석하며, 단순한 선형 모델로도 99% 이상의 높은 정확도를 달성할 수 있습니다.
Q: 모든 AI 음악 생성 모델에서 이런 아티팩트가 나타나나요?
A: 디컨볼루션 모듈을 사용하는 대부분의 생성형 AI 모델에서 이러한 주파수 아티팩트가 나타납니다. 연구팀은 오픈소스 모델뿐만 아니라 수노, 우디오 등 상용 서비스에서도 동일한 현상을 확인했습니다.
해당 기사에 인용된 논문에 대한 자세한 사항은 arxiv에서 확인 가능하다.
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기