텍스트 기반 음악 편집의 혁신적 진전
인공지능 음악 생성 기술이 크게 발전했지만, 생성된 음악을 세밀하게 제어하고 편집하는 것은 여전히 중요한 과제로 남아있다. 기존의 접근 방식들은 전문화된 편집 모델을 처음부터 학습시키거나, 기존 언어 모델과 MusicGen을 활용하는 방식을 택했다. 하지만 이러한 방식들은 리소스 소모가 크거나 조건부 오디오를 정확하게 재구성하지 못하는 한계가 있었다.
‘인스트럭트 뮤직젠’은 이러한 문제를 해결하기 위해 사전 학습된 모델의 지식을 활용하면서도 음악 편집 작업에 특화된 아키텍처를 도입했다. 특히 오디오 퓨전 모듈과 텍스트 퓨전 모듈을 통해 텍스트 기반 지시사항과 오디오 입력을 동시에 처리할 수 있게 설계되었다.
말로 하는 음악 편집이 현실로
인스트럭트 뮤직젠의 핵심은 MusicGen 모델에 instruction-following 튜닝 전략을 적용한 것이다. 이를 통해 모든 파라미터를 재학습할 필요 없이 효과적으로 편집 지시사항을 따를 수 있게 되었다. LLaMA-adapter 기반의 오디오 퓨전 모듈과 LoRA 기반의 텍스트 퓨전 모듈을 MusicGen 아키텍처에 통합함으로써, 정확한 오디오 조건과 텍스트 기반 지시사항을 동시에 처리할 수 있게 되었다.
이 모델은 Slakh2100 데이터셋을 사용해 instruction 데이터셋을 합성하여 학습되었다. 이미 학습된 AI 모델의 지식을 활용하면서도, 음악 편집에 특화된 구조를 통해 더 정교한 음악 편집을 가능하게 만들었다. 특히 텍스트와 오디오를 동시에 처리할 수 있는 '오디오 퓨전 모듈'과 '텍스트 퓨전 모듈'을 도입해, 사용자가 자연스러운 언어로 음악을 편집할 수 있게 했다. 주목할 만한 점은 원본 모델 대비 약 8%의 추가 파라미터만으로도, 단 5천 번의 학습 스텝으로 음악 편집 모델을 처음부터 학습시키는 것보다 훨씬 효율적인 성능을 달성했다는 것이다.
모델의 구체적인 작동 방식
인스트럭트 뮤직젠은 음악 오디오 입력(X_cond)과 텍스트 지시사항(X_instruct)을 입력으로 받아, 지시사항에 따라 음악을 편집하여 새로운 음악(X_music)을 생성한다. 이 과정에서 오디오 퓨전 모듈과 텍스트 퓨전 모듈이라는 두 가지 주요 모듈이 작동한다.
오디오 퓨전 모듈은 먼저 입력된 오디오를 EnCodec 토큰으로 변환한다. 이후 MusicGen의 사전 학습된 임베딩 레이어를 통해 이 토큰들을 재인코딩하고, 자기 주의 모듈을 통해 오디오의 잠재 표현을 추출한다. 마지막으로 크로스 어텐션을 통해 조건부 오디오 정보를 음악 생성 과정에 통합한다.
텍스트 퓨전 모듈의 경우, T5 텍스트 인코더의 파라미터는 고정한 채로 크로스 어텐션 모듈만 파인튜닝을 진행한다. 이 과정에서 LoRA를 쿼리와 밸류 프로젝션 레이어에 적용하여 효율적인 파인튜닝을 구현하며, 이를 통해 텍스트 지시사항의 의미를 음악 생성 과정에 효과적으로 반영할 수 있다.
기술적 의의와 발전 가능성
인스트럭트 뮤직젠의 가장 큰 혁신은 사전 학습된 대규모 음악 언어 모델에 효율적인 instruction tuning을 적용했다는 점이다. 이는 모델 효율성, 기능의 확장성, 실용적 의의 측면에서 중요한 의미를 갖는다.
모델 효율성 측면에서, 인스트럭트 뮤직젠은 최소한의 추가 파라미터로 새로운 기능을 구현하고 짧은 학습 시간으로 높은 성능을 달성했으며, 계산 리소스 사용을 최적화했다. 기능의 확장성 측면에서는 스템 추가, 분리, 제거 등 다양한 편집 작업을 지원하고, 단일 학습 과정으로 여러 작업을 수행할 수 있으며, 기존 특화 모델들과 비교 가능한 성능을 보여준다.
실용적 측면에서도 음악 프로듀션 환경에서의 실질적 활용이 가능하며, 직관적인 텍스트 기반 인터페이스를 제공하고, 기존 워크플로우와의 통합 가능성을 제시한다. 이러한 발전은 AI 기반 음악 생성 및 편집 기술의 새로운 지평을 열었다고 평가할 수 있다. 특히 텍스트 기반의 자연스러운 상호작용을 통해 음악을 편집할 수 있게 되었다는 점은, AI가 실제 음악 제작 환경에서 더욱 유용한 도구로 자리잡을 수 있는 가능성을 보여준다.
객관적으로 입증된 성능
인스트럭트 뮤직젠은 Slakh 테스트 세트와 MoisesDB 데이터셋을 통해 평가되었다. 객관적 평가는 여러 지표를 통해 이루어졌는데, 먼저 프레셰 오디오 거리(FAD)를 통해 생성된 오디오의 전반적인 품질을 평가했으며, CLAP 점수로는 오디오와 텍스트 설명 간의 일치도를 측정했다. KL 다이버전스는 예측된 오디오 특성의 분포 차이를 분석하는 데 활용되었고, 구조적 유사도(SSIM)를 통해 예측된 음악과 실제 음악 간의 구조적 유사성을 평가했다. 또한 SI-SDR을 통해 오디오 품질의 왜곡 정도를 측정했으며, SI-SDRi로는 오디오 개선도를 평가했다.
주관적 평가는 두 가지 주요 측면에 중점을 두었다. 첫째로 지시사항 준수도(IA)를 통해 생성된 음악이 주어진 편집 지시사항을 얼마나 충실히 따랐는지 평가했으며, 둘째로 오디오 품질(AQ)을 통해 생성된 음악의 전반적인 음질을 평가했다.
평가 결과, 인스트럭트 뮤직젠은 기존의 베이스라인 모델들과 비교하여 우수한 성능을 보여주었다. 특히 스템 추가, 제거, 분리와 같은 복잡한 편집 작업에서 뛰어난 성능을 보였으며, 개별 작업을 위해 특별히 학습된 모델들과 비슷한 수준의 성능을 달성했다.
현재의 한계점과 향후 과제
인스트럭트 뮤직젠이 보여준 혁신적인 성과에도 불구하고, 몇 가지 주요한 한계점이 존재한다. 먼저 신호 레벨의 정밀도 측면에서, EnCodec 토큰을 예측하는 과정에서 필연적으로 발생하는 부정확성이 있으며, 생성적 편집 작업의 특성상 완벽한 신호 레벨의 정밀도를 보장하기 어렵다는 문제가 있다.
데이터셋 의존성 측면에서도 한계가 있다. 파인튜닝 과정에서 여전히 페어드(paired) 데이터에 의존하고 있으며, 복잡한 편집 작업을 위한 페어드 데이터셋을 구축하는 것이 어렵다는 문제가 있다. 또한 이로 인해 더 다양한 편집 시나리오로의 확장이 제한적이라는 한계도 존재한다.
기술적 의의와 발전 가능성
인스트럭트 뮤직젠의 가장 큰 혁신은 사전 학습된 대규모 음악 언어 모델에 효율적인 instruction tuning을 적용했다는 점이다. 이는 여러 측면에서 중요한 의미를 갖는다.
모델 효율성 측면에서는 최소한의 추가 파라미터만으로도 새로운 기능을 구현할 수 있으며, 짧은 학습 시간으로도 높은 성능을 달성할 수 있다. 또한 계산 리소스의 사용을 최적화했다는 점도 주목할 만하다.
기능의 확장성 측면에서는 스템 추가, 분리, 제거 등 다양한 편집 작업을 지원할 수 있으며, 단일 학습 과정으로 여러 작업을 수행할 수 있다는 장점이 있다. 특히 기존의 특화 모델들과 비교 가능한 수준의 성능을 보여준다는 점이 중요하다.
실용적 측면에서도 의미 있는 발전을 이루었다. 음악 프로듀션 환경에서 실질적으로 활용할 수 있으며, 직관적인 텍스트 기반 인터페이스를 제공한다. 또한 기존의 워크플로우와도 자연스럽게 통합될 수 있는 가능성을 보여주었다.
이러한 발전은 AI 기반 음악 생성 및 편집 기술의 새로운 지평을 열었다고 평가할 수 있다. 특히 텍스트 기반의 자연스러운 상호작용을 통해 음악을 편집할 수 있게 되었다는 점은, AI가 실제 음악 제작 환경에서 더욱 유용한 도구로 자리잡을 수 있는 가능성을 보여준다.
앞으로의 연구는 신호 레벨의 정밀도를 높이고, 페어드 데이터셋에 대한 의존도를 낮추는 방향으로 진행될 것으로 예상된다. 이러한 한계점들이 극복된다면, 인스트럭트 뮤직젠은 AI 기반 음악 제작의 새로운 표준이 될 수 있을 것이다.
AI와 음악의 새로운 미래
인스트럭트 뮤직젠의 개발은 AI 기반 음악 편집 기술의 중요한 이정표가 되었다. 이 모델은 효율적인 학습 방식과 직관적인 인터페이스를 통해, AI 음악 생성 기술의 실용성을 한 단계 높였다. 비록 몇 가지 기술적 한계가 존재하지만, 이는 향후 연구를 통해 극복될 수 있는 과제들이며, 이미 보여준 혁신적인 성과만으로도 AI 음악 기술의 새로운 가능성을 제시했다고 평가할 수 있다.
기사에 인용된 리포트의 원문은 링크에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기