비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

LLM이 이끄는 AI 음악 혁명... 텍스트로 음악 편집하는 '인스트럭트 뮤직젠' 등장

2024.12.11. 11:23:26
조회 수
177
4

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

텍스트 기반 음악 편집의 혁신적 진전

인공지능 음악 생성 기술이 크게 발전했지만, 생성된 음악을 세밀하게 제어하고 편집하는 것은 여전히 중요한 과제로 남아있다. 기존의 접근 방식들은 전문화된 편집 모델을 처음부터 학습시키거나, 기존 언어 모델과 MusicGen을 활용하는 방식을 택했다. 하지만 이러한 방식들은 리소스 소모가 크거나 조건부 오디오를 정확하게 재구성하지 못하는 한계가 있었다.

‘인스트럭트 뮤직젠’은 이러한 문제를 해결하기 위해 사전 학습된 모델의 지식을 활용하면서도 음악 편집 작업에 특화된 아키텍처를 도입했다. 특히 오디오 퓨전 모듈과 텍스트 퓨전 모듈을 통해 텍스트 기반 지시사항과 오디오 입력을 동시에 처리할 수 있게 설계되었다.

말로 하는 음악 편집이 현실로

인스트럭트 뮤직젠의 핵심은 MusicGen 모델에 instruction-following 튜닝 전략을 적용한 것이다. 이를 통해 모든 파라미터를 재학습할 필요 없이 효과적으로 편집 지시사항을 따를 수 있게 되었다. LLaMA-adapter 기반의 오디오 퓨전 모듈과 LoRA 기반의 텍스트 퓨전 모듈을 MusicGen 아키텍처에 통합함으로써, 정확한 오디오 조건과 텍스트 기반 지시사항을 동시에 처리할 수 있게 되었다.

이 모델은 Slakh2100 데이터셋을 사용해 instruction 데이터셋을 합성하여 학습되었다. 이미 학습된 AI 모델의 지식을 활용하면서도, 음악 편집에 특화된 구조를 통해 더 정교한 음악 편집을 가능하게 만들었다. 특히 텍스트와 오디오를 동시에 처리할 수 있는 '오디오 퓨전 모듈'과 '텍스트 퓨전 모듈'을 도입해, 사용자가 자연스러운 언어로 음악을 편집할 수 있게 했다. 주목할 만한 점은 원본 모델 대비 약 8%의 추가 파라미터만으로도, 단 5천 번의 학습 스텝으로 음악 편집 모델을 처음부터 학습시키는 것보다 훨씬 효율적인 성능을 달성했다는 것이다.

모델의 구체적인 작동 방식

인스트럭트 뮤직젠은 음악 오디오 입력(X_cond)과 텍스트 지시사항(X_instruct)을 입력으로 받아, 지시사항에 따라 음악을 편집하여 새로운 음악(X_music)을 생성한다. 이 과정에서 오디오 퓨전 모듈과 텍스트 퓨전 모듈이라는 두 가지 주요 모듈이 작동한다.

오디오 퓨전 모듈은 먼저 입력된 오디오를 EnCodec 토큰으로 변환한다. 이후 MusicGen의 사전 학습된 임베딩 레이어를 통해 이 토큰들을 재인코딩하고, 자기 주의 모듈을 통해 오디오의 잠재 표현을 추출한다. 마지막으로 크로스 어텐션을 통해 조건부 오디오 정보를 음악 생성 과정에 통합한다.

텍스트 퓨전 모듈의 경우, T5 텍스트 인코더의 파라미터는 고정한 채로 크로스 어텐션 모듈만 파인튜닝을 진행한다. 이 과정에서 LoRA를 쿼리와 밸류 프로젝션 레이어에 적용하여 효율적인 파인튜닝을 구현하며, 이를 통해 텍스트 지시사항의 의미를 음악 생성 과정에 효과적으로 반영할 수 있다.

기술적 의의와 발전 가능성

인스트럭트 뮤직젠의 가장 큰 혁신은 사전 학습된 대규모 음악 언어 모델에 효율적인 instruction tuning을 적용했다는 점이다. 이는 모델 효율성, 기능의 확장성, 실용적 의의 측면에서 중요한 의미를 갖는다.

모델 효율성 측면에서, 인스트럭트 뮤직젠은 최소한의 추가 파라미터로 새로운 기능을 구현하고 짧은 학습 시간으로 높은 성능을 달성했으며, 계산 리소스 사용을 최적화했다. 기능의 확장성 측면에서는 스템 추가, 분리, 제거 등 다양한 편집 작업을 지원하고, 단일 학습 과정으로 여러 작업을 수행할 수 있으며, 기존 특화 모델들과 비교 가능한 성능을 보여준다.

실용적 측면에서도 음악 프로듀션 환경에서의 실질적 활용이 가능하며, 직관적인 텍스트 기반 인터페이스를 제공하고, 기존 워크플로우와의 통합 가능성을 제시한다. 이러한 발전은 AI 기반 음악 생성 및 편집 기술의 새로운 지평을 열었다고 평가할 수 있다. 특히 텍스트 기반의 자연스러운 상호작용을 통해 음악을 편집할 수 있게 되었다는 점은, AI가 실제 음악 제작 환경에서 더욱 유용한 도구로 자리잡을 수 있는 가능성을 보여준다.

객관적으로 입증된 성능

인스트럭트 뮤직젠은 Slakh 테스트 세트와 MoisesDB 데이터셋을 통해 평가되었다. 객관적 평가는 여러 지표를 통해 이루어졌는데, 먼저 프레셰 오디오 거리(FAD)를 통해 생성된 오디오의 전반적인 품질을 평가했으며, CLAP 점수로는 오디오와 텍스트 설명 간의 일치도를 측정했다. KL 다이버전스는 예측된 오디오 특성의 분포 차이를 분석하는 데 활용되었고, 구조적 유사도(SSIM)를 통해 예측된 음악과 실제 음악 간의 구조적 유사성을 평가했다. 또한 SI-SDR을 통해 오디오 품질의 왜곡 정도를 측정했으며, SI-SDRi로는 오디오 개선도를 평가했다.

주관적 평가는 두 가지 주요 측면에 중점을 두었다. 첫째로 지시사항 준수도(IA)를 통해 생성된 음악이 주어진 편집 지시사항을 얼마나 충실히 따랐는지 평가했으며, 둘째로 오디오 품질(AQ)을 통해 생성된 음악의 전반적인 음질을 평가했다.

평가 결과, 인스트럭트 뮤직젠은 기존의 베이스라인 모델들과 비교하여 우수한 성능을 보여주었다. 특히 스템 추가, 제거, 분리와 같은 복잡한 편집 작업에서 뛰어난 성능을 보였으며, 개별 작업을 위해 특별히 학습된 모델들과 비슷한 수준의 성능을 달성했다.

현재의 한계점과 향후 과제

인스트럭트 뮤직젠이 보여준 혁신적인 성과에도 불구하고, 몇 가지 주요한 한계점이 존재한다. 먼저 신호 레벨의 정밀도 측면에서, EnCodec 토큰을 예측하는 과정에서 필연적으로 발생하는 부정확성이 있으며, 생성적 편집 작업의 특성상 완벽한 신호 레벨의 정밀도를 보장하기 어렵다는 문제가 있다.

데이터셋 의존성 측면에서도 한계가 있다. 파인튜닝 과정에서 여전히 페어드(paired) 데이터에 의존하고 있으며, 복잡한 편집 작업을 위한 페어드 데이터셋을 구축하는 것이 어렵다는 문제가 있다. 또한 이로 인해 더 다양한 편집 시나리오로의 확장이 제한적이라는 한계도 존재한다.

기술적 의의와 발전 가능성

인스트럭트 뮤직젠의 가장 큰 혁신은 사전 학습된 대규모 음악 언어 모델에 효율적인 instruction tuning을 적용했다는 점이다. 이는 여러 측면에서 중요한 의미를 갖는다.

모델 효율성 측면에서는 최소한의 추가 파라미터만으로도 새로운 기능을 구현할 수 있으며, 짧은 학습 시간으로도 높은 성능을 달성할 수 있다. 또한 계산 리소스의 사용을 최적화했다는 점도 주목할 만하다.

기능의 확장성 측면에서는 스템 추가, 분리, 제거 등 다양한 편집 작업을 지원할 수 있으며, 단일 학습 과정으로 여러 작업을 수행할 수 있다는 장점이 있다. 특히 기존의 특화 모델들과 비교 가능한 수준의 성능을 보여준다는 점이 중요하다.

실용적 측면에서도 의미 있는 발전을 이루었다. 음악 프로듀션 환경에서 실질적으로 활용할 수 있으며, 직관적인 텍스트 기반 인터페이스를 제공한다. 또한 기존의 워크플로우와도 자연스럽게 통합될 수 있는 가능성을 보여주었다.

이러한 발전은 AI 기반 음악 생성 및 편집 기술의 새로운 지평을 열었다고 평가할 수 있다. 특히 텍스트 기반의 자연스러운 상호작용을 통해 음악을 편집할 수 있게 되었다는 점은, AI가 실제 음악 제작 환경에서 더욱 유용한 도구로 자리잡을 수 있는 가능성을 보여준다.

앞으로의 연구는 신호 레벨의 정밀도를 높이고, 페어드 데이터셋에 대한 의존도를 낮추는 방향으로 진행될 것으로 예상된다. 이러한 한계점들이 극복된다면, 인스트럭트 뮤직젠은 AI 기반 음악 제작의 새로운 표준이 될 수 있을 것이다.

AI와 음악의 새로운 미래

인스트럭트 뮤직젠의 개발은 AI 기반 음악 편집 기술의 중요한 이정표가 되었다. 이 모델은 효율적인 학습 방식과 직관적인 인터페이스를 통해, AI 음악 생성 기술의 실용성을 한 단계 높였다. 비록 몇 가지 기술적 한계가 존재하지만, 이는 향후 연구를 통해 극복될 수 있는 과제들이며, 이미 보여준 혁신적인 성과만으로도 AI 음악 기술의 새로운 가능성을 제시했다고 평가할 수 있다.

기사에 인용된 리포트의 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다. 




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
광주 광산구, 친환경 대중골프장 '광산CC' 조기 인수 추진 연합뉴스
데이터센터 에너지 소비부터 여성 AI 인력까지, 딜로이트가 꼽은 2025년 생성형AI의 과제들 AI matters
AI로 기업 지식 관리하니 업무 효율 72% 향상...97%는 '필수' 인정 AI matters
AI가 정신건강 진단을 돕는다...정확도 100% 달성한 하이브리드 진단시스템 개발 AI matters
"MZ 세대 주머니 꽉 닫았다" 작년 신차 판매 2013년 이후 최저 (1) 오토헤럴드
AI가 바꾸는 고객서비스의 미래: AI가 이끄는 CX 혁신 10가지 AI matters
타타대우모빌리티, 판매 네트워크 공격적 확장... 2월 5개소 신규 오픈 오토헤럴드
현대차, 작년 영업이익 5.9% 감소... 연간 배당 주당 1만 2000원 오토헤럴드
르노그룹 '인터내셔널 게임 플랜' 적중, 작년 1.3%증가한 226만대 기록 오토헤럴드
[영상] 레벨 2부터 레벨 3까지, 자율주행의 대중화 시점은 언제? 글로벌오토뉴스
현대차, 2024년 4분기 실적 발표… 매출 46조 원, 영업이익 2.8조 원 기록 (1) 글로벌오토뉴스
르노 그룹, 한국 시장 판매량 증가 비롯해 2024년 전 세계 시장에서 226만 대 판매 글로벌오토뉴스
AI가 주도하는 산업혁명, 현실이 된 '기계의 시대' …AI 성장의 6가지 동력은? AI matters
밀레니얼 세대가 AI 혁명을 주도하는 3가지 이유... AI 업무 활용률 최대 45% 기록 AI matters
엔비디아 보고서, 유통업계 절반 이상 AI ‘6개 이상’ 활용 중... 2025년 유통업계 AI 투자 97% 증가 전망 AI matters
앤트로픽, 클로드에 ‘음성 채팅’ 기능 출시 예고... AI 챗봇 경쟁 본격화 AI matters
링크드인, 프리미엄 회원 개인 메시지로 AI 학습 논란... "30만원대 유료회원 정보도 무단 활용" AI matters
KPGA 노동조합, 직원 대상 가혹행위 한 임원 경찰에 신고 연합뉴스
해긴, '플레이투게더' 을사년 맞이 업데이트 게임동아
넷마블 '모두의마블' 설 기념 이마트 24 프로모션 게임동아
이 시간 HOT 댓글!
1/4