LLM이 이끄는 AI 음악 혁명... 텍스트로 음악 편집하는 '인스트럭트 뮤직젠' 등장 : 다나와 DPG는 내맘을 디피지

텍스트 기반 음악 편집의 혁신적 진전

인공지능 음악 생성 기술이 크게 발전했지만, 생성된 음악을 세밀하게 제어하고 편집하는 것은 여전히 중요한 과제로 남아있다. 기존의 접근 방식들은 전문화된 편집 모델을 처음부터 학습시키거나, 기존 언어 모델과 MusicGen을 활용하는 방식을 택했다. 하지만 이러한 방식들은 리소스 소모가 크거나 조건부 오디오를 정확하게 재구성하지 못하는 한계가 있었다.

‘인스트럭트 뮤직젠’은 이러한 문제를 해결하기 위해 사전 학습된 모델의 지식을 활용하면서도 음악 편집 작업에 특화된 아키텍처를 도입했다. 특히 오디오 퓨전 모듈과 텍스트 퓨전 모듈을 통해 텍스트 기반 지시사항과 오디오 입력을 동시에 처리할 수 있게 설계되었다.

말로 하는 음악 편집이 현실로

인스트럭트 뮤직젠의 핵심은 MusicGen 모델에 instruction-following 튜닝 전략을 적용한 것이다. 이를 통해 모든 파라미터를 재학습할 필요 없이 효과적으로 편집 지시사항을 따를 수 있게 되었다. LLaMA-adapter 기반의 오디오 퓨전 모듈과 LoRA 기반의 텍스트 퓨전 모듈을 MusicGen 아키텍처에 통합함으로써, 정확한 오디오 조건과 텍스트 기반 지시사항을 동시에 처리할 수 있게 되었다.

이 모델은 Slakh2100 데이터셋을 사용해 instruction 데이터셋을 합성하여 학습되었다. 이미 학습된 AI 모델의 지식을 활용하면서도, 음악 편집에 특화된 구조를 통해 더 정교한 음악 편집을 가능하게 만들었다. 특히 텍스트와 오디오를 동시에 처리할 수 있는 '오디오 퓨전 모듈'과 '텍스트 퓨전 모듈'을 도입해, 사용자가 자연스러운 언어로 음악을 편집할 수 있게 했다. 주목할 만한 점은 원본 모델 대비 약 8%의 추가 파라미터만으로도, 단 5천 번의 학습 스텝으로 음악 편집 모델을 처음부터 학습시키는 것보다 훨씬 효율적인 성능을 달성했다는 것이다.

모델의 구체적인 작동 방식

인스트럭트 뮤직젠은 음악 오디오 입력(X_cond)과 텍스트 지시사항(X_instruct)을 입력으로 받아, 지시사항에 따라 음악을 편집하여 새로운 음악(X_music)을 생성한다. 이 과정에서 오디오 퓨전 모듈과 텍스트 퓨전 모듈이라는 두 가지 주요 모듈이 작동한다.

오디오 퓨전 모듈은 먼저 입력된 오디오를 EnCodec 토큰으로 변환한다. 이후 MusicGen의 사전 학습된 임베딩 레이어를 통해 이 토큰들을 재인코딩하고, 자기 주의 모듈을 통해 오디오의 잠재 표현을 추출한다. 마지막으로 크로스 어텐션을 통해 조건부 오디오 정보를 음악 생성 과정에 통합한다.

텍스트 퓨전 모듈의 경우, T5 텍스트 인코더의 파라미터는 고정한 채로 크로스 어텐션 모듈만 파인튜닝을 진행한다. 이 과정에서 LoRA를 쿼리와 밸류 프로젝션 레이어에 적용하여 효율적인 파인튜닝을 구현하며, 이를 통해 텍스트 지시사항의 의미를 음악 생성 과정에 효과적으로 반영할 수 있다.

기술적 의의와 발전 가능성

인스트럭트 뮤직젠의 가장 큰 혁신은 사전 학습된 대규모 음악 언어 모델에 효율적인 instruction tuning을 적용했다는 점이다. 이는 모델 효율성, 기능의 확장성, 실용적 의의 측면에서 중요한 의미를 갖는다.

모델 효율성 측면에서, 인스트럭트 뮤직젠은 최소한의 추가 파라미터로 새로운 기능을 구현하고 짧은 학습 시간으로 높은 성능을 달성했으며, 계산 리소스 사용을 최적화했다. 기능의 확장성 측면에서는 스템 추가, 분리, 제거 등 다양한 편집 작업을 지원하고, 단일 학습 과정으로 여러 작업을 수행할 수 있으며, 기존 특화 모델들과 비교 가능한 성능을 보여준다.

실용적 측면에서도 음악 프로듀션 환경에서의 실질적 활용이 가능하며, 직관적인 텍스트 기반 인터페이스를 제공하고, 기존 워크플로우와의 통합 가능성을 제시한다. 이러한 발전은 AI 기반 음악 생성 및 편집 기술의 새로운 지평을 열었다고 평가할 수 있다. 특히 텍스트 기반의 자연스러운 상호작용을 통해 음악을 편집할 수 있게 되었다는 점은, AI가 실제 음악 제작 환경에서 더욱 유용한 도구로 자리잡을 수 있는 가능성을 보여준다.

객관적으로 입증된 성능

인스트럭트 뮤직젠은 Slakh 테스트 세트와 MoisesDB 데이터셋을 통해 평가되었다. 객관적 평가는 여러 지표를 통해 이루어졌는데, 먼저 프레셰 오디오 거리(FAD)를 통해 생성된 오디오의 전반적인 품질을 평가했으며, CLAP 점수로는 오디오와 텍스트 설명 간의 일치도를 측정했다. KL 다이버전스는 예측된 오디오 특성의 분포 차이를 분석하는 데 활용되었고, 구조적 유사도(SSIM)를 통해 예측된 음악과 실제 음악 간의 구조적 유사성을 평가했다. 또한 SI-SDR을 통해 오디오 품질의 왜곡 정도를 측정했으며, SI-SDRi로는 오디오 개선도를 평가했다.

주관적 평가는 두 가지 주요 측면에 중점을 두었다. 첫째로 지시사항 준수도(IA)를 통해 생성된 음악이 주어진 편집 지시사항을 얼마나 충실히 따랐는지 평가했으며, 둘째로 오디오 품질(AQ)을 통해 생성된 음악의 전반적인 음질을 평가했다.

평가 결과, 인스트럭트 뮤직젠은 기존의 베이스라인 모델들과 비교하여 우수한 성능을 보여주었다. 특히 스템 추가, 제거, 분리와 같은 복잡한 편집 작업에서 뛰어난 성능을 보였으며, 개별 작업을 위해 특별히 학습된 모델들과 비슷한 수준의 성능을 달성했다.

현재의 한계점과 향후 과제

인스트럭트 뮤직젠이 보여준 혁신적인 성과에도 불구하고, 몇 가지 주요한 한계점이 존재한다. 먼저 신호 레벨의 정밀도 측면에서, EnCodec 토큰을 예측하는 과정에서 필연적으로 발생하는 부정확성이 있으며, 생성적 편집 작업의 특성상 완벽한 신호 레벨의 정밀도를 보장하기 어렵다는 문제가 있다.

데이터셋 의존성 측면에서도 한계가 있다. 파인튜닝 과정에서 여전히 페어드(paired) 데이터에 의존하고 있으며, 복잡한 편집 작업을 위한 페어드 데이터셋을 구축하는 것이 어렵다는 문제가 있다. 또한 이로 인해 더 다양한 편집 시나리오로의 확장이 제한적이라는 한계도 존재한다.

기술적 의의와 발전 가능성

인스트럭트 뮤직젠의 가장 큰 혁신은 사전 학습된 대규모 음악 언어 모델에 효율적인 instruction tuning을 적용했다는 점이다. 이는 여러 측면에서 중요한 의미를 갖는다.

모델 효율성 측면에서는 최소한의 추가 파라미터만으로도 새로운 기능을 구현할 수 있으며, 짧은 학습 시간으로도 높은 성능을 달성할 수 있다. 또한 계산 리소스의 사용을 최적화했다는 점도 주목할 만하다.

기능의 확장성 측면에서는 스템 추가, 분리, 제거 등 다양한 편집 작업을 지원할 수 있으며, 단일 학습 과정으로 여러 작업을 수행할 수 있다는 장점이 있다. 특히 기존의 특화 모델들과 비교 가능한 수준의 성능을 보여준다는 점이 중요하다.

실용적 측면에서도 의미 있는 발전을 이루었다. 음악 프로듀션 환경에서 실질적으로 활용할 수 있으며, 직관적인 텍스트 기반 인터페이스를 제공한다. 또한 기존의 워크플로우와도 자연스럽게 통합될 수 있는 가능성을 보여주었다.

이러한 발전은 AI 기반 음악 생성 및 편집 기술의 새로운 지평을 열었다고 평가할 수 있다. 특히 텍스트 기반의 자연스러운 상호작용을 통해 음악을 편집할 수 있게 되었다는 점은, AI가 실제 음악 제작 환경에서 더욱 유용한 도구로 자리잡을 수 있는 가능성을 보여준다.

앞으로의 연구는 신호 레벨의 정밀도를 높이고, 페어드 데이터셋에 대한 의존도를 낮추는 방향으로 진행될 것으로 예상된다. 이러한 한계점들이 극복된다면, 인스트럭트 뮤직젠은 AI 기반 음악 제작의 새로운 표준이 될 수 있을 것이다.

AI와 음악의 새로운 미래

인스트럭트 뮤직젠의 개발은 AI 기반 음악 편집 기술의 중요한 이정표가 되었다. 이 모델은 효율적인 학습 방식과 직관적인 인터페이스를 통해, AI 음악 생성 기술의 실용성을 한 단계 높였다. 비록 몇 가지 기술적 한계가 존재하지만, 이는 향후 연구를 통해 극복될 수 있는 과제들이며, 이미 보여준 혁신적인 성과만으로도 AI 음악 기술의 새로운 가능성을 제시했다고 평가할 수 있다.

기사에 인용된 리포트의 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

문명 6 플래티넘 에디션, 에픽서 18일부터 무료 배포	게임메카
어쌔신 크리드 4: 블랙 플래그, 리메이크 되나?	게임메카
[오늘의 스팀] 57만 동접이 1만으로, POE 2 침체 계속	게임메카
서브노티카 2, 앞서 해보기 일정 2026년으로 연기	게임메카
드래곤 에이지 베일가드, GAY밍 어워드 GOTY 선정	게임메카
크래프톤 '배틀그라운드 모바일' QWER과 컬래버레이션	게임동아
위메이드 ‘나이트 크로우’, 신규 클래스 ‘거너’와 신규 서버 업데이트 사전예약 개시!	게임동아
현대차-보스턴 다이내믹스, 외연 확장… 글로벌 기업과 HR 혁신 논의	오토헤럴드
현대모비스, 학교스포츠클럽 ‘양궁’ 채택 추진… 생활 체육 저변 확대	오토헤럴드
한국타이어, 사계절 교체 필요없는 올웨더 ‘웨더플렉스 GT’ 출시	오토헤럴드
현대차 제안, 친환경 수소 모빌리티 넥쏘 러브콜 캠페인 유재석 화답	오토헤럴드
'2025 제네시스 스코티시 오픈’ 성황리에 마쳐...크리스 고터럽 우승	오토헤럴드
현대차, 고성능 전기 세단 ‘아이오닉 6 N’ 굿우드 페스티벌 성공적 데뷔	오토헤럴드
폭스바겐, 중국 SAIC 합작공장 폐쇄	글로벌오토뉴스
테슬라, 인도 첫 쇼룸 오픈… 무역장벽 속 ‘조심스러운 진출’	글로벌오토뉴스
메르세데스-벤츠, 2분기 글로벌 판매 9% 감소	글로벌오토뉴스
마쯔다, 3세대 ‘뉴 CX-5’ 유럽 최초 공개… 연말 출시 예정	글로벌오토뉴스
일론 머스크 “다음 주 테슬라 차량에 AI ‘그로크(Grok)’ 탑재”	글로벌오토뉴스
현대차·기아·제네시스, 여름휴가철 맞아 ‘특별 무상점검 서비스’ 실시	글로벌오토뉴스
“로봇이 동료 된다”…현대차·보스턴다이나믹스, AI시대 인사전략 논의 (1)	글로벌오토뉴스
현대차·보스턴다이나믹스, 로봇-AI 시대 HR 역할 논의…미래 조직문화 변화 예고	글로벌오토뉴스
현대차·기아·제네시스, 여름철 특별 무상점검 서비스 실시	글로벌오토뉴스
폭스바겐, 전기 밴 'ID.Buzz' 미국 수출 중단… 트럼프 관세 폭탄 '직격탄'	글로벌오토뉴스
중국 신차 판매량 상반기 11.4% 급증… '신에너지차'가 성장 주도	글로벌오토뉴스
폭스바겐 그룹, 2분기 글로벌 판매 소폭 상승… BEV 성장에도 '중국-북미' 부진	글로벌오토뉴스
재규어 랜드로버-피렐리, '재생·재활용 소재' 지속가능 타이어 개발… 연내 레인지로버 장착	글로벌오토뉴스
다임러 트럭, '더 강력한 2030' 전략 발표… 북미 EV 투자 속도 조절, 수소트럭 양산 연기	글로벌오토뉴스
파나소닉, 미 캔자스 EV 배터리 공장 생산 계획 재검토… '테슬라 부진·트럼프 정책' 영향	글로벌오토뉴스
BMW 그룹, 상반기 BEV 판매 증가세 유지에도 2분기 성장은 정체… 경쟁사 압도적 우위 지속	글로벌오토뉴스
일론 머스크, 두 달 내 로보택시 캘리포니아 출시 주장에 시장은 회의적	글로벌오토뉴스
포니 AI, 7세대 로보택시 양산 돌입… 연말까지 1,000대 보급 목표	글로벌오토뉴스
중국 자동차제조업협회, 2035년 해외 시장 점유율 15% 목표 설정	글로벌오토뉴스
현대차, 굿우드 페스티벌서 ‘아이오닉 6 N’ 세계 최초 공개	글로벌오토뉴스
메르세데스-마이바흐, 서울 단독 공개 ‘실버 라이닝’ 한정판 출시	글로벌오토뉴스
람보르기니, 굿우드서 ‘테메라리오 GT3’ 세계 최초 공개	글로벌오토뉴스
폭스바겐그룹코리아, 청계천에 대형 그늘막 설치	글로벌오토뉴스
로터스, 엘레트라·에메야 2026년형 라인업 공개	글로벌오토뉴스
‘2025 제네시스 스코티시 오픈’, 역대 최다 관중 속 성황리 마무리	글로벌오토뉴스
기아, 첨단 사양 강화한 ‘The 2026 쏘렌토’ 출시	글로벌오토뉴스
유재석, 현대차 수소차 넥쏘 선택…“CO₂ 없는 미래, 저도 함께 하겠습니다”	글로벌오토뉴스
GM, 여름휴가철 맞아 ‘2025 하계 무상점검 캠페인’ 실시	글로벌오토뉴스
현대모비스, 청소년 생활체육 저변 확대 위해 ‘학교스포츠클럽 양궁대회’ 개최	글로벌오토뉴스
브리지스톤, 프리우스 PHEV 레이스 후원…송형진 3차전 우승	글로벌오토뉴스
피렐리, 세계 최초 70% 이상 지속가능 소재 적용 타이어 출시	글로벌오토뉴스
[영상] 하이브리드 SUV 시장의 다크호스, KGM 액티언 하이브리드 시승기	글로벌오토뉴스
캐릭터가 '멘붕'한다, 에픽세븐 개발사 신작 '카제나'	게임메카
심즈 4에 또 ‘임신 버그’ 발생했다	게임메카
동그라미로 검색, 구글 '서클 투 서치' 모바일게임도 지원	게임메카
닌텐도 스위치 2, 발매 한 달 만에 일반 판매 전환됐다	게임메카
사이버펑크 2077 보드게임 한국어판, 21일 펀딩 시작	게임메카
[오늘의 스팀] 역대 최대 동접, 전성기 맞은 델타 포스	게임메카
[순위분석] ‘익숙하지만 새로워’ 디아블로 4 TOP 10 눈앞	게임메카
15년간 고쳐지지 않은 버그, 드디어 해결한 게임	게임메카
[Q&AI] 문체부 장관 자격 논란... 왜?	AI matters
삼성, AI 성능과 보안 모두 잡은 갤럭시 Z폴드 7·Z플립 7 공개/ 25년 7월 둘째 주 [주간 AI 뉴스] #aimatters #ai매터스 #ai뉴스 동영상 있음	AI matters
“관광산업 어쩌나” 2030년까지 1,800만 명 일자리 사라진다	AI matters
맥킨지, “미래를 바꿀 5대 핵심 기술 중 하나는 ‘AI 탑재된 로봇’”	AI matters
"AI 도입했는데 돈 못 번다고?" 80% 기업이 놓친 진짜 AI 활용법	AI matters
고객 관리 업무 효율성 300% 향상시키는 챗GPT 사용 전략 10가지	AI matters
“AI가 대학 과제 푸는 시대 온다”…세계적 수학자 만줄 바르가바의 경고	다나와
"의료기기에 AI 탑재하면 돈 번다"... 관세 폭탄 맞은 의료기기 업계, 구독제로 반격	AI matters
"AI가 내 일 빼앗을까?" 질문에 근로자 절반 "AI랑 일하고 싶어"... 스탠포드 조사 결과 충격	AI matters
전 세계 생성형 AI 모델 지출 금액, 2025년에만 약 20조 원 쓴다	AI matters
맥킨지가 선정한 ‘2025년 AI 관련 필독서 6권’ 봤더니 'AI 윤리' 유독 강조	AI matters
한국형 AI 유니콘 육성 본격 시동… 정부, 6,000억 원 벤처펀드 조성	AI matters
챗GPT, 의사가 10년 간 발견하지 못했던 불치병의 실마리 발견	다나와
메타, AI 챗봇에 ‘선제 메시지’ 기능 실험… 사용자와의 거리 좁히기 성공할 수 있을까?	다나와
허깅페이스, 맞춤형 휴머노이드 로봇 '리치 미니' 출시.......가격은 299달러부터	다나와
[갤럭시 언팩 2025] 삼성전자, 갤럭시 언팩 후 테크 포럼 개최… "앰비언트 인텔리전스가 모바일 미래"	AI matters
네이버클라우드, 일본서 AI 업무 플랫폼 전환 가속화… AI로 고령화 대응한다	AI matters
"신앙심까지 측정한다"... 전 인텔 CEO, AI 윤리 평가 도구 만들어	AI matters
“썸썸 편의점이 반값~”, 스마일게이트 스팀서 역대급 여름 할인 진행 (1)	게임동아
크래프톤 기대작 ‘서브노티카2’, 창업자와 법정공방. 출시전부터 흔들 (1)	게임동아
[겜덕연구소] 철권 8 정식 출시.. 도대체 격투 게임은 어떻게 잘할 수 있을까?	게임동아
[겜덕연구소] 악당에게 처절한 몽둥이 찜질을 하사한다! 게임 속 몽둥이 특집!!	게임동아
제2의 블루아카이브를 노린다. 일본 시장 먼저 두드리는 서브컬처 게임들 (1)	게임동아
[한주의게임소식] 뜨거운 열기만큼 달아오른 격동의 게임시장	게임동아
라이엇, TFT 시즌 15 'K.O 콜로세움'은 "시원한 전장이 될 것" (1)	게임동아
크래프톤, 삼성전자와 ‘스쿨배틀 with 갤럭시 Z 폴드7’ 개최…전국 고교·대학생 대상 (1)	뉴스탭
벤틀리모터스, 크루 새 디자인 스튜디오에서 ‘EXP 15’ 비전 콘셉트카 최초 공개 (1)	뉴스탭
서린컴퓨터, 완제품 PC 구매 고객 대상 게이밍 기어 증정 이벤트 실시	뉴스탭
에이수스, 부산 롯데백화점서 키보드 팝업 ‘롯키팝’ 참가…ROG Azoth X 등 인기 게이밍 키보드 대거 전시	뉴스탭
테슬라, 차량용 소프트웨어 업데이트 2025.26 배포… AI ‘그록’(Grok) 탑재	뉴스탭
AMD, 차세대 'Zen 6'로 7GHz 돌파 도전…데스크톱 CPU 성능 경쟁 불붙는다	뉴스탭
삼성전자, 더현대 서울서 '갤럭시 Z 폴드7·플립7' 체험 공간 운영	뉴스탭
바이오스타 메인보드, 구매 후 CPU 소켓 무상 교체까지… 제이씨현시스템 ‘스타 케어’ 론칭	뉴스탭
메이크샵, 리뷰 솔루션 '파워리뷰' 요금제 전면 개편…월 5만원 프로 타입 신설	뉴스탭
빽다방, 수박우롱차부터 단팥 아이스크림까지…색다른 여름 음료 선보여	뉴스탭
삼성전자, KBO 올스타전서 갤럭시 Z 시리즈 신제품 체험존 운영	뉴스탭
매킬로이 꺾은 고터럽, 골프 세계랭킹 49위로 도약	연합뉴스
[PGA 최종순위] ISCO 챔피언십	연합뉴스
제네시스 스코티시오픈 성료…역대 최다 관중 기록	연합뉴스
“경찰청·금융사 공동대응” 시티즌코난 앱, 보이스피싱 범죄 해결책될까	IT동아
구글의 식탁 빼앗기나··· 오픈AI·퍼플렉시티도 뛰어드는 '브라우저 사업'	IT동아
“인공지능 시대의 보안을 강조하다” 코드게이트 2025	IT동아
PGA 투어 새내기 모우, ISCO 챔피언십에서 첫 우승	연합뉴스
[PGA 최종순위] 제네시스 스코틀랜드 오픈	연합뉴스
김시우, 엘스 출전 포기로 극적인 디오픈 출전권	연합뉴스
장유빈, LIV 골프 스페인 대회 53위…우승은 구치	연합뉴스
고터럽, 매킬로이 맞대결에서 우승…김주형은 공동 17위	연합뉴스

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

LLM이 이끄는 AI 음악 혁명... 텍스트로 음악 편집하는 '인스트럭트 뮤직젠' 등장

텍스트 기반 음악 편집의 혁신적 진전

말로 하는 음악 편집이 현실로

모델의 구체적인 작동 방식

기술적 의의와 발전 가능성

객관적으로 입증된 성능

현재의 한계점과 향후 과제

기술적 의의와 발전 가능성

AI와 음악의 새로운 미래

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

LLM이 이끄는 AI 음악 혁명... 텍스트로 음악 편집하는 '인스트럭트 뮤직젠' 등장

공유하기

텍스트 기반 음악 편집의 혁신적 진전

말로 하는 음악 편집이 현실로

모델의 구체적인 작동 방식

기술적 의의와 발전 가능성

객관적으로 입증된 성능

현재의 한계점과 향후 과제

기술적 의의와 발전 가능성

AI와 음악의 새로운 미래

공감/비공감