카이스트, LLM 학습 시간 예측하는 시뮬레이션 개발… AI 모델 훈련 비용 5% 절감한다 : 다나와 DPG는 내맘을 디피지

vTrain: A Simulation Framework
for Evaluating Cost-effective and Compute-optimal Large Language Model Training

GPU 활용률 10% 저하로 훈련 비용 수백만 달러 증가, vTrain으로 해결책 제시

대규모 언어 모델(LLM)이 다양한 응용 분야에서 널리 보급됨에 따라 인공지능 커뮤니티가 직면한 중요한 과제는 이러한 대규모 AI 모델을 비용 효율적인 방식으로 훈련하는 방법이다. 기존의 LLM 훈련 계획은 일반적으로 LLM 병렬화 공간에 대한 철저한 검토보다는 경험적 관찰에 기반한 휴리스틱 기반 병렬 훈련 전략을 채택한다. 이러한 한계로 인해 기존 시스템은 상당한 성능 향상의 여지를 남겨두게 되며, 수백만 달러에 달하는 훈련 비용이 낭비된다. 예를 들어, 1,024대의 NVIDIA A100 GPU를 사용하여 GPT-3(175B 매개변수)를 훈련할 때, GPU 컴퓨팅 활용률이 단지 10%(50%에서 40%로) 감소하더라도 훈련 시간이 8일 증가하여 수백만 달러의 추가 비용이 발생한다. 그러나 이러한 대규모 LLM을 훈련해야 하는 규모 때문에 훈련 시스템 구성의 설계 공간을 철저히 탐색하여 가장 최적의 비용 효율적인 하이퍼파라미터를 찾는 것은 극히 어려운 일이다.

수십 분 내 최적 훈련 전략 도출하는 vTrain의 혁신적 시뮬레이션 기술

카이스트가 발표한 논문에 따르면, 비용 효율적이고 컴퓨팅 최적의 LLM 훈련 시스템 평가를 안내하는 프로파일링 기반 시뮬레이터인 vTrain은 해당 문제를 해결하는 데 도움이 된다. vTrain은 AI 실무자들에게 효율적이고 비용 효율적인 LLM 훈련 시스템 구성을 결정하기 위한 빠르고 정확한 소프트웨어 프레임워크를 제공한다. vTrain의 핵심 특징은 프로파일링 기반 방법론을 사용하여 각 설계 지점의 LLM 훈련 시간을 정확하게 추정하는 것이다. 이는 고성능 멀티코어 CPU 서버에서 몇 십 분 내에 최적의 LLM 훈련 시스템 구성을 결정할 수 있게 한다.

vTrain의 설계는 LLM 훈련 시간을 정확하게 추정할 수 있게 하는 다음과 같은 핵심 관찰에 기반한다. 첫째, 최신 AI 알고리즘은 각 그래프 노드가 신경망 레이어를 나타내는 비순환 그래프로 표현된다. 둘째, LLM 추론과 달리, 훈련을 위한 LLM 그래프 노드의 실행 순서는 컴파일 시간에 정확하게 정의되므로 vTrain은 얼마나 많은 LLM 그래프 노드를 실행해야 하는지와 그 실행 순서를 정적으로 결정할 수 있다. 셋째, 대상 GPU 아키텍처에서 각 개별 LLM 그래프 노드(각 레이어)의 실행 시간은 매우 결정적이며 서로 다른 실행 간에 거의 변동이 없다.

경험적 방식 대비 10% 적은 GPU로 5% 비용 절감, vTrain의 사례 연구

vTrain의 실용성을 입증하기 위해 여러 사례 연구를 실시했다.

첫 번째 사례는 비용 효율적인 LLM 훈련 계획이다. 주어진 LLM, 훈련 토큰 크기 및 컴퓨팅 예산(즉, 총 GPU 수)이 주어졌을 때, 벽시계 훈련 시간과 그에 관련된 훈련 비용을 최소화하는 가장 최적의 훈련 병렬화 전략을 결정할 수 있다.

두 번째는 비용 효율적인 멀티테넌트 LLM 스케줄링으로, 여러 LLM 훈련 작업이 GPU 클러스터를 공유할 때, GPU 활용률을 최대화하면서 작업 완료 시간을 최소화하는 효율적인 스케줄링 알고리즘을 식별할 수 있다.

세 번째는 컴퓨팅 최적의 LLM 모델 설계로, 고정된 컴퓨팅 및 훈련 시간 예산이 주어졌을 때, Chinchilla 스케일링 법칙을 만족하는 가장 큰 LLM을 결정할 수 있다. 예를 들어, MT-NLG(530B) 모델 훈련에서 vTrain은 기존 방식보다 10% 적은 GPU를 사용하면서 4.5% 높은 GPU 활용률을 달성하고, 훈련 비용을 5% 절감하는 훈련 계획을 도출했다.

텐서, 데이터, 파이프라인 병렬화의 최적 조합으로 LLM 훈련 효율성 극대화

현대 LLM 훈련은 최첨단 3D 병렬화 방식(데이터 병렬화, 텐서 병렬화, 파이프라인 병렬화)을 적용한다. 이는 LLM과 같은 거대한 AI 모델을 분할하여 여러 GPU에서 효율적으로 학습시키기 위한 전략이다. 텐서 병렬화는 모델 가중치를 GPU 내에서 열과 행 차원으로 나누어 같은 노드 내 GPU 간에 고대역폭 통신을 활용한다. 데이터 병렬화와 파이프라인 병렬화는 주로 노드 간 병렬화에 사용되며, 상대적으로 통신 오버헤드가 적다. vTrain은 이러한 복잡한 병렬화 전략의 성능을 정확하게 모델링하고, 최적의 구성을 찾아내어 GPU 활용률을 높이고 훈련 비용을 최소화할 수 있다.

145억에서 76억 매개변수로: vTrain으로 발견한 30일 내 훈련 가능한 현실적 모델 크기

Chinchilla 스케일링 법칙에 따르면, 주어진 컴퓨팅 예산 내에서 최적의 모델 크기와 훈련 토큰 수 사이에는 균형이 필요하다. 단순히 모델 크기만 키우는 것은 과소훈련으로 이어져 알고리즘 성능을 완전히 활용하지 못한다. GPU 효율성에 대한 현실적인 평가 없이 단순히 가용 GPU 수만으로 컴퓨팅 예산을 결정하면 오해의 소지가 있다. vTrain은 실제 GPU 활용률을 고려하여 보다 현실적인 컴퓨팅 최적 모델 크기를 도출할 수 있다. 예를 들어, 420개의 NVIDIA DGX A100 서버(3,360 A100 GPU)를 30일 동안 사용한다고 가정할 때, 단순히 100% GPU 활용률을 가정하면 1,456억 매개변수의 모델을 2,912억 토큰으로 훈련할 수 있다고 예상할 수 있다.

그러나 vTrain은 실제로는 평균 35.56%의 GPU 활용률만 달성 가능하며, 이는 원래 기대했던 30일 대신 85일의 훈련 시간이 필요함을 보여준다. vTrain을 사용하면 760억 매개변수의 모델을 1,521억 토큰으로 30일 내에 훈련할 수 있는 더 현실적인 계획을 수립할 수 있다.

FAQ

Q: 대규모 언어 모델 훈련에서 GPU 활용률이 왜 그렇게 중요한가요?
A: GPU 활용률은 훈련 시간과 비용에 직접적인 영향을 미칩니다. vTrain의 연구에 따르면 GPU 활용률이 단 10% 감소하더라도(50%에서 40%로) 훈련 시간이 8일 증가하며, 이는 수백만 달러의 추가 비용을 의미합니다. 따라서 최적의 병렬화 전략을 통한 GPU 활용률 최적화는 비용 효율적인 LLM 훈련에 필수적입니다.

Q: vTrain은 어떻게 기존 LLM 훈련 방식보다 더 효율적인 방법을 찾아낼 수 있나요?
A: vTrain은 프로파일링 기반 시뮬레이션을 통해 수천 가지의 가능한 병렬화 구성을 빠르게 평가하여 최적의 훈련 계획을 도출합니다. 기존 방식은 경험적 관찰에 기반한 휴리스틱에 의존하지만, vTrain은 전체 설계 공간을 체계적으로 탐색하여 GPU 활용률과 훈련 시간 사이의 최적 균형점을 찾아냅니다.

Q: Chinchilla 스케일링 법칙이란 무엇이며 LLM 훈련에 어떤 영향을 미치나요?
A: Chinchilla 스케일링 법칙은 주어진 컴퓨팅 예산 내에서 모델 크기와 훈련 토큰 수를 균형있게 확장해야 한다는 원칙입니다. 이 법칙에 따르면, 모델을 과소훈련하면 해당 모델의 알고리즘 잠재력을 완전히 발휘할 수 없습니다. vTrain은 실제 GPU 효율성을 고려하여 이 법칙을 적용함으로써, 주어진 시간과 자원 내에서 훈련할 수 있는 최적의 모델 크기와 토큰 수를 더 정확하게 예측할 수 있습니다.

해당 기사에서 인용한 논문 원문은 링크에서 확인할 수 있다.

이미지 출처: 카이스트

기사는 클로드와 챗GPT를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

골프존그룹, 창립 25주년 사회공헌 활동 '스윙 유어 드림' 개최	연합뉴스
'수원CC는 내 땅' 7언더파 이예원, 타이틀 방어 '파란불'	연합뉴스
레저산업연구소, 레저백서 2025 발간…골프 산업 전망 등 수록	연합뉴스
SK텔레콤 채리티오픈 14일 개최…최경주·이경규·이대호 참가	연합뉴스
브리지스톤 골프, 연철 단조 아이언 242CB+ 출시	연합뉴스
뷰소닉, 홈앤빔 구매자 대상 후기 프로모션 진행	다나와
단종됐던 볼보 간판급 왜건 XC70, 플러그인 하이브리드 SUV로 부활	오토헤럴드
폴스타코리아, 국내 최대 규모 ‘스페이스 수원’ 오픈…고객 접점 확대 속도	오토헤럴드
기아, 인도 전략형 3열 미니밴 '카렌스 클라비스' 완전 공개	오토헤럴드
'불안정한 대외 환경 속에도' 람보르기니 1분기 판매 역대 최고	오토헤럴드
폴스타, '2025 브랜드 고객충성도 대상' 전기차 부문 3년 연속 1위 수상	오토헤럴드
마세라티, 그란투리스모 · 그란카브리오 엔트리 출시 '프리마 에디치오네' 한정 제공	오토헤럴드
'세련된 컬러감으로 다시' 쉐보레, 2026년형 트레일블레이저 출시	오토헤럴드
기아 오토랜드 광주의 첫 전용 전기차 EV5… 글로벌 판매로 기대감 고조	오토헤럴드
트럼프 관세 위협에 미국산 부품 비중 50% 넘어야… 자동차 업계 '촉각'	글로벌오토뉴스
솔라엣지, 상업용 태양광 연동 스마트 EV 충전기로 친환경·저비용 충전 혁신	글로벌오토뉴스
람보르기니, 2025년 1분기 판매 2,967대, 매출 10억 달러 돌파	글로벌오토뉴스
중국 자동차 시장, 정부 정책 및 모터쇼 효과로 3월 판매 급증	글로벌오토뉴스
미쓰비시 자동차, 혼하이·닛산으로부터 전기차 OEM 공급… 일본 시장 및 EV 전략 강화	글로벌오토뉴스
중국 자동차 시장 판도 변화: 폭스바겐 밀리고 BYD 질주	글로벌오토뉴스
GM, 3D 프린팅 기술로 '셀레스틱' 대량 생산	글로벌오토뉴스
유럽 자동차 시장, 지정학적 불안과 경제 침체 속에서도 회복 조짐	글로벌오토뉴스
페라리, 2026년 10월 첫 전기차 인도…1분기 호실적에도 연간 전망 유지	글로벌오토뉴스
BMW, 미국 관세 7월 인하 기대…무역 불확실성 속 2025년 전망 유지	글로벌오토뉴스
미쓰비시, 닛산 리프 기반 차세대 전기차 내년 북미 출시	글로벌오토뉴스
BMW 코리아, 창립 30주년 기념 5월 온라인 한정 에디션 5종 출시	글로벌오토뉴스
콘티넨탈, ‘2025 서울자전거대행진’ 공식 협찬사 참가	글로벌오토뉴스
폴스타, 3년 연속 전기차 고객충성도 1위… 소비자 신뢰 다시 입증	글로벌오토뉴스
람보르기니, 2025년 1분기 역대 최고 실적 달성	글로벌오토뉴스
현대차 아이오닉 9·기아 EV3, 2025 탑기어 전기차 어워즈 2관왕	글로벌오토뉴스
쉐보레, 2026년형 트레일블레이저 출시	글로벌오토뉴스
338. BMW의 하트 오브 조이, 그리고 “다시 중국으로”	글로벌오토뉴스
알파스캔, 올레드 480Hz 프리미엄 게이밍 모니터 '276QKD' 출시 행사 진행	다나와
농협, KLPGA 대회장에 '밥차'…"우리 쌀로 건강한 아침 식사를"	연합뉴스
기획부터 편집까지, 유튜브 콘텐츠 제작에 핵심적인 9가지 AI 툴	다나와
KPGA 클래식 2라운드 악천후로 취소…54홀 경기로 축소	연합뉴스
골프장에서 열리는 K팝 향연 '그린콘서트' 31일 개최	연합뉴스
컴투스홀딩스, 액션 MMORPG ‘아레스: 라이즈 오브 가디언즈’ 글로벌 퍼블리싱 계약 체결	게임동아
“투자자문 입회비 반환 드립니다” 솔깃한 전화ㆍ메시지 속지 마세요	IT동아
KLPGA 도전한 중국 상금왕 지유아이 "1승·미국 진출 목표"	연합뉴스
최혜진, LPGA 투어 미즈호 아메리카스오픈 1R 공동 2위	연합뉴스
김주형, PGA 머틀비치 클래식 1R 공동 88위	연합뉴스
김시우, PGA 트루이스트 챔피언십 첫날 공동 11위	연합뉴스
버디 폭격기 옥태훈, KPGA 클래식 1R 단독 1위…버디만 8개 성공	연합뉴스
2주년 맞은 스마일게이트 ‘아우터플레인’ 신규 캐릭터 및 메인 스토리 업데이트 (1)	게임동아
카카오게임즈 신작 3종으로 팍스 이스트 참가	게임동아
자연재해가 미뤄졌다! GTA6 내년으로 밀리니 더욱 흥미진진해진 GOTY 경쟁 (1)	게임동아
넷마블, 1분기 영업이익 497억 원 기록	게임동아
‘8번 출구’, ‘프레디의 피자가게2’… 마인크래프트 뒤를 이을 게임 원작 영화, 뭐가 준비 중일까?	게임동아
“일부 코스튬 한정 무료 배포!” 네오위즈 ‘브라운더스트2’와 ‘고블린 슬레이어 II’가 만났다	게임동아
5월은 넷마블의 달 '세븐나이츠 리버스'와 '왕좌의 게임: 킹스로드' 출격	게임동아
위메이드, '미르의 전설2'·'미르의 전설3'에 가정의 달 이벤트 마련	게임동아
김지수, KLPGA 드림투어 5차전 우승…통산 3승	연합뉴스
BYD, 日에 소형 전기차 신모델 투입할 것... 현지 브랜드 "엄청난 위협" (1)	오토헤럴드
일평균 31대씩 팔린 中 전기차 'BYD 아토 3' 지난달 543대 출고 (1)	오토헤럴드
탑기어 '2025 올해의 전기차' 대상 포함 3관왕을 차지한 의외의 브랜드	오토헤럴드
한국앤컴퍼니, 기업주도형 벤처캐피털 ‘한국앤컴퍼니벤처스’ 설립	글로벌오토뉴스
전기차의 그늘 속, 다시 주목받는 하이브리드…토요타가 강한 이유	글로벌오토뉴스
폴스타코리아, 국내 최대 규모 ‘스페이스 수원’ 공식 오픈	글로벌오토뉴스
현대차, 혁신의 속도만큼 중요한 것은 치밀한 전략	글로벌오토뉴스
GTA 6 두 번째 트레일러, 하루 만에 8,000만 뷰 돌파 (1)	게임메카
KLPGA 투어 E1 채리티 오픈, 총상금 10억원으로 증액	연합뉴스
한강부터 와이키키까지, 러너를 위한 여행지도	뉴스탭
코카-콜라, 맛집 셰프들과 손잡고 ‘레드리본 위크’ 개최…스페셜 메뉴 단독 공개	뉴스탭
2024년 OLED 발광재료 사용량 129톤…삼성디스플레이 주도 속 30% 급증	뉴스탭
더샘, 올리브영 오특서 ‘컨실러 쿠션 리뉴’ 28% 할인… 여름철 강력 커버 강조	뉴스탭
5월 중고차 시장, SUV·경차 중심 강보합…“가계지출 증가에도 일부 수요 유지”	뉴스탭
디월트, 워크웨어 담은 의류 브랜드 ‘디월트 헤리티지’ 공개…툴로에서 단독 판매 개시	뉴스탭
나이언틱, ‘몬스터헌터 나우’로 플레이엑스포 참가…헌터들을 위한 오프라인 축제 열린다	뉴스탭
정치서의 계절, 이재명 관련 도서 5권 ‘톱10’ 진입 (1)	뉴스탭
배틀그라운드 모바일, ‘스팀펑크 테마 모드’ 업데이트…기차 타고 전장 누빈다	뉴스탭
여의도 봄꽃축제, IoT 인원관제로 안전 확보…엘핀 기술 주목	뉴스탭
사전 예약 70만 돌파… ‘문명: 연맹의 시대’, 이순신 효과로 한국 유저 사로잡다	뉴스탭
폭스바겐코리아, 장마철 앞두고 서비스 패키지 구매 고객에 ‘와이퍼·워셔액 반값’ 혜택	뉴스탭
벤틀리서울·홍익대, 디자인 협업 전시 개최… 미래 럭셔리 모빌리티 상상 담았다	뉴스탭
카시오, 전자계산기 60주년 기념 일본 전통 문양 모델 출시	뉴스탭
‘롬', 500명 참가한 1차 공식 공성전 마무리	게임동아
그라비티, 중남미 ‘라그나로크 오케스트라 콘서트’ 티켓 완판!	게임동아
쉐보레 '캡티바' 부활, EV 버전으로 중남미 · 아프리카 등에 출시 계획	오토헤럴드
'중국판 아이오닉' 북경현대, 700km 달리는 전용 전기차 일렉시오 공개	오토헤럴드
"비유럽권 시장 확대 전환점" 르노코리아, 그랑 콜레오스 중남미 수출 개시	오토헤럴드
5월 가정의 달, 패밀리 SUV '팰리세이드ㆍXC90' 중고차 시세 상승 주도	오토헤럴드
'전기 부품 밀봉 불량' 현대차, 美 팰리세이드 차주에게 야외 주차 권고	오토헤럴드
포드 추격하는 BYD, 순위 급상승... 4월 수입차 판매 전월 대비 14.8% 감소	오토헤럴드
KGM, 호주 AFL 명문 콜링우드 구단 스폰서십 체결... 현지 시장 경쟁력 강화	오토헤럴드
포드, 트럼프 경고에도 머스탱 마하-E 가격 인상 추진... '관세 충격' 현실화 (1)	오토헤럴드
폭스바겐, 여름 장마철 필수 소모품 50% 할인 서비스 패키지 특별 프로모션	오토헤럴드
폭스콘, 日 미쓰비시 전기차 위탁생산 MOU... 올해 말 공개, 내년 말 양산	오토헤럴드
마크 V 헤리티지 개러지서 '벤틀리×홍익대학교 디자인 프로젝트 기획 전시'	오토헤럴드
KLPGA, 산불 피해 지원 성금 2천만원 기부	연합뉴스
BMW, 독일 고전압 배터리 공장 건설 순항… 2025년 가동 목표	글로벌오토뉴스
트럼프발 관세 폭풍, 자동차 산업 '판' 흔든다... 생존 위한 합종연횡 불가피	글로벌오토뉴스
웨이모, 로보택시 재규어 I-PACE 두 배 증강…내년 말까지 3,500대 목표	글로벌오토뉴스
미국 시카고, 전기차 급증에 발맞춰 충전 인프라 확대 박차	글로벌오토뉴스
미국 공화당, 전기차 세액 공제 폐지 가능성 시사... 업계 '긴장'	글로벌오토뉴스
테슬라, 유럽 전기차 시장에서의 하락세 심화…영국에서도 판매 급감 (1)	글로벌오토뉴스
SK온, 전고체 배터리 수명 획기적 개선… 한양대 협력 리튬 금속 양극 기술 개발	글로벌오토뉴스
멕시코, 주 40시간 근무제 헌법 개정 추진… 제조업 인건비 상승 우려	글로벌오토뉴스
폭스바겐코리아, ‘폭스바겐 서비스 패키지 구매 특별 혜택 프로모션’ 실시	글로벌오토뉴스
KG모빌리티, 호주 AFL 명문 콜링우드와 스폰서 계약	글로벌오토뉴스

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

카이스트, LLM 학습 시간 예측하는 시뮬레이션 개발… AI 모델 훈련 비용 5% 절감한다

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

카이스트, LLM 학습 시간 예측하는 시뮬레이션 개발… AI 모델 훈련 비용 5% 절감한다

공유하기

공감/비공감