"AI 학습에 수십억 쓰기 전, 결과 예측한다"... 메타, 강화 학습 결과 예측하는 공식 공개 : 다나와 DPG는 내맘을 디피지

메타(Meta), 텍사스대학교 오스틴, UC버클리, 하버드대학교 등 공동 연구진이 인공지능 학습의 성능을 미리 예측할 수 있는 방법을 찾아냈다. 연구진은 40만 GPU 시간 이상을 투입한 대규모 실험을 통해, 컴퓨터 자원을 얼마나 투입하면 어느 정도 성능이 나올지 예측하는 수학 공식을 개발했다. 이를 바탕으로 10만 GPU 시간 규모까지 안정적으로 작동하는 새로운 학습 방법 'ScaleRL'도 함께 선보였다.

AI가 스스로 학습하는 과정, 이제 예측 가능해졌다

연구 논문에 따르면, 연구진은 AI의 '강화학습' 성능을 예측하기 위해 S자 곡선 모양의 그래프를 제안했다. 강화학습이란 AI가 시행착오를 거치며 스스로 학습하는 방식이다. 이 그래프는 세 가지 중요한 값으로 구성된다. 첫째, A는 아무리 많은 컴퓨터 자원을 투입해도 도달할 수 있는 최고 성능을 뜻한다. 둘째, B는 컴퓨터 자원 대비 얼마나 효율적으로 학습하는지를 나타낸다. 셋째, Cmid는 목표 성능의 절반에 도달하는 데 필요한 컴퓨터 자원의 양이다.

이 방법의 가장 큰 장점은 미래를 내다볼 수 있다는 점이다. 연구진은 80억 개 파라미터 모델과 17B×16 MoE 모델을 대상으로 실험했다. 80억 파라미터 모델의 경우, 학습 초반 5만 GPU 시간까지의 데이터만으로 10만 GPU 시간까지의 최종 성능을 예측했는데, 실제 결과가 예측과 거의 일치했다. 이는 연구자들이 비용과 시간이 많이 드는 전체 실험을 끝까지 하지 않아도, 어떤 방법이 효과적일지 미리 알 수 있다는 의미다.

같은 노력, 다른 결과: 학습 방법마다 성능 한계가 다르다

연구에서 밝혀진 중요한 사실은 AI 학습 방법마다 도달할 수 있는 최고 성능이 다르다는 점이다. 연구진이 개발한 ScaleRL은 최종 점수 0.61을 기록했다. 반면 중국 딥시크(DeepSeek)의 방식은 0.490, 중국 큐웬(Qwen)의 방식은 0.515에 그쳤다. 이는 단순히 속도 차이가 아니라, 근본적으로 도달 가능한 성능의 천장이 다르다는 뜻이다.

어떤 요소가 이런 차이를 만들까? 연구진은 몇 가지 기술적 선택이 최고 성능을 바꿀 수 있다는 것을 발견했다. 특히 AI 모델이 계산할 때 더 정밀한 방식을 사용하자 최종 성능이 0.52에서 0.61로 크게 향상됐다. 이는 학습 과정에서 발생하는 미세한 오차를 줄였기 때문이다.

처음엔 좋아 보여도 끝은 다를 수 있다... 초기 성능의 함정

"작은 실험에서 좋았던 방법이 큰 실험에서도 최선은 아니다"라는 원칙이 AI 학습에서도 적용된다는 사실이 확인됐다. 적은 컴퓨터 자원으로 실험할 때 더 나아 보이는 방법이, 자원을 크게 늘렸을 때 오히려 더 나쁜 결과를 낼 수 있다. 따라서 초기 성능만 보고 어떤 방법이 좋을지 판단해선 안 된다.

연구진의 예측 공식은 이 문제를 해결한다. 학습 초반 데이터에서 성능 한계값 A와 효율성 지표 B를 계산하면, 전체 실험을 끝내지 않아도 어떤 방법이 최종적으로 더 나을지 알 수 있다. 예를 들어, 어떤 방법은 초반에 빠르게 좋아지지만 낮은 한계에 멈추고, 다른 방법은 천천히 개선되지만 결국 더 높은 성능에 도달한다.

ScaleRL: 대규모로 키워도 안정적인 새로운 학습법

연구진은 가장 효과적인 설정들을 모아 ScaleRL이라는 학습 방법을 만들었다. ScaleRL의 가장 큰 장점은 조건이 바뀌어도 예측대로 작동한다는 점이다. 한 번에 학습하는 데이터 양을 2.5배 늘리거나, AI가 생성하는 답변 길이를 32배 확장하거나, 수학과 코딩 문제를 동시에 풀게 하거나, 더 큰 모델을 사용해도 모두 예측대로 결과가 나왔다.

80억 파라미터 모델의 10만 GPU 시간 실험에서, 절반만 학습한 시점의 데이터로 최종 성능을 예측했는데 실제 결과와 거의 일치했다. 이는 ScaleRL이 대규모 학습에서도 믿고 쓸 수 있는 방법임을 증명한다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. 강화학습 예측 공식이란 무엇이고 왜 필요한가요?

A: 강화학습 예측 공식은 컴퓨터 자원을 얼마나 쓰면 AI 성능이 어느 정도 나올지 미리 계산하는 수학 공식입니다. 이를 쓰면 연구자들이 비싼 실험을 끝까지 하지 않아도 초반 데이터만으로 최종 결과를 예측할 수 있어, 시간과 비용을 크게 절약할 수 있습니다.

Q2. ScaleRL이 기존 방법보다 좋은 이유는 무엇인가요?

A: ScaleRL은 도달 가능한 최고 성능(0.61점)과 학습 효율성(1.97) 모두에서 우수합니다. 딥시크나 큐웬 같은 기존 방법보다 최종 성능이 높고, 10만 GPU 시간 규모까지 안정적으로 작동하는 것이 검증됐습니다.

Q3. 이 연구가 실제 AI 개발에 어떤 도움이 되나요?

A: 이 연구는 AI의 추론 능력을 높이는 강화학습을 더 예측 가능하고 저렴하게 만듭니다. 연구자들은 이제 작은 실험으로 큰 실험의 성공 가능성을 미리 평가할 수 있어, 대학과 기업 모두에서 AI 발전 속도가 빨라질 것으로 예상됩니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: The Art of Scaling Reinforcement Learning Compute for LLMs

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

나 아직 살아있다! 위력 과시하는 '위저드리'와 '마이트앤매직' (1)	게임동아
폭스바겐, 전기 구동장치 500만대 돌파 'APP550'로 전동화 가속	오토헤럴드
'보배도 당근도 넘지 못한 장벽' 독주하는 중고차 1위 플랫폼은 '요기요'	오토헤럴드
토요타의 전설 '하이랜더' 3열 전기 SUV로 복귀, 기존 네이밍 전략 수정	오토헤럴드
한국타이어, ‘2026 가장 존경받는 기업’ 타이어 부문 17년 연속 1위	오토헤럴드
벤틀리, 극한의 오프로드 퍼포먼스 극대화 ‘벤테이가 X 콘셉트’ 공개	오토헤럴드
'뼈대부터 차별화' 제네시스, 전용 전동화 플랫폼으로 프리미엄 전략 재정렬	오토헤럴드
설 연휴 2780만명 대이동, 정부 통행료 면제 등 특별교통대책 시행	오토헤럴드
'휴먼 에러 줄어들까' 고령 택시·화물차 ‘페달오조작 방지장치’ 보급	오토헤럴드
5등급차 조기폐차ㆍ매연저감장치 지원 올해 종료, 늦기전 신청해야	오토헤럴드
페라리, 조니 아이브와 협업한 첫 순수 전기차 '루체' 공개	글로벌오토뉴스
2026년 런던, 미국과 중국 자율주행 기술의 글로벌 격전지 된다	글로벌오토뉴스
발레오·안리츠, SDV 가상 검증 협력… 디지털 트윈으로 개발 주기 단축	글로벌오토뉴스
니오, 배터리 교환 누적 1억 건 돌파… 전기차 충전 패러다임 전환	글로벌오토뉴스
중국 전고체 배터리 연합(CASIP) 가동… 2026년 실험실 넘어 도로 위로	글로벌오토뉴스
테슬라, 중국 내 AI 교육 센터 본격 가동… FSD 현지화 공세 박차	글로벌오토뉴스
위라이드·우버, 중동 로보택시 대 공습… 2027년까지 1,200대 투입	글로벌오토뉴스
LG엔솔, 스텔란티스 넥스트스타 에너지의 지분 100달러에 인수, 배터리 합작 종료	글로벌오토뉴스
미쉐린, 현대차 ‘더 뉴 엑시언트 수소전기트럭’에 신차용 타이어 공급	글로벌오토뉴스
벤틀리, 'FAT 아이스 레이스 2026'서 벤테이가 X 콘셉트 및 신차 공개	글로벌오토뉴스
BYD코리아, 17개 전국 서비스센터에서 설 맞이 무상점검 서비스 캠페인 실시	글로벌오토뉴스
KGM, ‘2026년 설 맞이 차량점검 서비스’ 시행	글로벌오토뉴스
쉐보레, 동남권 고객 접근성 강화 위한 '해운대 전시장' 공식 오픈	글로벌오토뉴스
[컨슈머인사이트] 보배드림·당근마켓이 중고차에서 힘 못쓰는 이유는?	글로벌오토뉴스
캐딜락 F1 팀, 2026 시즌 데뷔 경주차 리버리 전격 공개	글로벌오토뉴스
BYD, 미국 정부 상대 관세 환급 소송 제기…중국 자동차 제조사 중 처음	글로벌오토뉴스
스텔란티스, ‘전기차 과대평가’ 인정하며 38조 원대 손실 반영	글로벌오토뉴스
볼보 CEO, 한·미·유럽 관세 전쟁 속 '정면 돌파' 선언	글로벌오토뉴스
메르세데스-벤츠 CEO, 유럽 EU 내연기관 금지 완화에 "불확실성만 가중" 경고	글로벌오토뉴스
올리비아로렌, ‘타임 투 블룸’으로 봄을 깨우다…2026 봄 컬렉션 공개	뉴스탭
오늘의집, 봄 신학기 맞아 ‘2026 새학기대전’…가구·디지털 한자리에	뉴스탭
“새 학기 몰입을 잡아라” 소니 WH-1000XM6 구매하면 전용 스탠드 증정	뉴스탭
“고르는 재미까지 선물한다”… 포트넘 앤 메이슨, 설 맞이 맞춤형 기프트 박스 선봬	뉴스탭
글로벌 TOP10 원작, 인도네시아 소설 『시가렛 걸』 드디어 한국 상륙	뉴스탭
숲(SOOP), 다가오는 명절 풍성하게 2026 설 특집 페이지 공개	게임동아
예스24, 아시아 최대 도서전서 ‘크레마 연필 리모컨’ 첫 해외 공개…글로벌 시장 가능성 확인	뉴스탭
고향 대신 집, 설 선물도 달라졌다… ‘쉼을 주는 가전’이 뜬다	뉴스탭
한국인 F1 직관 어디로 떠나나…상하이·바르셀로나·스즈카 ‘톱3’	뉴스탭
인텔 코어 Ultra, 게임부터 AI까지… ‘All-Play, All-AI’ 프로모션 진행	뉴스탭
게임리서치 ‘묵혼온라인’, 설 및 발렌타인데이 맞이 이벤트 진행!	게임동아
데스윙, 성공했구나! 하스스톤 '대격변' 확장팩 공개	게임메카
“유니티·언리얼 비용 부담”... 자동차 회사 ‘토요타’가 직접 차량용 게임 엔진 만든다	게임동아
호요버스 ‘붕괴: 스타레일’, '포트나이트'와 컬래버레이션	게임동아
‘명조:워더링 웨이브’, 명조 X 컴포즈커피’ 전국 컬래버레이션 시작	게임동아
카카오게임즈, SMTOWN 후쿠오카 콘서트에서 슴미니즈 홍보	게임동아
에픽게임즈 스토어, ‘2026 겨울 세일’ 돌입	게임동아
넷마블, 신작 MMORPG '솔: 인챈트' 3월 5일 사전등록 돌입	게임동아
“33원정대의 성공 인정”... 프랑스 정부, 샌드폴 인터랙티브 개발진 28명에게 기사 작위 수여	게임동아
‘월드 오브 워쉽’, 15.1 업데이트 "신년 달맞이 이벤트 진행"	게임동아
컴투스 메인넷 CONX, 순환형 RWA 프로젝트 ‘주재범 아레나’ 수상작 발표	게임동아
하스스톤, '스포트라이트 2026'과 함께 차기 확장팩 '대격변' 공개	게임동아
네오위즈, 2025년 당기순이익 458억 원으로 흑자전환.. 영업익은 600억 원	게임동아
글로벌 시리즈 연 12회, 배그 e스포츠 2026 로드맵 공개	게임메카
원작 액션 살렸다, 몬헌 아웃랜더스 무기 소개 영상 공개	게임메카
크래프톤 "배그 모바일, 작년 중국서 DAU 두 자릿수 성장"	게임메카
[오늘의 스팀] ‘압긍’ 받는 요리판 발라트로, 정식 출시	게임메카
불법복제 게임 미끼로, PC 40만 대에 악성코드 퍼졌다	게임메카
인텔 공인대리점 '모든 가능성을 만들다: All-Play, All-AI' 프로모션 실시	다나와
위메이드플레이, 2025년 매출 1253억 원, 영업익 107억 원, 당기순익 214억 원 기록	게임동아
대원씨티에스, ASUS ROG 및 TUF 게이밍 기어 유통 계약 체결	다나와
엔씨소프트 북미법인 퍼블리싱 총괄에 ‘머빈 리 콰이’ 영입	게임동아
NHN, 수집형 RPG '어비스디아' 출시 임박…버스 랩핑 등 이색 옥외광고 '러시'	게임동아
‘바이오하자드 서바이벌 유닛’ 대만·홍콩 전략 게임 1위 달성	게임동아
포트나이트, 케데헌과 두 번째 컬래버로 골든 의상 헌트릭스와 '진우' 등장	게임동아
일러스트 제작 과정도 공개! 일러스트레이터 카노가 '매력적인 컨셉'을 창출하기 위해 하고 있는 일	게임동아
일러스트 제작의 뒷면도 공개! 크리에이터 Okku가 소중히 하는 창작 마인드란?	게임동아
명조 X 컴포즈커피 세미팝업 프리오픈 성료	게임동아
불안감 커지는 한미 간 통상 불확실성, 車 업계 특별법 조속 제정 촉구 (1)	오토헤럴드
독일인 75% "구매 의향 없다" 수치로 확인된 테슬라 브랜드 이미지 급락 (1)	오토헤럴드
지난해 韓시장 269% 폭풍 성장 후 폴스타가 꺼내든 다음 카드 '초고성능'	오토헤럴드
[LCK] DN 수퍼스와 DRX의 대반란 속 '혼돈 속 LCK 컵'	게임동아
엄마-아빠도 게이머였다…넷플릭스 다큐멘터리가 선사하는 추억 여행 화제[게임 인더스트리] (1)	게임동아
바이오하자드 레퀴엠, "그레이스로 도망친 적도, 레온으로 쓰러뜨릴 수 있다" (1)	게임동아
크래프톤, 3년간 1조 원 이상 주주환원 추진	게임동아
캐킷 ‘럽플레이스’, 설맞이 ‘만복 대축제’ 대규모 업데이트	게임동아
웹젠, '드래곤소드' 신규 캐릭터와 콘텐츠 확장에 천장까지 완화	게임동아
엔씨 ‘리니지 클래식’, 이틀 만에 누적 접속자 50만, 최대 동접 18만 돌파	게임동아
엔씨 '리니지 클래식', PC방 순위 4위 등극.. 자동 플레이 시스템 도입 검토	게임동아
그라비티, 신작 ‘라그나로크 오리진 클래식’ 홍콩 지역 CBT 참가자 모집	게임동아
크래프톤, 2025년 연간 매출 3조 3,266억, 영업이익 1조 544억	게임동아
‘조선협객전 클래식’, 온라인 쇼케이스 통해 상세 정보 공개	게임동아
타일 한 칸에서 시작된 작은 왕국. '드랍 더치' 개발한 슬리피 밀 스튜디오	게임동아
[롤짤] 1만 골드차 역전까지, LCK 친정팀 파괴 메타	게임메카
아이작의 번제 개발자 신작 ‘뮤제닉’ 메타크리틱 90점 (1)	게임메카
문화적 공로, 33 원정대 개발진 전원 기사 작위 받았다	게임메카
공포게임 아닙니다, '토마스와 친구들' 기반 신작 발표	게임메카
메모리 부족, 엔비디아 올해 GPU 신제품 출시 안 한다?	게임메카
레이싱게임 '레이시티' 스팀 페이지 오픈, 진위 여부 화제	게임메카
3편 직후 이야기, 발더스 게이트 TV 드라마 발표 (1)	게임메카
패러독스 CEO “DLC 폭격에 대한 부담감 잘 알고 있다”	게임메카
[오늘의 스팀] 확률 없는 턴제 전략 신작 ‘메너스’ 출시	게임메카
[이구동성] 짜잔~ 2 라는 건 없군요	게임메카
3인 협동 기계수 토벌, 호라이즌 헌터즈 개더링 공개	게임메카
인어 먹으면 불로불사? 파라노마사이트 시리즈 최신작 발표	게임메카
도쿄 떠나 새 도시로, 팔콤 '교토 재너두' 베일 벗었다	게임메카
업데이트 종료됐던 그랑블루 리링크, 확장팩으로 부활한다	게임메카
닌텐도 다이렉트, 스위치 1·2로 출시될 신작 다수 공개	게임메카
'삼국지 전략판’, 코에이 테크모 ‘삼국지’ 시리즈 40주년 기념 참여	게임동아
[오늘의 스팀] 돌아온 탱크, 헬다이버즈 2 업데이트 관심	게임메카
완성도 높은 사무라이·닌자 액션, 인왕 3 메타크리틱 86점	게임메카

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

"AI 학습에 수십억 쓰기 전, 결과 예측한다"... 메타, 강화 학습 결과 예측하는 공식 공개

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

"AI 학습에 수십억 쓰기 전, 결과 예측한다"... 메타, 강화 학습 결과 예측하는 공식 공개

공유하기

공감/비공감