비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

"AI 학습에 수십억 쓰기 전, 결과 예측한다"... 메타, 강화 학습 결과 예측하는 공식 공개

2025.10.24. 09:31:33
조회 수
61
1

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

메타(Meta), 텍사스대학교 오스틴, UC버클리, 하버드대학교 등 공동 연구진이 인공지능 학습의 성능을 미리 예측할 수 있는 방법을 찾아냈다. 연구진은 40만 GPU 시간 이상을 투입한 대규모 실험을 통해, 컴퓨터 자원을 얼마나 투입하면 어느 정도 성능이 나올지 예측하는 수학 공식을 개발했다. 이를 바탕으로 10만 GPU 시간 규모까지 안정적으로 작동하는 새로운 학습 방법 'ScaleRL'도 함께 선보였다.

AI가 스스로 학습하는 과정, 이제 예측 가능해졌다

연구 논문에 따르면, 연구진은 AI의 '강화학습' 성능을 예측하기 위해 S자 곡선 모양의 그래프를 제안했다. 강화학습이란 AI가 시행착오를 거치며 스스로 학습하는 방식이다. 이 그래프는 세 가지 중요한 값으로 구성된다. 첫째, A는 아무리 많은 컴퓨터 자원을 투입해도 도달할 수 있는 최고 성능을 뜻한다. 둘째, B는 컴퓨터 자원 대비 얼마나 효율적으로 학습하는지를 나타낸다. 셋째, Cmid는 목표 성능의 절반에 도달하는 데 필요한 컴퓨터 자원의 양이다.

이 방법의 가장 큰 장점은 미래를 내다볼 수 있다는 점이다. 연구진은 80억 개 파라미터 모델과 17B×16 MoE 모델을 대상으로 실험했다. 80억 파라미터 모델의 경우, 학습 초반 5만 GPU 시간까지의 데이터만으로 10만 GPU 시간까지의 최종 성능을 예측했는데, 실제 결과가 예측과 거의 일치했다. 이는 연구자들이 비용과 시간이 많이 드는 전체 실험을 끝까지 하지 않아도, 어떤 방법이 효과적일지 미리 알 수 있다는 의미다.


같은 노력, 다른 결과: 학습 방법마다 성능 한계가 다르다

연구에서 밝혀진 중요한 사실은 AI 학습 방법마다 도달할 수 있는 최고 성능이 다르다는 점이다. 연구진이 개발한 ScaleRL은 최종 점수 0.61을 기록했다. 반면 중국 딥시크(DeepSeek)의 방식은 0.490, 중국 큐웬(Qwen)의 방식은 0.515에 그쳤다. 이는 단순히 속도 차이가 아니라, 근본적으로 도달 가능한 성능의 천장이 다르다는 뜻이다.

어떤 요소가 이런 차이를 만들까? 연구진은 몇 가지 기술적 선택이 최고 성능을 바꿀 수 있다는 것을 발견했다. 특히 AI 모델이 계산할 때 더 정밀한 방식을 사용하자 최종 성능이 0.52에서 0.61로 크게 향상됐다. 이는 학습 과정에서 발생하는 미세한 오차를 줄였기 때문이다.

처음엔 좋아 보여도 끝은 다를 수 있다... 초기 성능의 함정

"작은 실험에서 좋았던 방법이 큰 실험에서도 최선은 아니다"라는 원칙이 AI 학습에서도 적용된다는 사실이 확인됐다. 적은 컴퓨터 자원으로 실험할 때 더 나아 보이는 방법이, 자원을 크게 늘렸을 때 오히려 더 나쁜 결과를 낼 수 있다. 따라서 초기 성능만 보고 어떤 방법이 좋을지 판단해선 안 된다.

연구진의 예측 공식은 이 문제를 해결한다. 학습 초반 데이터에서 성능 한계값 A와 효율성 지표 B를 계산하면, 전체 실험을 끝내지 않아도 어떤 방법이 최종적으로 더 나을지 알 수 있다. 예를 들어, 어떤 방법은 초반에 빠르게 좋아지지만 낮은 한계에 멈추고, 다른 방법은 천천히 개선되지만 결국 더 높은 성능에 도달한다.

ScaleRL: 대규모로 키워도 안정적인 새로운 학습법

연구진은 가장 효과적인 설정들을 모아 ScaleRL이라는 학습 방법을 만들었다. ScaleRL의 가장 큰 장점은 조건이 바뀌어도 예측대로 작동한다는 점이다. 한 번에 학습하는 데이터 양을 2.5배 늘리거나, AI가 생성하는 답변 길이를 32배 확장하거나, 수학과 코딩 문제를 동시에 풀게 하거나, 더 큰 모델을 사용해도 모두 예측대로 결과가 나왔다.

80억 파라미터 모델의 10만 GPU 시간 실험에서, 절반만 학습한 시점의 데이터로 최종 성능을 예측했는데 실제 결과와 거의 일치했다. 이는 ScaleRL이 대규모 학습에서도 믿고 쓸 수 있는 방법임을 증명한다.


FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. 강화학습 예측 공식이란 무엇이고 왜 필요한가요?

A: 강화학습 예측 공식은 컴퓨터 자원을 얼마나 쓰면 AI 성능이 어느 정도 나올지 미리 계산하는 수학 공식입니다. 이를 쓰면 연구자들이 비싼 실험을 끝까지 하지 않아도 초반 데이터만으로 최종 결과를 예측할 수 있어, 시간과 비용을 크게 절약할 수 있습니다.

Q2. ScaleRL이 기존 방법보다 좋은 이유는 무엇인가요?

A: ScaleRL은 도달 가능한 최고 성능(0.61점)과 학습 효율성(1.97) 모두에서 우수합니다. 딥시크나 큐웬 같은 기존 방법보다 최종 성능이 높고, 10만 GPU 시간 규모까지 안정적으로 작동하는 것이 검증됐습니다.

Q3. 이 연구가 실제 AI 개발에 어떤 도움이 되나요?

A: 이 연구는 AI의 추론 능력을 높이는 강화학습을 더 예측 가능하고 저렴하게 만듭니다. 연구자들은 이제 작은 실험으로 큰 실험의 성공 가능성을 미리 평가할 수 있어, 대학과 기업 모두에서 AI 발전 속도가 빨라질 것으로 예상됩니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: The Art of Scaling Reinforcement Learning Compute for LLMs

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.





AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
4/1
EA, AI 게임 제작 노리나? 이미지 생성 AI 개발 업체 스태빌리티 AI와 파트너십 발표 게임동아
게임 질병 논란 이제 끝? 국정감사에서 게임질병코드 제외하고 ICD-11 도입 논의 게임동아
젬블로컴퍼니, 경기콘텐츠진흥원 ‘2025 사회공헌형 게임제작지원’ FGT 진행 게임동아
AI에 진심인 크래프톤, ‘AI First’ 기업 전환 위해 1000억 원 이상 투자 게임동아
어 엘리먼츠, 수집형RPG '전지적 시점 데몬 삼국' 사전예약 시작 게임동아
[10월 23일 AI 뉴스 브리핑] 팀제로코드, TIPS 운영사로부터 시드 브릿지 투자 유치 외 AI matters
서울시, AI로 전세사기 예방한다… 무료 ‘전세사기 위험분석 보고서’ 서비스 개시 AI matters
이사·여행·쇼핑, AI 에이전트가 다 알아서... 5조 달러 '에이전틱 커머스' 시대 AI matters
"AI 학습에 수십억 쓰기 전, 결과 예측한다"... 메타, 강화 학습 결과 예측하는 공식 공개 AI matters
"혀 사진만 올려도 체질 분석"... 챗GPT 기반 중의학 상담 AI '벤차오' 등장 AI matters
아마존, 내부 문서 유출… ‘60만 명 일자리, 로봇으로 대체’ AI matters
메타, AI 부서 600명 대규모 감축... ‘AI 업계 거품 빠지나’ AI matters
슈퍼캣, ‘돌 키우기 온라인’ 할로윈 이벤트 업데이트 (1) 게임동아
출동 준비 완료! 티모·워윅 출전으로 다채로워진 2XKO (1) 게임메카
[오늘의 스팀] 텔테일 개발진 신작 ‘디스패치’ 관심 (1) 게임메카
chill하게 물칠 가능, 파워워시 시뮬레이터 2 메타 82점 게임메카
[동아게임백과사전] 게임사가 이용자들을 헌정하는 방법 (1) 게임동아
카카오 게임하기도 벌써 13년! 게임은 여전히 서비스 중 [게임 인더스트리] (1) 게임동아
넷마블 '나 혼자만 레벨업:어라이즈', '장송의 프리렌'이 만났다 게임동아
넷마블 '일곱 개의 대죄: GRAND CROSS', '코노스바!'와 컬래버 마련 게임동아
이 시간 HOT 댓글!
1/4