딥시크, AI 대화의 정확도를 32배 샘플링으로 끌어올리는 ‘보상 모델’ 공개 : 다나와 DPG는 내맘을 디피지

Inference-Time Scaling for Generalist Reward Modeling

대규모 언어 모델의 성능 향상을 위한 보상 모델링

강화학습 기술은 대규모 언어 모델(LLM)의 성능 향상을 위한 후처리 훈련에 널리 사용되고 있다. 딥시크 연구진이 발표한 논문에 따르면, 적절한 학습 방법이 LLM의 추론 능력을 향상시키는 추론 시간 확장성을 가능하게 할 수 있다는 점이 주목받고 있다. 강화학습의 핵심 과제는 검증 가능한 질문이나 인위적 규칙을 넘어 다양한 분야에서 LLM에 정확한 보상 신호를 제공하는 것이다. 연구진은 다양한 쿼리에 대해 더 많은 추론 계산으로 보상 모델링(Reward Modeling, RM)을 개선하는 방법과 적절한 학습 방법을 통해 성능-계산 확장의 효율성을 향상시키는 방법을 연구했다.

딥시크 연구팀은 RM 접근법으로 서로 다른 입력 유형에 대한 유연성과 추론 시간 확장성의 가능성을 제공하는 포인트와이즈 생성형 보상 모델링(Generative Reward Modeling, GRM)을 채택했다. 학습 방법으로는 자가 원칙 비평 조정(Self-Principled Critique Tuning, SPCT)을 제안해 온라인 강화학습을 통해 GRM에서 확장 가능한 보상 생성 행동을 촉진하여 원칙을 적응적으로 생성하고 비평을 정확하게 만들어 DeepSeek-GRM 모델을 개발했다.

생성형 보상 모델링(GRM): 유연성과 확장성으로 기존 스칼라 모델 한계 극복

효과적인 추론 시간 확장을 위해 연구팀은 병렬 샘플링을 사용해 컴퓨팅 사용량을 확장하고, 더 나은 확장 성능을 위한 메타 RM(Meta RM)을 도입해 투표 과정을 안내하는 방식을 활용했다. 경험적으로 SPCT가 GRM의 품질과 확장성을 크게 개선하고, 심각한 편향 없이 다양한 RM 벤치마크에서 기존 방법과 모델을 능가하며, 훈련 시간 확장과 비교해 더 나은 성능을 달성할 수 있음을 확인했다.

GRM 모델은 입력 타입에 대한 유연성과 추론 시간 확장성에 특별한 장점을 제공한다. 스칼라 RM과 달리 GRM은 같은 응답에 대해 다양한 보상 신호를 생성할 수 있어 샘플링 기반 추론 시간 확장 방법을 통해 더 나은 보상을 얻을 수 있다. 연구진이 개발한 DeepSeek-GRM-27B는 Gemma-2-27B를 기반으로 SPCT로 후처리 훈련된 모델이다.

자가 원칙 비평 조정(SPCT): 거부형 파인 튜닝과 강화학습의 혁신적 결합

SPCT는 거부형 파인 튜닝(Rejective Fine-Tuning)과 규칙 기반 온라인 강화학습의 두 단계로 구성된다. 거부형 파인 튜닝은 콜드 스타트 역할을 하며, GRM이 다양한 입력 유형에 대해 올바른 형식의 원칙과 비평을 생성하도록 적응시킨다. 기존 연구와 달리, 연구진은 포인트와이즈 GRM을 채택해 동일한 형식으로 모든 응답 수에 대한 보상을 유연하게 생성할 수 있도록 했다.

데이터 구성을 위해 일반 지시 데이터 외에도 사전 훈련된 GRM을 사용해 RM 데이터의 쿼리와 해당 쿼리에 대한 응답에 대한 궤적을 샘플링했다. 거부 전략은 통합되어, 예측된 보상이 실제와 일치하지 않는 궤적(부정확)과 모든 궤적이 정확한 쿼리 및 응답(너무 쉬운 것)을 거부한다. 연구팀은 많은 RM 과제에서 사전 훈련된 GRM이 제한된 샘플링 할당량 내에서 올바른 보상을 거의 생성할 수 없다는 점을 발견했다.

병렬 샘플링과 메타 RM: 최대 32배 샘플로 4.9% 성능 향상 달성

추론 시간 확장을 위해 DeepSeek-GRM은 병렬 샘플링을 사용한다. 병렬 샘플링을 통해 DeepSeek-GRM은 서로 다른 원칙 세트와 그에 따른 비평을 생성한 다음 최종 보상에 투표할 수 있다. 더 큰 규모의 샘플링을 통해 DeepSeek-GRM은 다양성이 높은 원칙에 따라 더 정확하게 판단하고 더 세분화된 세밀도로 보상을 출력할 수 있게 된다.

연구진은 투표 과정을 위한 메타 RM을 훈련하여 확장 성능을 더욱 향상시켰다. 메타 RM은 포인트와이즈 스칼라 RM으로, DeepSeek-GRM에서 생성한 원칙과 비평의 정확성을 식별하도록 훈련되었다. 이 가이드 투표는 낮은 품질의 샘플을 필터링하여 최종 결과의 정확도를 높인다.

성능 테스트 결과: DeepSeek-GRM-27B, 340B 파라미터 거대 모델과 동등한 성능 입증

연구팀은 Reward Bench, PPE, RMB, ReaLMistake 등 다양한 RM 벤치마크에서 여러 방법의 성능을 평가했다. 각 벤치마크에 대해 표준 평가 지표를 사용했다: Reward Bench, PPE, RMB에서는 응답 세트에서 최선의 응답을 선택하는 정확도, ReaLMistake에서는 ROC-AUC 등이다.

기본 메소드로는 LLM-as-a-Judge, DeepSeek-BTRM-27B, CLoud-Gemma-2-27B, DeepSeek-PairRM-27B를 재구현했다. 실험 결과, DeepSeek-GRM-27B가 기본 메소드보다 전체 성능이 뛰어나며, Nemotron-4-340B-Reward와 GPT-4o 같은 강력한 공개 RM과 비슷한 성능을 보였다. 추론 시간 확장을 통해 DeepSeek-GRM-27B는 더욱 향상되어 최고의 전체 결과를 달성했다.

스칼라 및 세미 스칼라 RM은 다른 벤치마크보다 검증 가능한 작업(PPE Correctness)에서 유의미하게 더 나은 성능을 보이는 등 편향된 결과를 보여주었다. 대부분의 공개 스칼라 RM도 심각한 도메인 편향을 보였다. LLM-as-a-Judge는 DeepSeek-GRM-27B와 유사한 경향을 보였지만 성능이 낮았는데, 이는 원칙 가이드가 부족한 때문일 수 있다. 결론적으로 SPCT는 스칼라 및 세미 스칼라 RM에 비해 편향이 훨씬 적은 GRM의 일반적인 보상 생성 능력을 향상시킨다.

FAQ

Q: 생성형 보상 모델(GRM)이 기존의 스칼라 보상 모델과 어떤 차이점이 있나요?

A: 생성형 보상 모델(GRM)은 단순히 숫자 값을 출력하는 스칼라 모델과 달리 텍스트 형태의 원칙과 비평을 생성합니다. 이를 통해 다양한 입력 유형에 대한 유연성을 제공하고, 같은 응답에 대해서도 다양한 보상 신호를 생성할 수 있어 추론 시간 확장을 통한 성능 향상이 가능합니다.

Q: 자가 원칙 비평 조정(SPCT)의 핵심 아이디어는 무엇인가요?

A: SPCT의 핵심은 GRM이 쿼리와 응답에 기반하여 적응적으로 원칙을 생성하고, 이러한 원칙에 따라 정확한 비평을 생성하도록 학습시키는 것입니다. 이는 거부형 파인 튜닝과 규칙 기반 온라인 강화학습을 통해 이루어지며, 결과적으로 모델이 다양한 도메인에서 편향 없이 고품질 보상을 생성할 수 있게 합니다.

Q: 추론 시간 확장이 어떻게 대화형 AI의 성능을 향상시키나요?

A: 추론 시간 확장은 병렬 샘플링을 통해 여러 원칙과 비평 세트를 생성하고, 이를 통합하여 더 정확한 보상을 도출하는 과정입니다. 이는 단일 샘플링보다 더 다양한 관점에서 응답을 평가할 수 있게 하며, 메타 RM을 통해 낮은 품질의 샘플을 걸러내 최종 보상의 정확도를 높입니다. 결과적으로 대화형 AI는 사용자의 다양한 질문에 더 정확하고 적절한 응답을 제공할 수 있게 됩니다.

해당 기사에서 인용한 논문은 링크에서 확인할 수 있다.

이미지 출처: 딥시크

기사는 클로드와 챗gpt를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

중국 자본 받은 해외 게임사들이 정리되고 있다	게임동아
넷마블 '몬길: STAR DIVE', 방송 통해 여름 업데이트 공개	게임동아
시프트업 '승리의 여신: 니케', 신규 스토리 이벤트 ‘WAVE TO YOU’ 적용	게임동아
애스턴마틴 밴티지, IMSA 5전 연속 포디움…GTD 선두 굳혔다	뉴스탭
고려은단, 단 하루 ‘오늘의 팝업’…관절·비타민 제품 한자리에 (1)	뉴스탭
크린랩, 일본 금속 가공 기술 담은 ‘미래인’ 법인인감 국내 첫 공개 (1)	뉴스탭
장마철 신발 선택 기준 달라졌다…방수 넘어 접지력·쾌적함까지 본다	뉴스탭
고소득 Z세대가 바꾼 럭셔리 여행 공식, 핵심은 ‘과시’보다 ‘의미’	뉴스탭
벤틀리 크루 본사 ‘CW1 하우스’, 이제 누구나 찾는다	뉴스탭
캐논코리아, KLPGA 롯데 오픈서 ‘파워샷 골프’ 체험 부스 운영 (1)	뉴스탭
포켓몬 생태도감 특별판, 예약판매만으로 예스24 주간 1위	뉴스탭
‘승리의 여신: 니케’, 여름 한정 SSR 2종 추가…신규 풀 보이스 이벤트 개막	뉴스탭
MSI 그래픽카드, 2026 상반기 다나와 히트브랜드 엔비디아 부문 선정	뉴스탭
사진이 조각이 되는 순간, 권오상 개인전 파티클서 개막	뉴스탭
14형 게이밍 노트북부터 AI UMPC까지…에스라이즈, ASUS 게이밍 프로모션 진행	뉴스탭
11억 기기 연결한 샤오미, 베를린서 ‘사람·자동차·집’ 비전 선보인다	뉴스탭
한컴타자 ‘산성비’에 허니버터칩이 내린다…해태 가루비와 이색 협업 (1)	뉴스탭
블랙야크, 순토와 청계산 트레일 러닝 클래스 연다	뉴스탭
장마철 앞두고 세탁세제 매출 21% 증가…실내건조 냄새 잡는 기능성 제품 강세	뉴스탭
세일즈포스, ‘에이전트포스 헬프 에이전트’ 공개…문제 해결한 만큼만 과금	AI matters
아카마이·엔비디아, AI 팩토리에 제로 트러스트 내장…블루필드-4로 성능 저하 없이 보안	AI matters
메타, 남는 연산력 판다…’메타 컴퓨트’ 클라우드 사업 검토에 주가 6%↑	AI matters
에어컨 대신 비행기! 올여름 떠나기 좋은 시원한 여행지 10 (1)	트래비
암태도, 사진만 찍고 떠나신다고요?	트래비
우리 구단 응원하며 레이싱 즐기기, 제주 9.81파크	트래비
엔비디아, 인도네시아에 360MW AI 데이터센터…GPU 최대 17만 장 투입	AI matters
'현대차 주춤했지만 기아가 견인' 6월 국내 완성차 전년比 0.9% 증가	오토헤럴드
'머스크도 놀랄 파격 디자인' BMW 신형 X5 헤드램프에 새겨진 'X'	오토헤럴드
SAPPHIRE 라데온 그래픽카드, 2026 다나와 히트브랜드 선정	다나와
애스톤 마틴, 굿우드 페스티벌서 고성능 S 라인업 최초 공개	글로벌오토뉴스
기아, 2026 지속가능경영 보고서 ‘MOVE’ 발간	글로벌오토뉴스
현대차·제네시스, 개소세 인하 종료 대응 ‘썸머 페스타’ 개시	글로벌오토뉴스
한국타이어, 상용차 전용 고내구성 타이어 ‘밴트라 트랜짓’ 출시	글로벌오토뉴스
기아, ‘The 2027 타스만’ᆞ‘더 기아 타스만 오픈베드’ 계약 개시	글로벌오토뉴스
캐딜락·GMC, 개소세 인상분 특별 지원 포함 7월 여름 맞이 프로모션 개시	글로벌오토뉴스
제네시스, 연식변경 ‘2027 GV70’ 및 ‘그래파이트 패키지’ 최초 출시	글로벌오토뉴스
대원씨티에스, 커세어 국내 유통 기념 ‘CORSAIR x 대원씨티에스 썸머 페스티벌’	다나와
르노코리아, 그랑 콜레오스 ‘60일 반납 보장’ 파격 프로모션 포함 7월 판매 조건 공개	글로벌오토뉴스
쉐보레, 7월 구매 고객 대상 유류비 지원 및 대규모 프로모션 실시	글로벌오토뉴스
[컨슈머인사이트] LPG차, 폐차 전까지 가장 길게 달렸다…평균 주행거리 지구 5.3바퀴	글로벌오토뉴스
기아, 2026년 상반기 역대 최다 판매 신기록 달성…전기차 7만 대 돌파	글로벌오토뉴스
르노코리아, 6월 총 4,651대 판매…하이브리드가 내수 실적 75% 견인	글로벌오토뉴스
GM 한국사업장, 6월 4만 8,134대 판매…상반기 누적 27만 대 돌파	글로벌오토뉴스
현대자동차, 6월 글로벌 시장서 33만 8,313대 판매…전년 대비 5.9% 감소	글로벌오토뉴스
6월 국내 5사 판매실적, 개소세 인하 종료 앞두고 내수 판매 증가	글로벌오토뉴스
그랜저 1위 탈환·기아 SUV 강세…6월 국내 자동차 판매 TOP 10 격돌	글로벌오토뉴스
웨이모, 독일 뮌헨에 법인 설립으로 유럽시장 로보택시 공략 시동	글로벌오토뉴스
중국 제일자동차 고급 브랜드 홍치 전기 SUV E-HS9, 태국시장 상륙	글로벌오토뉴스
폭스바겐과 GM 등 전기차 부진 속 무기 제조 참여	글로벌오토뉴스
GM, 업계 유일 핸즈프리 트레일러 견인 기술 고도화… 물리학 알고리즘으로 안전성 확보	글로벌오토뉴스
CATL과 포드 합작 미국 LFP 배터리 공장 가동… 기술 라이선스 방식 첫 결실	글로벌오토뉴스
중국 자동차 수출 올해 1,000만 대 돌파 전망	글로벌오토뉴스
일본 빅3 5월 전 세계 판매 일제히 하락세	글로벌오토뉴스
스텔란티스, 2030년까지 중국 둥펑산 대형 지프 SUV 유럽 도입	글로벌오토뉴스
BMW 안산 전시장 ‘리테일 넥스트’ 콘셉트로 새단장	글로벌오토뉴스
벤틀리, 영국 크루 본사 'CW1 하우스' 일반 대중에게 전면 개방	글로벌오토뉴스
한국앤컴퍼니, 장마·무더위 대비 여름철 차량 배터리 관리 요령 안내	글로벌오토뉴스
지커 국내 공식 딜러 지케이모빌리티, 강동 더리버몰서 프리미엄 전기 SUV ‘지커 7X’ 팝업스토어 오픈	글로벌오토뉴스
기아, 중형 세단 연식변경 모델 ‘The 2027 K5’ 출시	글로벌오토뉴스
현대차·기아, 디지털 가상 검증 플랫폼으로 미래 모빌리티 R&D 패러다임 전환	글로벌오토뉴스
르노코리아, 여름맞이 ‘르노 케어 썸머 프로모션’ 실시 및 필랑트 전용 전동 선쉐이드 출시	글로벌오토뉴스
제네시스, 르망 24시 하이퍼카 클래스 완주…현대차그룹 수소·로보틱스 기술 전방위 지원	글로벌오토뉴스
한국타이어, 준대형 카고 전륜용 ‘AH30+’ 신규 규격 국내 출시	글로벌오토뉴스
람보르기니, 812마력 플러그인 하이브리드 슈퍼 SUV '우루스 SE 퍼포만테' 공개	글로벌오토뉴스
애스턴마틴 밴티지 GT3, IMSA 왓킨스 글렌서 5개 대회 연속 GTD 클래스 포디움 달성	글로벌오토뉴스
마세라티 코리아, JTBC 드라마 '신입사원 강회장'에 주요 럭셔리 라인업 3종 차량 지원	글로벌오토뉴스
폴스타코리아, 800V 아키텍처 탑재한 플래그십 SUV '폴스타 3' 출시	글로벌오토뉴스
SOOP 스트리머 모였다, 배틀그라운드 멸망전 시즌1 예고	게임메카
소니, 2028년부터 플레이스테이션 실물 디스크 생산 중단	게임메카
엔씨 아이온2 이용자들, 개발진에 커피트럭 보냈다	게임메카
[오늘의 스팀] 프린세스 메이커, 마침내 8년 다 키울 수 있어	게임메카
[순위분석] 2개월 만에 TOP 10 복귀한 로스트아크	게임메카
폭풍 같은 교전력, 크래프톤 PNC 2026 브라질 우승	게임메카
“우리가 허접했다” 서든2 주인공들 서든1에 등장	게임메카
주역 4인방 조명, 프로젝트 RX 캐릭터 일러스트 공개	게임메카
'라리안 넘어설 수 없다' 발더스 원작자가 4편 거절한 사연	게임메카
우승의 역사 함께 한다, T1 성수서 '암행천문' 전시 개최	게임메카
임요환과 강민 재격돌, 블리즈컨 2026 e스포츠 정보 공개	게임메카
여름이다! '괴수 8호 THE GAME' 신규 5성 시노미야 키코루 수영복 슈트 추가	게임동아
[기획] 새 '라그나로크' IP와 퍼블리싱작으로 '퀀텀 점프' 노리는 그라비티	게임동아
웹젠 뮤 온라인, '신비의 마스터리 이벤트' 진행	게임동아
고도 엔진, AI 코딩 기여 금지... “직접 작성하고 이해한 코드만 제출”	게임동아
“섭종해도 게임 남겨라” 스탑킬링게임즈, 미국에서도 법제화 시도 좌절	게임동아
소송까지 갔던 '서브노티카2' 사태. 크래프톤과 언노운월즈 창업자들 합의로 마무리	게임동아
[창간] 대세지만 싫어.. AI 배척 중인 게임 개발자들	게임동아
"크루서블은 잊으셨어요?" 유비소프트, 아마존게임즈 총괄 영입	게임동아
SOOP, 스트리머 128명 참여 '배틀그라운드 멸망전' 개최	게임동아
“플스에 패키지 게임 사라진다” 소니, 2028년부터 PS 신작 디스크 없앤다	게임동아
더 파이널스 APAC 리그 두 번째 사이클, 한국 '하이부' 우승	게임메카
엔씨 리니지 리마스터, ‘무한나선: 정복자의 첨탑’ 업데이트 진행	게임동아
엔씨 아이온2 이용자들, 응원의 커피 트럭으로 개발진들 격려	게임동아
컴투스의 운명을 가를 신작, ‘제우스: 오만의 신’ 사전예약 시작	게임동아
드림에이지, ‘아키텍트’ 신규 지역 ‘뒤틀린 도원향’ 추가	게임동아
딜리셔스게임즈, 신작 ‘좀왜진’과 전작 ‘뽑만추’ 잇는 멀티버스형 콘텐츠 마련	게임동아
엔씨 ‘신더시티’ 스팀 페이지 오픈 ∙∙∙ 신규 게임 소개 영상 공개	게임동아
매년 숙제처럼 사던 스포츠 게임들. 무료로 즐길 수 있는 대체제가 있었네!	게임동아
‘엠버 앤 블레이드’ 등 신작 4종 출격…. 재도약 시동 거는 라인게임즈	게임동아
넷마블 'RF 온라인 넥스트', 신규 지역 '라바론' 등장	게임동아
조이시티, ‘프리스타일 리부트’ 7월 22일 사전 예약 돌입	게임동아
[자동차와 法] 자동차가 ‘위험한 물건’이 되는 순간…’난폭·보복운전’	IT동아

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

딥시크, AI 대화의 정확도를 32배 샘플링으로 끌어올리는 ‘보상 모델’ 공개

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

딥시크, AI 대화의 정확도를 32배 샘플링으로 끌어올리는 ‘보상 모델’ 공개

공유하기

공감/비공감