"정답 몰라도 괜찮다"... AI 강화학습의 상식을 뒤엎은 워싱턴대 연구 : 다나와 DPG는 내맘을 디피지

Spurious Rewards: Rethinking Training Signals in RLVR

무작위 보상만으로 21.4% 성능 향상, 틀린 답 보상해도 24.6% 상승

강화학습 분야에서 놀라운 연구 결과가 발표됐다. 워싱턴대학교와 앨런 인공지능 연구소(Allen Institute for AI) 공동 연구팀이 검증 가능한 보상을 통한 강화학습(Reinforcement Learning with Verifiable Rewards, RLVR) 방법론에서 전혀 예상치 못한 현상을 발견했다. 정답과 무관하거나 심지어 부정확한 '가짜 보상(spurious rewards)'만으로도 특정 AI 모델의 수학 추론 능력이 크게 향상된다는 것이다.

연구진은 Qwen2.5-Math-7B 모델을 대상으로 MATH-500 벤치마크에서 다양한 보상 신호를 테스트했다. 그 결과 무작위 보상(random reward)을 사용해도 21.4%의 절대적 성능 향상을 기록했다. 이는 정답 기반 보상으로 얻은 28.8% 향상과 비교해 76%에 달하는 수준이다. 더욱 놀라운 것은 틀린 정답을 보상하는 '부정확한 라벨(incorrect label)' 보상으로도 24.6%의 성능 향상을 달성했다는 점이다.

연구진이 테스트한 가짜 보상들은 다음과 같다. 형식 보상(format reward)은 답변에 '\boxed{}' 표현이 포함되기만 하면 보상을 주는 방식으로 16.4% 향상을 보였고, 다수결 투표(majority voting) 방식은 26.5% 향상을 기록했다. 심지어 50% 확률로 완전히 무작위로 보상을 주는 시스템도 상당한 성능 개선을 이뤄냈다.

Qwen만 특효, Llama·OLMo는 효과 제로... 8개 모델 교차검증 결과

연구의 핵심 발견은 이러한 가짜 보상 효과가 Qwen 계열 모델에서만 나타난다는 점이다. Llama3.1-8B-Instruct와 OLMo2-7B 같은 다른 모델 패밀리에서는 동일한 가짜 보상을 적용해도 성능 향상이 거의 없거나 오히려 성능이 저하되는 경우가 많았다. 연구진은 8개의 추가 모델을 대상으로 교차 검증을 실시했다. Qwen2.5-7B, Qwen2.5-1.5B 등 일반 목적 Qwen 모델들은 여전히 가짜 보상에서 일정한 성능 향상을 보였지만, Llama3.1-8B, Llama3.2-3B, OLMo2-7B 등 다른 모델 패밀리에서는 정답 기반 보상에서만 의미 있는 성능 향상이 나타났다.

특히 모델 크기와 가짜 보상 효과 간에도 상관관계가 발견됐다. 더 큰 모델일수록 사전 훈련에서 얻은 지식을 더 많이 보유하고 있어 가짜 보상으로도 이를 효과적으로 활용할 수 있는 것으로 분석됐다.

비밀은 '코드 추론'... 65%→90% 급증이 성능향상 58.3% 기여

연구진은 이러한 현상의 원인을 분석한 결과, '코드 추론(code reasoning)'이라는 독특한 패턴을 발견했다. Qwen2.5-Math-7B는 코드 실행 환경 없이도 파이썬 코드를 생성해 수학 문제를 해결하는 방식을 65%의 경우에 사용했다. 놀랍게도 코드 추론을 사용한 답변의 정확도는 64%로, 자연어만 사용한 29%보다 두 배 이상 높았다.

RLVR 훈련 과정에서 가짜 보상들은 모두 코드 추론 빈도를 90% 이상으로 증가시켰고, 이는 전체 성능 향상과 강한 상관관계를 보였다. 연구진이 Lang→Code(자연어에서 코드로 전환) 그룹을 분석한 결과, Qwen2.5-Math-7B 성능 향상의 58.3%가 이 그룹에서 발생했음을 확인했다.

이를 검증하기 위해 연구진은 의도적으로 코드 추론을 유도하는 실험을 진행했다. "Let's solve this using Python"으로 시작하도록 강제한 프롬프트 실험에서 Qwen2.5-Math-7B는 11.8%, Qwen2.5-Math-1.5B는 25.6%의 성능 향상을 보였다. 반면 Llama와 OLMo 모델들은 오히려 성능이 저하됐다.

GRPO 클리핑 메커니즘이 무작위 보상을 학습 신호로 변환

연구진은 무작위 보상이 어떻게 학습 신호를 제공하는지에 대한 수학적 분석도 제시했다. GRPO(Group Relative Policy Optimization) 알고리즘의 클리핑(clipping) 메커니즘이 무작위 보상 상황에서도 의미 있는 훈련 신호를 생성한다는 것이다.

클리핑 메커니즘을 제거한 실험에서는 무작위 보상의 성능 향상 효과가 사라졌다. 이는 최적화 알고리즘 자체가 모델의 기존 행동 패턴을 편향적으로 강화하는 역할을 한다는 것을 시사한다. 연구진은 "겉보기에는 의미 없어 보이는 무작위 보상도 최적화 알고리즘의 편향을 통해 사전 훈련된 유용한 패턴을 증폭시킬 수 있다"고 설명했다.

FAQ

Q: 가짜 보상이란 무엇이며, 왜 AI 성능 향상에 효과가 있는 것인가?

A: 가짜 보상(spurious rewards)은 정답과 무관하거나 심지어 틀린 정보를 바탕으로 AI에게 주는 보상을 의미한다. 연구에 따르면 특정 AI 모델(Qwen 계열)에서는 이런 가짜 보상만으로도 사전 훈련 시 학습한 유용한 추론 패턴(코드 추론 등)을 활성화시켜 수학 문제 해결 능력이 크게 향상된다.

Q: 모든 AI 모델에서 가짜 보상 효과가 나타나는 것인가?

A: 아니다. 이 연구에서 가짜 보상 효과는 Qwen 계열 모델에서만 확인됐다. Llama3나 OLMo2 같은 다른 AI 모델에서는 동일한 가짜 보상을 적용해도 성능 향상이 없거나 오히려 성능이 저하됐다. 이는 사전 훈련 과정에서 학습한 추론 패턴의 차이 때문으로 분석된다.

Q: 이 연구 결과가 AI 개발에 어떤 의미를 가지는가?

A: 이 연구는 AI 강화학습에서 보상 신호의 질보다 모델의 사전 훈련 특성이 더 중요할 수 있음을 시사한다. 또한 특정 모델에서만 효과를 보인 연구 결과를 다른 모델에 일반화할 때 주의가 필요하다는 교훈을 제공한다. AI 연구자들은 향후 다양한 모델에서 검증하는 것이 중요하다.

해당 기사에 인용한 논문 원문은 링크에서 확인 가능하다.

이미지 출처: 이디오그램 생성

AI Matters 뉴스레터 구독하기

KRDS 준수해야 하는 공공 웹, AI 기반 검증 기술에도 ‘주목’	IT동아
구글, 가상 착장 앱 ‘도플’ 출시… “스타일 탐색을 더 쉽게” (2)	다나와
퓨리오사AI NPU 도입 앞둔 딥노이드, "운영비용 최적화·서비스 응용에 기대"	IT동아
작곡 AI 수노, 편집 기능 강화 위해 ‘웨이브툴’ 인수… 음반사와 법적 분쟁은 지속	AI matters
스플렁크, AI 시대 데이터 관리 강조…“데이터 연합 전략이 대안”	IT동아
[생성AI길라잡이] 구글 제미나이로 '고품질 음식 사진' 생성하기	IT동아
테슬라 로보택시, 출시 초반부터 사고 속출	다나와
넥스트라이즈 2025, 우주/방산/콘텐츠 부문 AI 스타트업 '눈길'	IT동아
AI 무인 회수기, 페트병·캔 재활용으로 포인트 적립까지…선순환 효과 ‘톡톡’	IT동아
“형태보다 판단력이 중요하다" FCA, AI 금융 규제 패러다임 개혁 요구 (1)	다나와
리벨리온, SKT와 함께 AI 서비스 구현 나서··· '핵심은 AI 주권 확보'	IT동아
AI 챗봇 또타24, 서울지하철 민원 접수 간단하고 빠르게 (4)	IT동아
구글 AI 검색, 영국 경쟁당국 조사 착수…“시장 왜곡 우려”	다나와
업스테이지·퓨리오사AI 맞손, '국산NPU에 국산 LLM 올린다'	IT동아
과기정통부·중기부 장관에 ‘AI 전문가’ 전면 배치… “국가 디지털 전략 가속화”	다나와
美 유통업계 '도난 피해' 연 57조에 달해....해결 위해 프랑스 AI 나선다 (3)	다나와
BBC, AI 스타트업 '퍼플렉시티'에 '무단 콘텐츠 사용'에 따른 법적 조치 경고	다나와
"너 말투, ChatGPT 같아"…AI가 우리의 말하는 방식을 바꾸고 있다 (6)	다나와
인고의 시간 거친 티맥스 ANC, 슈퍼앱 '가이아'에 사활 걸어 (1)	IT동아
공공 AI의 주축으로 떠오른 '소버린 AI', 해외 주요 국가 동향은	IT동아
MS, 수천명 추가 감원…AI 집중 전략 위한 조직 재편 (1)	다나와
애플, 검색 패권 흔든다. Perplexity 인수 검토로 본 전략 전환	다나와
"AI 투자 3배 늘리는데 인재는 홀대"... 액센추어가 경고한 기업 회복력의 함정	AI matters
아마존·구글·MS 324조 원 쏟아부었다... 'AI 인프라 전쟁' 분석 보고서	AI matters
파일럿부터 전면 도입까지… AI로 생산성 7.8% 높인 기업들의 성공 공식	AI matters
터치스크린 고장부터 튀김기 오류까지… 전 세계 패스트푸드 매장의 AI 활용법	AI matters
국민 3명 중 2명 “AI 서비스, 삶에 긍정적 영향”… 60대 이상은 거리감 여전 (1)	AI matters
에이전틱 AI가 바꾸는 4가지 비즈니스 혁신… 내가 놓친 업무 조각 찾아낸다	AI matters
데이터 분석 1위, 콘텐츠 제작 2위... MZ 직장인이 AI 사용하는 방법	AI matters
오픈AI, 기업 대상 챗GPT 할인 나서… MS와의 관계 악영향 때문? (1)	AI matters
中 AI 아바타, 라이브 커머스서 7시간 만에 76억원 매출… 인간 인플루언서 압도 (3)	AI matters
알리바바 클라우드, 한국에 두 번째 데이터센터 개설… “AI 수요 급증에 대비”	AI matters
애플, AI로 자체 칩 설계 가속화... "설계 속도 대폭 향상 기대"	AI matters
어도비, 핀터레스트와 개인화 AI 스타일 분석 '스타일 리딩' 체험 선보여	AI matters
하정우 AI수석 첫 브리핑… “AI 골든타임 3~5년… 이공계 인재 육성 책무 강화할 것”	AI matters
엔비디아, AI 스타트업 투자 광폭 확대… 2년간 80곳 이상 (1)	AI matters
[생성 AI 길라잡이] 바짝 앞으로 다가온 6G 시대, AI가 핵심? (1)	IT동아
인공지능 공세에 '애플 프리미엄' 가치 위협 받는다	IT동아
‘다크웹 전문가’ S2W, 사이버 범죄 AI 추적 기술 세계로	IT동아
영국 환경청, AI 데이터센터 급증에 "물 부족 위기 경고" (2)	다나와
OpenAI, 미 국방부와 2억 달러 초대형 계약 체결	다나와
라틴아메리카 최초의 AI 언어 모델 ‘Latam-GPT’, 2025년 출시 예정	다나와
메타, 오클리·프라다와 손잡고 AI 스마트 글라스 확장…패션 브랜드 협업 본격화 (3)	다나와
AI와 실사 촬영의 만남, 단편 영화 ‘ANCESTRA’	다나와
일반인이 AI로 법률문제 해결한다? 변호사 63% “위험하다” (5)	AI matters
빅테크가 'AI' 기술 깎을 때, 세일즈포스는 '도입 가능성'에 집중했다	IT동아
최신 AI 에이전트도 현실 업무 성공률 58%... 기밀 유지 성능은 0% 수준 (1)	AI matters
시청·병원·학교까지 AI 바람... 공공기관 94% AI 활용하지만 ‘보안’은 엉망	AI matters
챗GPT 많이 쓸수록 멍청해진다? MIT의 실험 결과 충격 (1)	AI matters
속도냐 안전이냐, AI 기업들의 딜레마… 절반이 '빠른 출시' 택했다	AI matters
中, 챗GPT·메타 AI 군에 투입... “군사정보 전 과정 자동화 시도” (1)	AI matters
"AI만으로 상업 포스터 완성" 바이트댄스, 풀스택 편집 가능한 디자인 시스템 공개	AI matters
AI 규제 완화냐 vs. 연구비 삭감이냐, 트럼프 2기 AI 정책 동향 분석	AI matters
과기정통부, 국내 AI 스타트업 8곳 해외 실증 지원… 6개국서 사업 실증	AI matters
英, 세계 최초 AI 기반 로펌 공식 승인… 법률 서비스 혁신 신호탄	AI matters
AI 코딩 툴 ‘커서’, 월 200달러 ‘울트라 요금제’ 출시… 기업 고객 공략 가속화 (1)	AI matters
샘 알트만, "메타, 오픈AI 인재 영입 위해 1억 달러 제안했지만 실패"	AI matters
G7, AI·핵심 광물·퀀텀 등 6대 글로벌 협정 채택 (1)	다나와
오픈AI, 美 국방부와 최대 2억 달러 계약… MS-정부 사업과 충돌 우려 (1)	AI matters
韓 기업 AI 도입 현주소는?...“인재·데이터 확보가 고민” (1)	IT동아
오픈AI도 한다, 美 정부용 ‘OpenAI for Government’ 공식 출범 (1)	AI matters
어도비, '파이어 플라이' 모바일 앱 출시… 이동 중 작업 가능해진다 (1)	AI matters
아마존 CEO "AI 도입으로 인력 감축 불가피"... 사무직 인력 줄인다 (2)	AI matters
메타, AI 스마트 글래스 오클리·프라다로 출시한다 (1)	AI matters
[기고] AI와 미래 산업기술 - 4. AI 시대, 세상을 바꾸는 산업 기술 전문가의 미래	IT동아
AI, 전 인류 위협할 수 있다 (6)	다나와
DISCO, 유럽 시장 공략 본격화…생성 AI로 법률 문서 검토 서비스 시작	다나와
Adobe, AI 기반 웹·모바일 트래픽 분석 툴 발표…마케팅 자동화에 속도	다나와
'AI에 의한 대규모 재난 미리 방지한다' 뉴욕주, AI 재앙 방지 위한 'RAISE 법안' 통과	다나와
'명화 복원도 이제 AI로 하세요' 전문가의 수작업보다 최대 66배 빨라 (4)	다나와
ABBA의 뵈른 울바에우스, AI로 새로운 뮤지컬 작업 중… “AI는 환상적인 도구이자 창작 파트너”	다나와
마텔, 오픈AI와 손잡고 AI 기반 장난감 개발…올해 첫 출시 예정	다나와
“클릭없는 세상 올 것” — 웹을 장악하는 새로운 'AI 검색 봇'	다나와
ChatGPT 최신 모델이 47년 전 아타리 체스 엔진에 완패	다나와
Meta, Scale AI에 대규모 투자 검토… 기존 파트너십 균열 조짐	다나와
‘통합검색을 통합 에이전트로’, 네이버 키워드·생성 AI 검색 두마리 토끼 잡을까	IT동아
[생성 AI 길라잡이] 8년간 공방 ‘로톡 사태’ 계기로 마련된 후속조치 살펴보니	IT동아
'영상 편집이 이렇게 쉽다고?' 메타, 생성형 AI 기반 영상 편집 기능 출시 (3)	다나와
현대백화점, 외국인 고객 위한 AI 쇼핑 어시스턴트 '헤이디' 출시한다	다나와
OpenAI, 차세대 지능형 모델 ‘o3-pro’ 출시… ChatGPT 유료 이용자 대상 제공 시작	다나와
아마존, 광고주 위해 비디오 생성기 등 AI 광고 도구 발표 (1)	다나와
ChatGPT 성장에 힘입어 오픈AI, 연간 반복 매출 100억 달러 돌파...'2029년 매출 4배 목표' (2)	다나와
구글, 제미나이 앱에 ‘예약 작업’ 기능 도입…AI 비서 전쟁 본격화 (1)	다나와
AI가 만든 아이스크림에 맞춤형 서비스까지···배스킨라빈스 청담점 가보니 (3)	IT동아
2025 대한민국 AI 50 발표…포티투닷·뷰노·스트라드비젼 등 혁신 주역 부상 (1)	다나와
일런 머스크, 오랜 숙원인 '로보택시' 서비스 드디어 출시...이번엔 진짜 '완전자율주행'? (1)	다나와
美 정부 백신 홈페이지, 해킹으로 인해 AI 생성 스팸 콘텐츠로 도배 (1)	AI matters
위키피디아, AI 자동 요약 실험 중단… 편집자들의 강력 반발 영향	AI matters
디즈니·유니버설, AI 이미지 생성 플랫폼 ‘미드저니’ 고소…“무단 저작물 활용” (1)	AI matters
사람처럼 행동 전 생각... 메타 AI 모델 ‘V-JEPA 2’ 공개 "로봇에 적용한다면?"	AI matters
前 오픈AI 연구원 “챗GPT, 생명 위협 상황에서도 종료 거부”	AI matters
美 정부가 선택할 정도의 보안 성능, 앤트로픽 '클로드 Gov' 배포	AI matters
데이터 유출 54% 폰에서 발생…기업용 안드로이드에 AI 보안·협업 기능 강화	AI matters
메타, AI 영상 편집 기능 추가… 의상·배경 스타일 자유롭게 바꾼다	AI matters
애플, 신형 AI 모델 성능, 자체 벤치마크서도 경쟁사 대비 열세 (1)	AI matters
AI 시대? 코딩 툴 41% 성장하는 동안 에듀테크·프리랜서 업계 몰락	AI matters
AI, 인프라부터 윤리까지…글로벌 기업들의 투자 각축전 (1)	다나와
항공우주업계가 2025년 AI 상용화에 올인하는 이유 (1)	AI matters
AI가 18세기 노예 문서 1,500p 해독… 美 대학도서관의 AI 활용법 (1)	AI matters
강화학습으로 똑똑해진 AI의 근자감… "모르겠다" 못하고 자신만만하게 틀린다 (1)	AI matters

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

"정답 몰라도 괜찮다"... AI 강화학습의 상식을 뒤엎은 워싱턴대 연구

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

"정답 몰라도 괜찮다"... AI 강화학습의 상식을 뒤엎은 워싱턴대 연구

공유하기

공감/비공감