로그인하세요
알림
설정
레프트패널 닫기
관심
최근본
마이페이지
출석체크
카테고리
    서비스 바로가기
    • 자동차
    • 인기 서비스조립PC
    • PC견적
    • PC26
    • 신규 서비스LIVE쇼핑
    • 커뮤니티
    • 이벤트
    • CM추천/문의
    • 오늘의 특가
    앱 서비스
    • 자동차
    • PC견적
    • 장터
    인기 쇼핑몰
    • 지마켓
    • 옥션
    • 11번가
    • 롯데아이몰
    • 쿠팡
    • 롯데닷컴(롯데온)
    • 신세계몰
    • 현대Hmall
    • CJ 온스타일
    • GS샵
    • 하이마트
    • 엘롯데
    • 이마트몰
    • 홈플러스
    • NS몰
    • SK스토아
    • KT알파 쇼핑
    • 전자랜드
    • 무신사
    PC버전 로그인 개인정보처리방침 고객센터
    (주) 커넥트웨이브
    대표:
    김정남
    주소
    서울특별시 금천구 벚꽃로 298, 17층(가산동, 대륭포스트타워6차) (우) 08510
    • 사업자번호:
      117-81-40065
    • 통신판매업:
      제2024-서울금천-0848호
    • 부가통신사업:
      제003081호
    • 고객센터:
      1688-2470 (유료)
    • 이메일:
      cs@cowave.kr
    • 호스팅 제공자:
      (주)커넥트웨이브
    • 사업자 정보확인
    • 이용약관
    • 책임의 한계
    • 청소년 보호정책
    사용법 보기
    MY쇼핑이란? 자주 쓰는 쇼핑몰을 연결하면 쇼핑몰 주문내역을 한 번에 확인할 수 있습니다. 쇼핑몰 계정은 고객님의 핸드폰에만 저장되어 안전합니다.
    편리한 구매내역 확인. 다양한 쇼핑몰의 주문내역을 한 곳에서 확인해보세요.
    가격비교와 최저가 쇼핑을 한 번에. 자주 구매하는 상품은 가격비교를 통해 저렴하게 구매하세요.
    보안은 필수! 쉽고 편한 가치 쇼핑. 쇼핑몰 계정은 고객님의 핸드폰에만 암호화 저장되어 안전합니다. 쇼핑몰 연결
    다나와 홈

    커뮤니티 DPG

    일반뉴스

    • 게시판
    • 상품포럼
    • 뉴스
    • 동영상
    • 커뮤니티 공지사항
      소비자사용기
    • 특가몰
      자유게시판
    • 이달의 이벤트
      유머게시판
    • 당첨자발표게시판
      댕냥이게시판
    • 포인트 마켓
      Q&A게시판
    • 다나와 래플
      상품의견
    • 모두의 경매
      체험단
    • 오늘도 출석체크
      엄근진게시판
    • 입소문쇼핑
      쇼핑몰후기
    • 메인가자
      A/S후기
    • 당첨후기
    • 컴퓨터
      AI
    • 푸드
      취미
    • 최신뉴스
      일반뉴스
    • 기획뉴스
      신상품뉴스
    • 쇼핑뉴스
      테크팁
    • 다나와리포터
      구매가이드
    • 전문가리뷰
      인기순위가이드
    • 벤치마크
      차트뉴스
    • 가격동향
    • 고나고
      공구왕황부장
    • 노써치
      도레
    • 딴트공 말방구 실험실
      라이브렉스
    • 레고매니아
      맛상무
    • 모터피디
      무적풍화륜
    • 민티저
      보드나라
    • 뻘짓연구소
      여행매거진 트래비TV
    • 오토기어
      조코딩 JoCoding
    • 인프제 INFJ
      주연 ZUYONI
    • 진블로그
      집마 홀릭TV
    • 톡써니
      포마: 탈 것을 리뷰하는 남자
    • 쿨엔조이
      훅간다TV
    • AI 매터스
      Allthatboots TV
    • DmonkTV
      Hakbong Kwon
    • Motorgraph
      PC SNAP
    • Producer dk
      THE EDIT
    • UnderKG
      다나와 공식채널
    • 답나와
      리뷰나와
    • 샵다나와 조립갤러리
      직장인 다나왕
    >
    이전 글
    다음 글
    AI matters

    "정답 몰라도 괜찮다"... AI 강화학습의 상식을 뒤엎은 워싱턴대 연구

    2025.06.04. 11:40:47
    읽음301

    Spurious Rewards: Rethinking Training Signals in RLVR


    무작위 보상만으로 21.4% 성능 향상, 틀린 답 보상해도 24.6% 상승

    강화학습 분야에서 놀라운 연구 결과가 발표됐다. 워싱턴대학교와 앨런 인공지능 연구소(Allen Institute for AI) 공동 연구팀이 검증 가능한 보상을 통한 강화학습(Reinforcement Learning with Verifiable Rewards, RLVR) 방법론에서 전혀 예상치 못한 현상을 발견했다. 정답과 무관하거나 심지어 부정확한 '가짜 보상(spurious rewards)'만으로도 특정 AI 모델의 수학 추론 능력이 크게 향상된다는 것이다.

    연구진은 Qwen2.5-Math-7B 모델을 대상으로 MATH-500 벤치마크에서 다양한 보상 신호를 테스트했다. 그 결과 무작위 보상(random reward)을 사용해도 21.4%의 절대적 성능 향상을 기록했다. 이는 정답 기반 보상으로 얻은 28.8% 향상과 비교해 76%에 달하는 수준이다. 더욱 놀라운 것은 틀린 정답을 보상하는 '부정확한 라벨(incorrect label)' 보상으로도 24.6%의 성능 향상을 달성했다는 점이다.

    연구진이 테스트한 가짜 보상들은 다음과 같다. 형식 보상(format reward)은 답변에 '\boxed{}' 표현이 포함되기만 하면 보상을 주는 방식으로 16.4% 향상을 보였고, 다수결 투표(majority voting) 방식은 26.5% 향상을 기록했다. 심지어 50% 확률로 완전히 무작위로 보상을 주는 시스템도 상당한 성능 개선을 이뤄냈다.


    Qwen만 특효, Llama·OLMo는 효과 제로... 8개 모델 교차검증 결과

    연구의 핵심 발견은 이러한 가짜 보상 효과가 Qwen 계열 모델에서만 나타난다는 점이다. Llama3.1-8B-Instruct와 OLMo2-7B 같은 다른 모델 패밀리에서는 동일한 가짜 보상을 적용해도 성능 향상이 거의 없거나 오히려 성능이 저하되는 경우가 많았다. 연구진은 8개의 추가 모델을 대상으로 교차 검증을 실시했다. Qwen2.5-7B, Qwen2.5-1.5B 등 일반 목적 Qwen 모델들은 여전히 가짜 보상에서 일정한 성능 향상을 보였지만, Llama3.1-8B, Llama3.2-3B, OLMo2-7B 등 다른 모델 패밀리에서는 정답 기반 보상에서만 의미 있는 성능 향상이 나타났다.

    특히 모델 크기와 가짜 보상 효과 간에도 상관관계가 발견됐다. 더 큰 모델일수록 사전 훈련에서 얻은 지식을 더 많이 보유하고 있어 가짜 보상으로도 이를 효과적으로 활용할 수 있는 것으로 분석됐다.

    비밀은 '코드 추론'... 65%→90% 급증이 성능향상 58.3% 기여

    연구진은 이러한 현상의 원인을 분석한 결과, '코드 추론(code reasoning)'이라는 독특한 패턴을 발견했다. Qwen2.5-Math-7B는 코드 실행 환경 없이도 파이썬 코드를 생성해 수학 문제를 해결하는 방식을 65%의 경우에 사용했다. 놀랍게도 코드 추론을 사용한 답변의 정확도는 64%로, 자연어만 사용한 29%보다 두 배 이상 높았다.

    RLVR 훈련 과정에서 가짜 보상들은 모두 코드 추론 빈도를 90% 이상으로 증가시켰고, 이는 전체 성능 향상과 강한 상관관계를 보였다. 연구진이 Lang→Code(자연어에서 코드로 전환) 그룹을 분석한 결과, Qwen2.5-Math-7B 성능 향상의 58.3%가 이 그룹에서 발생했음을 확인했다.

    이를 검증하기 위해 연구진은 의도적으로 코드 추론을 유도하는 실험을 진행했다. "Let's solve this using Python"으로 시작하도록 강제한 프롬프트 실험에서 Qwen2.5-Math-7B는 11.8%, Qwen2.5-Math-1.5B는 25.6%의 성능 향상을 보였다. 반면 Llama와 OLMo 모델들은 오히려 성능이 저하됐다.

    GRPO 클리핑 메커니즘이 무작위 보상을 학습 신호로 변환

    연구진은 무작위 보상이 어떻게 학습 신호를 제공하는지에 대한 수학적 분석도 제시했다. GRPO(Group Relative Policy Optimization) 알고리즘의 클리핑(clipping) 메커니즘이 무작위 보상 상황에서도 의미 있는 훈련 신호를 생성한다는 것이다.

    클리핑 메커니즘을 제거한 실험에서는 무작위 보상의 성능 향상 효과가 사라졌다. 이는 최적화 알고리즘 자체가 모델의 기존 행동 패턴을 편향적으로 강화하는 역할을 한다는 것을 시사한다. 연구진은 "겉보기에는 의미 없어 보이는 무작위 보상도 최적화 알고리즘의 편향을 통해 사전 훈련된 유용한 패턴을 증폭시킬 수 있다"고 설명했다.

    FAQ

    Q: 가짜 보상이란 무엇이며, 왜 AI 성능 향상에 효과가 있는 것인가?

    A: 가짜 보상(spurious rewards)은 정답과 무관하거나 심지어 틀린 정보를 바탕으로 AI에게 주는 보상을 의미한다. 연구에 따르면 특정 AI 모델(Qwen 계열)에서는 이런 가짜 보상만으로도 사전 훈련 시 학습한 유용한 추론 패턴(코드 추론 등)을 활성화시켜 수학 문제 해결 능력이 크게 향상된다.

    Q: 모든 AI 모델에서 가짜 보상 효과가 나타나는 것인가?

    A: 아니다. 이 연구에서 가짜 보상 효과는 Qwen 계열 모델에서만 확인됐다. Llama3나 OLMo2 같은 다른 AI 모델에서는 동일한 가짜 보상을 적용해도 성능 향상이 없거나 오히려 성능이 저하됐다. 이는 사전 훈련 과정에서 학습한 추론 패턴의 차이 때문으로 분석된다.

    Q: 이 연구 결과가 AI 개발에 어떤 의미를 가지는가?

    A: 이 연구는 AI 강화학습에서 보상 신호의 질보다 모델의 사전 훈련 특성이 더 중요할 수 있음을 시사한다. 또한 특정 모델에서만 효과를 보인 연구 결과를 다른 모델에 일반화할 때 주의가 필요하다는 교훈을 제공한다. AI 연구자들은 향후 다양한 모델에서 검증하는 것이 중요하다.


    해당 기사에 인용한 논문 원문은 링크에서 확인 가능하다.

    이미지 출처: 이디오그램 생성




    AI Matters 뉴스레터 구독하기
    태그
    AI 강화학습 상식 워싱턴대 연구
    안내 ?

    말 많은 뉴스

    • 1

      ‘중국’을 넘어 프리미엄으로 향하다, 로보락 로봇청소기 [라인업을보자]

      댓글4
      ‘중국’을 넘어 프리미엄으로 향하다, 로보락 로봇청소기 [라인업을보자]
    • 2

      5090달린 랩탑이 2kg이면 반칙이지! 거기에 240Hz 디스플레이까지 달린 레이저 블레이드 16 5090!

      댓글4
      5090달린 랩탑이 2kg이면 반칙이지! 거기에 240Hz 디스플레이까지 달린 레이저 블레이드 16 5090!
    • 3

      우리나라에서 제일 싼 6천원짜리 무선 이어폰

      댓글3
      우리나라에서 제일 싼 6천원짜리 무선 이어폰
    • 4

      [신차공개] 페라리 최초 전기차 루체·MINI 쿠퍼 SE 폴스미스 에디션 공개

      댓글3
      [신차공개] 페라리 최초 전기차 루체·MINI 쿠퍼 SE 폴스미스 에디션 공개 [
    • 5

      “닭을 통째로 고아냈다”…하림, 깊고 시원한 ‘닭칼국수’ 라면 출격

      댓글3
      “닭을 통째로 고아냈다”…하림, 깊고 시원한 ‘닭칼국수’ 라면 출격

    일반뉴스 최신 글

    이전 페이지 1/10 다음 페이지
    • [생활 속 IT] "이제 스마트폰으로 로또 산다" 동행복권, 20년 만에 달라진 이유

      IT동아 11:04:38
      읽음 36
    • '넥슨 드림 멤버스(NDM)' 게임 제작발표회 진행

      게임동아 09:23:25
      읽음 48 공감 1
    • 그냥 배틀로얄로는 못 이긴다! 새로운 킥 첨가하는 신작들

      게임동아 09:22:45
      읽음 51 공감 1
    • 넷마블 '블레이드&소울 레볼루션', 환상의 '백몽' 키우기 이벤트 진행

      게임동아 09:22:25
      읽음 43 공감 1
    • ‘에오스 블랙’, 과금 제한 ‘삼백 IV’ 서버 업데이트

      게임동아 09:22:09
      읽음 44 공감 1
    • [오늘의 스팀] 한 주 동안 판매 1위, '바하 레퀴엠' 출시 코앞

      게임메카 26.02.26.
      읽음 113 공감 10
    • 2026 VCT 첫 국제전, 마스터스 산티아고 3월 1일 열린다

      게임메카 26.02.26.
      읽음 112 공감 9
    • 처치 곤란했던 폐가전, 스티커 없이 무료 배출하는 방법

      IT동아 26.02.26.
      읽음 104 공감 9
    • BMW 모토라드, 15대 한정판 ‘BMW R 12 S’ 국내 출시

      글로벌오토뉴스 26.02.26.
      읽음 122 공감 9
    • BMW 코리아 미래재단, 대학생 사회공헌 공모전 ‘영 이노베이터 드림 프로젝트’ 개최

      글로벌오토뉴스 26.02.26.
      읽음 119 공감 9
    • 틸 셰어 폭스바겐그룹코리아 사장, 한국수입자동차협회(KAIDA) 회장 3연임

      글로벌오토뉴스 26.02.26.
      읽음 118 공감 9
    • [영상] 영국 두 아이콘의 만남, MINI 폴 스미스 에디션을 만나다

      글로벌오토뉴스 26.02.26.
      읽음 116 공감 9
    • 소파가 전시 오브제로…알로소, ‘서울리빙디자인페어’서 체험형 공간 선보여

      뉴스탭 26.02.26.
      읽음 87 공감 9
    • “집이 곧 필드”…텔몬파크골프, 가정용 시뮬레이터로 시장 판 바꿨다

      뉴스탭 26.02.26.
      읽음 80 공감 9
    • “아이마다 다른 공부 리듬”…일룸, 체험형 팝업으로 학생방 새 기준 제시

      뉴스탭 26.02.26.
      읽음 56 공감 8
    • 바나나·파인애플·용과의 변신…야외 미식 트렌드 ‘밖슐랭’ 확산

      뉴스탭 26.02.26.
      읽음 54 공감 8
    • 이채민과 함께한 K2 2026 SS 화보 공개…기능성과 스타일 모두 잡았다

      뉴스탭 26.02.26.
      읽음 70 공감 8
    • 이동휘의 ‘스피드 무드’ 통했다…버커루 2026 S/S 캠페인 공개

      뉴스탭 26.02.26.
      읽음 56 공감 8
    • 36년 만의 블러드문 뜬다…식품·유통업계, 정월대보름 마케팅 ‘후끈’

      뉴스탭 26.02.26.
      읽음 68 공감 8
    • 뷔의 담백한 무드로 완성한 ‘일상 아웃도어’…스노우피크 26 스프링 컬렉션 공개

      뉴스탭 26.02.26.
      읽음 58 공감 8
    • “노래 들으며 타자 연습”… 코르티스 신곡 가사 ‘타자 게임’으로 최초 공개

      뉴스탭 26.02.26.
      읽음 83 공감 8
    • 3천원대 마요부터 단백질 강화 메뉴까지…도시락 시장, 초개인화 경쟁 본격화

      뉴스탭 26.02.26.
      읽음 70 공감 8 댓글 1
    • 코지마 감성 입은 ROG, ‘루덴스’ 철학 담은 한정판 Z13 전격 공개

      뉴스탭 26.02.26.
      읽음 77 공감 1
    • 한예슬 효과 통했다…세르본 ‘튜닝엑스’, 면세점·백화점 온라인몰 전격 입점

      뉴스탭 26.02.26.
      읽음 62 공감 1
    • “상금 2억2000만원” 구글 딥마인드, 서울서 ‘제미나이 3’ 해커톤 연다

      뉴스탭 26.02.26.
      읽음 94 공감 1
    • 250야드 장타자 이슬기2, 에이븐 입고 KLPGA 정규투어 도전장

      뉴스탭 26.02.26.
      읽음 49 공감 1
    • 묘하게 닮은 ‘일곱 개의 대죄: 오리진’과 ‘붉은사막’ 3월 맞대결

      게임동아 26.02.26.
      읽음 71 공감 1
    • 웹젠 '뮤: 포켓 나이츠', 신규 유물 등 육성 콘텐츠 업데이트

      게임동아 26.02.26.
      읽음 54 공감 1
    • 넷마블 '일곱 개의 대죄: 그랜드 크로스', 글로벌 서비스 6주년 페스티벌

      게임동아 26.02.26.
      읽음 64 공감 1
    • 스마일게이트 ‘카제나’, 센서타워 APAC 어워즈 ‘최고의 신규 서브컬처 게임’ 선정

      게임동아 26.02.26.
      읽음 64 공감 1
    • 엔씨(NC) '리니지 클래식', 비정상 플레이 근절 박차.. '클린 캠페인' 진행

      게임동아 26.02.26.
      읽음 72 공감 1
    • 스마일게이트-GRID, ‘크로스파이어’ e스포츠 공식 데이터 글로벌 유통 파트너십 체결

      게임동아 26.02.26.
      읽음 56 공감 1
    • 타타대우, 특장업체 사이버보안 설명회 '상용차 보안' 선제 대응

      오토헤럴드 26.02.26.
      읽음 53 공감 1
    • GMC 허머 EV, 국내 인증 완료 '복합 512km 기록' 상반기 판매 돌입

      오토헤럴드 26.02.26.
      읽음 71 공감 1
    • 현대차·기아, 전기차 배터리관리시스템·BMW 스타터 모터 결함 리콜

      오토헤럴드 26.02.26.
      읽음 63 공감 1
    • EU 1월 신차 판매 3.9% 감소, 현대차 22.2% 급감 기아와 순위 역전

      오토헤럴드 26.02.26.
      읽음 63 공감 1
    • '20만대 시대는 옛말' 아우디, 美 판매 2년 연속 역성장 이어 추가 감소

      오토헤럴드 26.02.26.
      읽음 73 공감 1
    • “표지판 번쩍임 줄인다” 테슬라 매트릭스 라이트 개선 예고

      오토헤럴드 26.02.26.
      읽음 66 공감 1
    • '크로스오버 대신 픽업' 현대차, 美 시장 전략 전환 가속

      오토헤럴드 26.02.26.
      읽음 67 공감 1
    • 특별한 감성 미니 전기차. MINI 쿠퍼 SE 폴 스미스 에디션 출시

      오토헤럴드 26.02.26.
      읽음 61 공감 1
    • '임직원 긍정 응답 79%' 기아, 대한민국 일하기 좋은 100대 기업 선정

      오토헤럴드 26.02.26.
      읽음 71 공감 1
    • KG모빌리티 '이스타나' 출시, 상용·다목적 라인업 강화 시동

      오토헤럴드 26.02.26.
      읽음 70
    • '음악으로 이어진 아산의 정신' 현대차그룹, 25주기 추모 행사 개최

      오토헤럴드 26.02.26.
      읽음 57
    • '하루 6000원이면 탄다' BYD, 中 내수 둔화에 파격 조건 내놔

      오토헤럴드 26.02.26.
      읽음 65
    • 한국수입자동차협회, 제17대 회장에 틸 셰어 재선임… 3연속 선임

      오토헤럴드 26.02.26.
      읽음 54
    • 현대차그룹, 새만금에 10조 원 규모 미래 산업 기지 조성

      글로벌오토뉴스 26.02.26.
      읽음 99
    • 렉서스 IS, 1,000km 주행 앞세워 2027년 배터리 전기차로 부활

      글로벌오토뉴스 26.02.26.
      읽음 95
    • 중국 창안자동차, 1,500km 주행 전고체 배터리 내년 시험 탑재... 2027년 양산

      글로벌오토뉴스 26.02.26.
      읽음 89
    • 웨이모, 미 4개 도시 추가 확장… 무인 로보택시 10개 도시 시대 개막

      글로벌오토뉴스 26.02.26.
      읽음 86
    • 랜드로버, 디펜더 스포츠 EV 올 해 말 공개… 6천만 원대 전기 오프로더 시장 정조준

      글로벌오토뉴스 26.02.26.
      읽음 101
    • 원하는 경품 나올 때까지~ 무제한 당첨 룰렛

    • <3월 모바일 출석체크> 3월 출석하고 선물받기

    • 답 안 나올 땐 답나와를 찾아주세요.

    스폰서 PICK

    이전 페이지 1/3 다음 페이지
    • 엔티스 ES 800W 80PLUS스탠다드 ATX3.1

      엔티스 ES 800W 80PLUS스탠다드 ATX3.1

      엔티스
    • 잘만 ALPHA II DS A36(블랙)

      잘만 ALPHA II DS A36(블랙)

      잘만
    • 앱코 G40 시그니처(블랙)

      앱코 G40 시그니처(블랙)

      앱코
    • darkFlash DY470 ARGB 강화유리(화이트)

      darkFlash DY470 ARGB 강화유리(화이트)

      darkFlash
    • AMD 라이젠5-5세대 7600 (라파엘)(멀티팩 정품)

      AMD 라이젠5-5세대 7600 (라파엘)(멀티팩 정품)

      AMD
    • 다크플래쉬
    • 엔티스 배너
    • 잘만
    PC버전 로그인 개인정보처리방침 고객센터
    (주) 커넥트웨이브
    대표:
    김정남
    주소
    서울특별시 금천구 벚꽃로 298, 17층(가산동, 대륭포스트타워6차) / 우편번호: 08510
    • 사업자번호:
      117-81-40065
    • 통신판매업:
      제2024-서울금천-0848호
    • 부가통신사업:
      제003081호
    • 고객센터:
      1688-2470 (유료)
    • 이메일:
      cs@cowave.kr
    • 호스팅 제공자:
      (주)커넥트웨이브
    • 사업자 정보확인
    • 이용약관
    • 책임의 한계
    • 청소년 보호정책
    뒤로
    새로고침 맨위로 이동
    안내

    유용하고 재미있는 정보인가요? 공감이 된다면 공감 버튼을,
    그렇지 않다면 비공감 버튼을
    눌러 주세요!
    공감이나 비공감을 선택 하는 경우
    다나와 포인트를 적립해 드립니다.
    ※ 공감 버튼의 총 선택 횟수는
    전체 공개입니다.
    비공감 버튼의 선택 여부는
    선택한 본인만 알 수 있습니다.

    포인트 안내
    목록
    공감 7
    비공감
    댓글
    공유

    공유받은 친구가 활동하면 포인트를!

    URL이 복사되었습니다.

    공유하기

    레이어 닫기

    지금 보는 페이지가 마음에 든다면
    공유하기를 통해 지인에게 소개해 주세요.

    • 카카오톡
    • 라인
    • 페이스북
    • X
    • 밴드
    https://dpg.danawa.com/mobile/news/view?boardSeq=60&listSeq=5823121 복사

    로그인 유저에게는 공유 활동에 따라
    다나와 포인트가 지급됩니다.

    자세히 >

    URL이 복사되었습니다.