"시행착오가 곧 학습"... 메타, 스스로 경험하며 성장하는 AI 에이전트 공개 : 다나와 DPG는 내맘을 디피지

메타 슈퍼인텔리전스 랩스(Meta Superintelligence Labs), 메타 FAIR, 오하이오 주립대 공동 연구진이 AI 에이전트 학습에 새로운 접근법인 '초기 경험(Early Experience)' 패러다임을 제시했다. 이 방법은 보상 신호 없이도 에이전트 자신의 행동과 결과를 학습 신호로 활용해, 기존 모방 학습(Imitation Learning)과 강화학습(Reinforcement Learning) 사이의 간극을 메우는 실용적 방안으로 주목받고 있다.

전문가 데이터만으론 부족했다, 실패 경험이 만드는 학습

현재 대부분의 언어 에이전트는 전문가가 만든 시연 데이터로 지도 학습(Supervised Fine-tuning)을 진행한다. 하지만 이 방식은 전문가 데이터가 다루는 좁은 범위의 시나리오에만 국한되며, 에이전트가 자신의 행동 결과를 관찰하지 못해 실패로부터 배우거나 의사결정을 개선할 수 없다는 한계가 있다. 게다가 고품질 인간 시연 데이터 확보는 비용이 많이 들고 확장성이 떨어진다. 한편 강화학습은 검증 가능한 보상 신호가 필요한데, 웹사이트처럼 실제 세계의 많은 환경에서는 명확한 보상을 얻기 어렵거나 장기간의 상호작용 끝에야 지연된 피드백을 받는다.

연구진이 제안한 초기 경험은 에이전트가 자신이 제안한 행동을 환경에서 실행하고, 그 결과로 얻은 미래 상태를 보상 신호 없이 학습 신호로 전환하는 방식이다. 전문가 궤적의 각 상태에서 에이전트는 여러 대안 행동을 제안하고 각 행동 실행 후 나타나는 다음 상태를 수집한다. 이렇게 모은 상호작용 데이터는 외부 보상 없이도 에이전트가 환경 역학을 이해하고 차선의 행동을 개선하는 데 활용된다.

환경 역학 내재화와 자기 성찰, 두 가지 전략으로 학습 강화

초기 경험 패러다임 하에서 연구진은 두 가지 학습 전략을 제시했다. 첫 번째는 암묵적 월드 모델링(Implicit World Modeling)으로, 에이전트가 수집한 미래 상태를 활용해 환경 역학에 대한 내부 표현을 구축하도록 한다. 구체적으로, 각 상태와 행동 쌍에 대해 결과로 나타나는 다음 상태를 예측하는 과제를 학습 목표로 삼는다. 이를 통해 에이전트는 환경 전이의 규칙성과 부작용, 잘못된 행동의 결과 등을 파악하며, 전문가 궤적에만 의존하는 것보다 다양한 비전문가 행동에도 견고해진다.

두 번째 전략인 자기 성찰(Self-Reflection)은 에이전트가 자신의 차선 행동을 전문가 시연과 비교하고, 왜 특정 결정이 최적이 아닌지 교훈을 추출해 향후 의사결정을 개선하도록 한다. 각 전문가 상태에서 전문가 행동과 여러 대안 행동을 실행한 뒤 얻은 다음 상태 간 차이를 바탕으로 언어 모델에 자연어 설명을 생성하도록 요청한다. 이렇게 생성된 사고 과정과 전문가 행동을 함께 학습 신호로 사용함으로써, 에이전트는 단순한 모방을 넘어 일반화 가능한 의사결정 원리를 습득하게 된다.

8개 환경 테스트에서 일관된 성능 향상 입증

연구진은 웹 내비게이션(WebShop, WebArena-Lite), 체화된 탐색(ALFWorld), 과학 시뮬레이션(ScienceWorld), 장기 계획(TravelPlanner), 멀티턴 도구 사용(BFCLv3, Tau-Bench, SearchQA) 등 8개 다양한 환경에서 실험을 진행했다. 실험에는 라마(Llama) 3.2-3B, 큐엔(Qwen) 2.5-7B, 라마 3.1-8B 등 여러 모델 패밀리가 사용됐다. 모든 설정에서 초기 경험 기반 방법들은 순수 모방 학습 베이스라인보다 일관되게 우수한 성과를 보였다.

특히 웹샵(WebShop) 환경에서 라마 3.2-3B 모델은 모방 학습 대비 암묵적 월드 모델링이 18.4%포인트, 자기 성찰이 10.9%포인트 향상을 기록했다. 여행 계획(TravelPlanner)에서는 자기 성찰 적용 시 라마 3.2-3B가 12.8%포인트, 큐엔 2.5-7B가 15.0%포인트 상승했다. 또한 영역 외(Out-of-Domain) 일반화 평가에서도 초기 경험은 모방 학습보다 더 견고한 성능을 보였으며, 일부 벤치마크에서는 영역 외 개선 폭이 영역 내보다 크게 나타나 에이전트 자신의 경험이 전문가 시연 범위를 넘어서는 상황에도 잘 대비시킨다는 점을 확인했다.

강화학습 초기화에도 효과적, 미래 학습 잠재력 확대

보상 신호가 제공되는 세 가지 환경(WebShop, ALFWorld, SearchQA)에서 강화학습 실험을 추가로 진행한 결과, 초기 경험으로 훈련된 체크포인트에서 시작한 강화학습이 모방 학습만으로 초기화한 경우보다 최종 성능에서 일관되게 더 높은 상한선에 도달했다. 예를 들어 웹샵에서 라마 3.2-3B는 암묵적 월드 모델링 후 강화학습 적용 시 성공률 92.2%를 달성해 모방 학습 시작점(82.0%)보다 10.2%포인트 높았다. 이는 초기 경험이 강화학습 인프라가 갖춰지기 전에도 에이전트 성능을 끌어올릴 뿐 아니라, 이후 강화학습 단계에서도 더 나은 초기 정책을 제공해 장기적 이득을 가져온다는 것을 시사한다.

연구진은 또한 전문가 데이터 양을 절반 이하로 줄여도 초기 경험이 전체 데이터로 훈련한 모방 학습과 비슷하거나 더 나은 성능을 낼 수 있음을 확인했다. 웹샵에서 라마 3.1-8B는 전체 데이터의 8분의 1만 사용해도 전체 데이터로 훈련한 모방 학습보다 높은 성공률을 기록했다. 이는 에이전트 자신의 경험이 전문가 시연만으로는 얻기 어려운 추가적인 학습 신호를 제공하기 때문이다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. 초기 경험은 기존 모방 학습과 어떻게 다른가요?

모방 학습은 전문가가 만든 시연 데이터만으로 에이전트를 훈련하기 때문에 전문가가 경험하지 않은 상황에서는 성능이 떨어질 수 있습니다. 초기 경험은 에이전트가 직접 여러 행동을 시도하고 그 결과를 관찰해 학습 신호로 활용하므로, 더 다양한 환경 상황에 대응할 수 있고 실패로부터도 배울 수 있습니다.

Q2. 초기 경험은 보상 신호가 없어도 작동하나요?

네, 초기 경험의 핵심은 보상 신호 없이도 에이전트 자신이 만든 행동의 결과인 '다음 상태'를 학습 신호로 사용한다는 점입니다. 이를 통해 명확한 보상을 정의하기 어려운 웹사이트 내비게이션 같은 환경에서도 효과적으로 학습할 수 있습니다.

Q3. 초기 경험은 어떤 환경에서 가장 효과적인가요?

암묵적 월드 모델링은 상태 전이가 일관되고 예측 가능한 환경(예: 웹샵, 체화된 탐색)에서 특히 효과적이며, 자기 성찰은 복잡한 제약 조건과 다단계 추론이 필요한 환경(예: 여행 계획, 과학 시뮬레이션)에서 더 큰 성능 향상을 보입니다. 전반적으로 다양한 행동 공간과 관찰 복잡도를 가진 환경에서 일관된 개선 효과가 나타났습니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: Agent Learning via Early Experience

이미지 출처: Meta Superintelligence Labs

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

체험단	VENTI T7000 BTF STEALTH - 압도적인 디자인, 조립의 편의성을 갖춘 PC 케이스 추천	L5 와트니
자유게시판	드디어 가을 하지만 월말 구간	L20 skybulam
자유게시판	커뮤니티는 안 써봤는데 Q&A 게시판 있는 거 좋네요	L1 래서팬더5292
Q&A게시판	노트북 발열로 삼성서비스 센터 다녀왔는데 제가 잘못 아는 건가요? (1)	L1 래서팬더초보자
자유게시판	아슬 아슬 무제한 경매 (2)	L13 까부수자
취미 상품포럼	오늘 오픈한 키우기 게임 (1)	L5 5080불칸사주새요
자유게시판	또비가오는 (1)	L13 웅끼끼
자유게시판	공기가 차네요 (4)	L14 otosan
일반뉴스	AI의 농담, 인간은 '실수'로 오해한다… 뇌파 분석 결과 충격	AI matters
일반뉴스	AI 중독된 10대들, 외로움 더 심해지고 사회성 퇴화... "AI 패닉" 확산	AI matters
일반뉴스	'통계의 거짓말' 이제 AI가 잡는다... 잘못된 데이터 이미지 자동으로 탐지·수정	AI matters
소비자사용기	[POWERED BY MSI] 드디어 바꿨습니다! 한성컴퓨터 (라이젠 9800X3D + 5070 Ti) 내돈내산 찐후기 (2)	L1 물소파밍
일반뉴스	AI마다 다른 역사? 챗GPT와 클로드가 1936년 살인사건을 다르게 기억하는 충격적 이유	AI matters
일반뉴스	[10월 22일 AI 뉴스 브리핑] 마키나락스, 해군 함정 특화 'AI참모' 개발 외	AI matters
일반뉴스	넷플릭스, '생성형 AI' 전면 도입 선언… 업계 반응 엇갈려	AI matters
일반뉴스	앤트로픽 CEO, 트럼프 정부 'AI 공포 조장' 비난에 "사실과 다르다" 반박	AI matters
일반뉴스	[Q&AI] “AI로 조작했다”… 이이경 사생활 폭로 사건 정리	AI matters
일반뉴스	시리즈 최고점, 쥬라기 월드 에볼루션 3 메타 82점	게임메카
자유게시판	감기 조심하세요 (6)	L16 HomeRun
입소문쇼핑	1+1 기능성 긴바지 20,000원 배송비 3,000원	L6 NAPMKMCURUTXO0
기획뉴스	AI 성능은 그대로, 용량은 더 적게··· 에너자이가 말하는 '극단적 양자화'란	IT동아
기획뉴스	FIX 2025 “인공지능ㆍ로봇ㆍ모빌리티 등 미래 주도 기술이 한 자리에”	IT동아
자유게시판	삼성역 코엑스 직접 연결하는 출구 공사중이네요. (1)	M1 똑똑한녹용씨
자유게시판	오늘 아침 출근길에 본 초소형차. (8)	L13 까부수자
Q&A게시판	Slim3 15ARP10 83K7003AKR (1)	L1 arm79pc
자유게시판	수요일 저녁 되세요 (6)	L20 아모스1
신상품뉴스	박범진 사단의 심리스 MMORPG ‘아키텍트’ 정식 출시	게임메카
ㄷㅂㄷ	뛰어난 호환성과 듀얼 체임버 구조로 넉넉한 내부!! #pcbuild #조립pc #게이밍pc	쿨엔조이
ㄷㅂㄷ	수면 고민? 꼭 알아두세요! 세계최초 수면 전용 노캔 이어폰 \| 앤커 사운드코어 Sleep A30 사용기 (1)	라이브렉스
전문가 리뷰	마이크로닉스 AIRian 130 미들 케이스 [써보니] 일명 '유부남 에디션' 과거 느낌 복각판	위클리포스트
쇼핑몰후기	[POWERED BY MSI] 드디어 바꿨습니다! 한성컴퓨터 (라이젠 9800X3D + 5070 Ti) 내돈내산 찐후기 (1)	L1 물소파밍
구매가이드	[친절한 IT] 라이젠 + 라데온 PC조립 '게임 가이드' 최신판 (ver. 2510)	위클리포스트
일반뉴스	히트2, 클래식 서버 '공성전' 업데이트 실시	게임동아
일반뉴스	코리아보드게임즈 ‘2025 보드게임 페스타’ 참가, “10월 25-26일 전용관 운영한다”	게임동아
일반뉴스	‘캐리비안의 해적: 전쟁의 물결’, 기함 시스템 강화 업데이트	게임동아
일반뉴스	라테일, 가을 시즌 맞이 ‘웃는 얼굴’ 업데이트 실시	게임동아
일반뉴스	코리아보드게임즈, 신작 ‘토마토스’, ‘바다숲’, ‘할머니의 레시피’ 10월 27일 단독 출시 예고	게임동아
일반뉴스	카카오게임즈 ‘오딘’, 신규 전직 클래스 ‘프로스트 본’ 사전등록 진행	게임동아
취미 상품포럼	파판14 대규모 업데이트 진짜 얼마 안 남았네요! (2)	L5 NA6DGHEM0WYU7N
전문가 리뷰	ASRock B850 Challenger WiFi White 메인보드 [써보니] 화이트 메인보드, 트렌드가 되다.	위클리포스트
신상품뉴스	서린씨앤아이 '지스킬 T5 NEO R-DIMM DDR5' 메모리 출시	다나와
ㄷㅂㄷ	설명은 필요없다 - PALIT 지포스 RTX 5090 GAMEROCK	샵다나와
신상품뉴스	이에프엠네트웍스, USB C타입 5 in 1 멀티 허브 'ipTIME UC305HDMIplus' 출시	다나와
체험단	ASUS PRIME AP202 ARGB 블랙, 곡면 강화유리 PC 케이스 추천 (1)	L8 IT리뷰창고
체험단	강력한 성능의 OLED 게이밍 모니터 알파스캔 AOC Q27G4ZD QHD 280Hz (1)	L8 시즈z
입소문쇼핑	롯데홈쇼핑 파인디지털 파인뷰 X600 4K 2채널(128GB) (271,920/무료배송) 구매찬스	쇼핑봇
입소문쇼핑	인기순위 상위권의 쇼어 스트라이프 니트 카라 자켓 SAJK43361, 저렴해졌어요	쇼핑봇
기획뉴스	오늘도 깔끔하고 편안한 PC를 위해 숨은 주역들은 '열일'합니다 (1)	다나와
입소문쇼핑	LG 퓨리케어 공기청정기+무빙휠 가전구독/월 32,900원(제휴카드 이용시 월 6,900원)+Npay 18만p	L4 신영이
일반뉴스	현대차·기아, ‘2025 R&D 협력사 테크 데이’ 개최	글로벌오토뉴스
일반뉴스	FIX 2025 - 아시아 최대 플라잉카 기업 '에어리지'의 야심찬 도전	글로벌오토뉴스
입소문쇼핑	[쿠팡] HP 255 G10 시리즈 사무용 노트북 쿠팡 할인 진행 중-★	L7 (주)라이프웍스
체험단	3면 풀메쉬 디자인, 아이구주 HATCH S400 BTF FULL MESH (블랙) PC케이스 (1)	L8 wakoy
구매가이드	1인 가구를 위한 최고의 밥을 찾아라!	다나와
자유게시판	마요네즈 입구가 별 모양인 이유 (7)	L20 야거커티스
자유게시판	LA갈비를 먹은 800만 유튜버의 평가 (8)	L20 야거커티스
전문가 리뷰	[리뷰] 새 주인공과 속도감 살려 돌아온 '닌자 가이덴 4' (1)	게임동아
일반뉴스	"우리 마비가 달라졌어요" 유저에게 다가가는 '마비 모바일'	게임동아
일반뉴스	포켓몬 신작 ‘포켓몬 레전드 ZA’ 메타크리틱 80점대 붕괴	게임동아
컴퓨터 상품포럼	[에이원아이엔티] Segotep 리포트와 이벤트를 SNS 공유하고 네이버페이 포인트 받자! 이벤트 진행 안내	L5 AONE/LEADCOOL
일반뉴스	'레전드 오브 이미르' 스트리머가 주인되는 파트너스 서버 공개	게임동아
전문가 리뷰	[리뷰] 장르 입문작으로 좋은데? 국산 좀비 PvE 익스트랙션 ‘미드나잇 워커스’	게임동아
일반뉴스	브이파이브 게임즈, '천년 어게인' 1주년 기념 업데이트	게임동아
일반뉴스	[2025 롤드컵] 절체절명의 T1과 8강 진출 앞둔 젠지&한화생명	게임동아
입소문쇼핑	ASUS ROG XBOX ALLY X 지금 주문하면 바로 발송! 빨리 만나보세요!	L7 TU1148
취미 상품포럼	카발레드 11.25 출시군요	L5 배가구파요
기획뉴스	“AI 시리 또 연기?” 스마트폰·게임·MS까지... 이 주의 IT 루머 총정리	다나와
입소문쇼핑	탄탄한 기본기, 게이밍 노트북의 정석 2025 ASUS TUF GAMING 시리즈 총정리 + ROG 백팩 사은품까지!	L7 TU1148
입소문쇼핑	[하이마트] 최신 RTX5070 그래픽 탑재 HP OMEN 16 특별 할인! 쿠폰 및 카드할인 적용	L7 (주)라이프웍스
자유게시판	발을 씻자는 무안단물 수준인가봐요 (4)	L5 오해피데이
자유게시판	포크레인으로 물에 떠내려가는 소 구출 (10)	M5 plc-wave
기획뉴스	PC 갬성 전쟁, 흑백 콤-퓨타 대전의 '흑수저 PC'를 소개합니다! (1)	다나와
일반뉴스	넷플릭스, 생성형 AI에 ‘올인’ 선언… “창작자 돕는 도구로 활용” (1)	다나와
취미 상품포럼	요런 캐릭터도 좋죠 (2)	L4 홍둘삼
입소문쇼핑	오늘만 SSG! 조텍 게이밍 존(ZOTAC GAMING ZONE) 디지털 슈퍼세일☆	L7 (주)라이프웍스
자유게시판	[모바일 출석] 1600일! (12)	M3 Or크ㅁr
입소문쇼핑	인기순위 상위권의 델코 AGM LN5(AGM95)(폐배터리 반납), 저렴해졌어요	쇼핑봇
입소문쇼핑	쿠팡 CORSAIR 뱅가드 PRO 96 게이밍 (229,000/무료배송) 구매찬스	쇼핑봇
입소문쇼핑	인기순위 상위권의 SK하이닉스 DDR5-5600(12GB), 저렴해졌어요	쇼핑봇
입소문쇼핑	컴오아시스 인텔 코어i5-14세대 14400F (랩터레이크 리프레시)(밸류팩 정품) (188,000/4,000원) 구매찬스	쇼핑봇
일반뉴스	유니티, 삼성 ‘갤럭시 XR’ 출시 타이틀 지원한다	게임동아
일반뉴스	프라시아 전기, ‘절대자의 성역’ 업데이트	게임동아
일반뉴스	“NBA 시즌 개막도 안했는데?”, NBA 2K26 벌써 41% 할인 (1)	게임동아
신상품뉴스	AI가 그려본 싼타페 부분변경 예상도 ‘실험적 디자인 버리고 간결해진 얼굴’	오토헤럴드
일반뉴스	기아, 카자흐스탄 CKD 합작 공장 준공…연 7만대 생산 거점 확보	오토헤럴드
일반뉴스	GM 슈퍼 크루즈 총 7억 마일 핸즈프리 주행 '무사고'... 2700억 원 벌었다 (1)	오토헤럴드
일반뉴스	BYD 양왕 U9 익스트림, 뉘르브루크링 마의 7분벽 깼다... 6분 59.157초 (1)	오토헤럴드
일반뉴스	2025 오네 슈퍼레이스 챔피언십 최종전, 치열한 경쟁 속 챔피언 탄생 순간	오토헤럴드
일반뉴스	기아, “휘발유 냄새 나는 방향제” 만든 이유…EV 시대의 향수 자극 (2)	오토헤럴드
일반뉴스	캐딜락 대형 전기 SUV 비스틱, ‘2026 독일 올해의 차’ 럭셔리 부문 수상	오토헤럴드
일반뉴스	‘2025 렉서스 영파머스’ 신규 농부 선발 및 친환경 농산물 기부 행사	오토헤럴드
일반뉴스	폭스바겐, ‘아틀라스 & ID.4' 2025 대한민국 미래모빌리티엑스포 특별 전시	오토헤럴드
신상품뉴스	MINI, 창립 20주년 한국 고객 위해 특별 제작 한정판 ‘MINI JCW 어센틱스’ 출시 (1)	오토헤럴드
일반뉴스	피렐리 ‘사이버 타이어’, 오토테크 브레이크스루 어워즈 '올해의 V2X 혁신’ 수상	오토헤럴드
일반뉴스	혼다, ‘도심형 SUV' 새 장르 개척 글로벌 베스트셀러 'CR-V' 출시 30주년	오토헤럴드
신상품뉴스	포르쉐, GTS의 새로운 계보 '신형 마칸 GTS' 공개...역동성과 가속력 강화	오토헤럴드
일반뉴스	‘케데헌’ 공식 게임 나온다! 넷플릭스, 해즈브로·마텔과 공동 라이선스 체결	게임동아
일반뉴스	현대차그룹, 아동학대 예방 및 학대 피해아동 지원 다자간 업무협약 체결	오토헤럴드
일반뉴스	현대차∙기아, 상상이 현실로 구현되는 ‘2025 아이디어 페스티벌’ 개최	오토헤럴드
일반뉴스	현대차·기아, 협력사와 연구개발 상생 '2025 R&D 협력사 테크 데이' 개최	오토헤럴드

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

"시행착오가 곧 학습"... 메타, 스스로 경험하며 성장하는 AI 에이전트 공개

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

"시행착오가 곧 학습"... 메타, 스스로 경험하며 성장하는 AI 에이전트 공개

공유하기

공감/비공감