비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

"시행착오가 곧 학습"... 메타, 스스로 경험하며 성장하는 AI 에이전트 공개

2025.10.22. 13:06:18
조회 수
68

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

메타 슈퍼인텔리전스 랩스(Meta Superintelligence Labs), 메타 FAIR, 오하이오 주립대 공동 연구진이 AI 에이전트 학습에 새로운 접근법인 '초기 경험(Early Experience)' 패러다임을 제시했다. 이 방법은 보상 신호 없이도 에이전트 자신의 행동과 결과를 학습 신호로 활용해, 기존 모방 학습(Imitation Learning)과 강화학습(Reinforcement Learning) 사이의 간극을 메우는 실용적 방안으로 주목받고 있다.

전문가 데이터만으론 부족했다, 실패 경험이 만드는 학습

현재 대부분의 언어 에이전트는 전문가가 만든 시연 데이터로 지도 학습(Supervised Fine-tuning)을 진행한다. 하지만 이 방식은 전문가 데이터가 다루는 좁은 범위의 시나리오에만 국한되며, 에이전트가 자신의 행동 결과를 관찰하지 못해 실패로부터 배우거나 의사결정을 개선할 수 없다는 한계가 있다. 게다가 고품질 인간 시연 데이터 확보는 비용이 많이 들고 확장성이 떨어진다. 한편 강화학습은 검증 가능한 보상 신호가 필요한데, 웹사이트처럼 실제 세계의 많은 환경에서는 명확한 보상을 얻기 어렵거나 장기간의 상호작용 끝에야 지연된 피드백을 받는다.

연구진이 제안한 초기 경험은 에이전트가 자신이 제안한 행동을 환경에서 실행하고, 그 결과로 얻은 미래 상태를 보상 신호 없이 학습 신호로 전환하는 방식이다. 전문가 궤적의 각 상태에서 에이전트는 여러 대안 행동을 제안하고 각 행동 실행 후 나타나는 다음 상태를 수집한다. 이렇게 모은 상호작용 데이터는 외부 보상 없이도 에이전트가 환경 역학을 이해하고 차선의 행동을 개선하는 데 활용된다.


환경 역학 내재화와 자기 성찰, 두 가지 전략으로 학습 강화

초기 경험 패러다임 하에서 연구진은 두 가지 학습 전략을 제시했다. 첫 번째는 암묵적 월드 모델링(Implicit World Modeling)으로, 에이전트가 수집한 미래 상태를 활용해 환경 역학에 대한 내부 표현을 구축하도록 한다. 구체적으로, 각 상태와 행동 쌍에 대해 결과로 나타나는 다음 상태를 예측하는 과제를 학습 목표로 삼는다. 이를 통해 에이전트는 환경 전이의 규칙성과 부작용, 잘못된 행동의 결과 등을 파악하며, 전문가 궤적에만 의존하는 것보다 다양한 비전문가 행동에도 견고해진다.

두 번째 전략인 자기 성찰(Self-Reflection)은 에이전트가 자신의 차선 행동을 전문가 시연과 비교하고, 왜 특정 결정이 최적이 아닌지 교훈을 추출해 향후 의사결정을 개선하도록 한다. 각 전문가 상태에서 전문가 행동과 여러 대안 행동을 실행한 뒤 얻은 다음 상태 간 차이를 바탕으로 언어 모델에 자연어 설명을 생성하도록 요청한다. 이렇게 생성된 사고 과정과 전문가 행동을 함께 학습 신호로 사용함으로써, 에이전트는 단순한 모방을 넘어 일반화 가능한 의사결정 원리를 습득하게 된다.

8개 환경 테스트에서 일관된 성능 향상 입증

연구진은 웹 내비게이션(WebShop, WebArena-Lite), 체화된 탐색(ALFWorld), 과학 시뮬레이션(ScienceWorld), 장기 계획(TravelPlanner), 멀티턴 도구 사용(BFCLv3, Tau-Bench, SearchQA) 등 8개 다양한 환경에서 실험을 진행했다. 실험에는 라마(Llama) 3.2-3B, 큐엔(Qwen) 2.5-7B, 라마 3.1-8B 등 여러 모델 패밀리가 사용됐다. 모든 설정에서 초기 경험 기반 방법들은 순수 모방 학습 베이스라인보다 일관되게 우수한 성과를 보였다.

특히 웹샵(WebShop) 환경에서 라마 3.2-3B 모델은 모방 학습 대비 암묵적 월드 모델링이 18.4%포인트, 자기 성찰이 10.9%포인트 향상을 기록했다. 여행 계획(TravelPlanner)에서는 자기 성찰 적용 시 라마 3.2-3B가 12.8%포인트, 큐엔 2.5-7B가 15.0%포인트 상승했다. 또한 영역 외(Out-of-Domain) 일반화 평가에서도 초기 경험은 모방 학습보다 더 견고한 성능을 보였으며, 일부 벤치마크에서는 영역 외 개선 폭이 영역 내보다 크게 나타나 에이전트 자신의 경험이 전문가 시연 범위를 넘어서는 상황에도 잘 대비시킨다는 점을 확인했다.

강화학습 초기화에도 효과적, 미래 학습 잠재력 확대

보상 신호가 제공되는 세 가지 환경(WebShop, ALFWorld, SearchQA)에서 강화학습 실험을 추가로 진행한 결과, 초기 경험으로 훈련된 체크포인트에서 시작한 강화학습이 모방 학습만으로 초기화한 경우보다 최종 성능에서 일관되게 더 높은 상한선에 도달했다. 예를 들어 웹샵에서 라마 3.2-3B는 암묵적 월드 모델링 후 강화학습 적용 시 성공률 92.2%를 달성해 모방 학습 시작점(82.0%)보다 10.2%포인트 높았다. 이는 초기 경험이 강화학습 인프라가 갖춰지기 전에도 에이전트 성능을 끌어올릴 뿐 아니라, 이후 강화학습 단계에서도 더 나은 초기 정책을 제공해 장기적 이득을 가져온다는 것을 시사한다.

연구진은 또한 전문가 데이터 양을 절반 이하로 줄여도 초기 경험이 전체 데이터로 훈련한 모방 학습과 비슷하거나 더 나은 성능을 낼 수 있음을 확인했다. 웹샵에서 라마 3.1-8B는 전체 데이터의 8분의 1만 사용해도 전체 데이터로 훈련한 모방 학습보다 높은 성공률을 기록했다. 이는 에이전트 자신의 경험이 전문가 시연만으로는 얻기 어려운 추가적인 학습 신호를 제공하기 때문이다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. 초기 경험은 기존 모방 학습과 어떻게 다른가요?

모방 학습은 전문가가 만든 시연 데이터만으로 에이전트를 훈련하기 때문에 전문가가 경험하지 않은 상황에서는 성능이 떨어질 수 있습니다. 초기 경험은 에이전트가 직접 여러 행동을 시도하고 그 결과를 관찰해 학습 신호로 활용하므로, 더 다양한 환경 상황에 대응할 수 있고 실패로부터도 배울 수 있습니다.

Q2. 초기 경험은 보상 신호가 없어도 작동하나요?

네, 초기 경험의 핵심은 보상 신호 없이도 에이전트 자신이 만든 행동의 결과인 '다음 상태'를 학습 신호로 사용한다는 점입니다. 이를 통해 명확한 보상을 정의하기 어려운 웹사이트 내비게이션 같은 환경에서도 효과적으로 학습할 수 있습니다.

Q3. 초기 경험은 어떤 환경에서 가장 효과적인가요?

암묵적 월드 모델링은 상태 전이가 일관되고 예측 가능한 환경(예: 웹샵, 체화된 탐색)에서 특히 효과적이며, 자기 성찰은 복잡한 제약 조건과 다단계 추론이 필요한 환경(예: 여행 계획, 과학 시뮬레이션)에서 더 큰 성능 향상을 보입니다. 전반적으로 다양한 행동 공간과 관찰 복잡도를 가진 환경에서 일관된 개선 효과가 나타났습니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: Agent Learning via Early Experience

이미지 출처: Meta Superintelligence Labs

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
아름담다-레몬사운드, 감성 어드벤처 신작 ‘원더라이브러리' 위한 음악 콘테스트 ‘레모네이션’ 성료 게임동아
네오위즈 '브라운더스트2', 시즌 이벤트 '할로윈 나이트' 업데이트 게임동아
[인터뷰] 시그마 스튜디오, 트리니티 가디언즈 빅뱅 패치로 “방치형 게임의틀을 깰 것” 게임동아
장현국 넥써쓰 대표 "재판부 현명한 판단 기대...부당한 판결 나오면 아무도 블록체인 안 할 것" 게임동아
하이퍼센트 김주완 대표 “돈 안 들이고 19억 마케팅 효과 낸 ‘백룸컴퍼니’, 비결은 ‘관계’” 게임동아
글로벌 퍼블리셔 도약 위해 날개 펴는 드림에이지, ‘아키텍트’가 메인 엔진 될까? 게임동아
엔씨소프트-엔비디아 협력, '지포스 게이머 페스티벌' 단독 시연사 선정 게임동아
백만 오리 대군, 이스케이프 프롬 덕코프 100만 장 판매 게임메카
취향에 맞는 게임 한 눈에, 스팀 ‘맞춤 캘린더’ 기능 발표 게임메카
면접관 시뮬레이터 ‘지원해주셔서 감사합니다’ 화제 게임메카
[순위분석] 익스트랙션 새 장 여나, 아크 레이더스 진입 게임메카
'AI 앵커는 언론인인가?'- 英 '채널4' 실험이 제기한 저널리즘의 미래 (1) 다나와
[무쏘 EV] SUV, 픽업, 전기까지... 좋은 건 다 품은 '무쏘의 뿔' 오토헤럴드
극강 효율과 퍼포먼스의 만남 '미니 JCW 에이스맨' 오토헤럴드
'이정도면 그냥 풀하이브리드 인정' 푸조 308 스마트 하이브리드 오토헤럴드
'청라 아파트 벤츠 포비아' 4명 중 1명 "10년 후에도 전기차 사지 않을 것" 오토헤럴드
애스턴마틴, 색상ㆍ마감 등 원하는 디자인 연출 차세대 컨피규레이터 공개 오토헤럴드
제너럴 모터스, DIFA 2025 참가...GM 전동화 비전 담은 캐딜락 리릭 전시 오토헤럴드
세계 정상급 출전, KPGA 투어·DP 월드투어 ‘2025 제네시스 챔피언십’ 오토헤럴드
스텔란티스, 지프ㆍ푸조 보증기간 만료 차량 ‘롱 라이프’ 서비스 캠페인 오토헤럴드
이 시간 HOT 댓글!
1/4