비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

웹사이트 사람처럼 탐색하는 '똑똑한 로봇' 등장… 연세대가 개발한 'WEB-SHEPHERD'

2025.06.09. 13:30:51
조회 수
196
2

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

WEB-SHEPHERD: Advancing PRMs for Reinforcing Web Agents


GPT-4o 대비 30점 높은 정확도, 10배 저렴한 비용 효율성 실현

연세대학교와 카네기멜론대학교 연구진이 웹 내비게이션 분야에서 혁신적인 성과를 발표했다. 해당 연구진이 발표한 논문에 따르면, 웹 에이전트의 성능을 크게 향상시킬 수 있는 첫 번째 프로세스 보상 모델(Process Reward Model, PRM) 'WEB-SHEPHERD'를 개발한 것이다. 이 모델은 기존 GPT-4o 대비 10배 더 비용 효율적이면서도 약 30점 높은 정확도를 달성했다.

WEB-SHEPHERD의 가장 큰 장점은 뛰어난 성능과 경제성을 동시에 달성한 것이다. 새로운 메타 평가 벤치마크인 WEBREWARDBENCH에서 WEB-SHEPHERD는 85.0%의 성능을 기록했다. 이는 프롬프팅을 사용한 GPT-4o-mini의 5.0%와 비교해 압도적인 차이를 보인다. 또한 WebArena-lite 테스트에서 GPT-4o-mini를 정책 모델로 사용하고 WEB-SHEPHERD를 검증자로 활용했을 때, 기존 대비 10.9점 높은 성능을 보이면서도 비용은 10분의 1 수준으로 절감했다. 이러한 성과는 웹 에이전트의 실제 배포에서 중요한 속도와 비용 효율성 문제를 해결한다는 점에서 의미가 크다.


4만 개 단계별 선호도 데이터셋 'WEBPRM COLLECTION' 구축

연구진은 WEB-SHEPHERD 개발을 위해 대규모 데이터셋인 'WEBPRM COLLECTION'을 새롭게 구축했다. 이 데이터셋은 851개의 인간 작성 지시사항과 4만 개의 단계별 선호도 쌍으로 구성되어 있다. 데이터셋은 쉬움, 보통, 어려움의 세 가지 난이도 수준으로 분류되며, 여행, 쇼핑, 엔터테인먼트 등 다양한 도메인을 포괄한다. 특히 주목할 점은 각 지시사항에 체크리스트(checklist)가 포함되어 있다는 것이다. 이 체크리스트는 복잡한 웹 내비게이션 작업을 명확하고 해석 가능한 하위 목표로 분해하여, WEB-SHEPHERD가 단계별 진행 상황을 정확하게 평가할 수 있도록 돕는다.

체크리스트 기반 단계별 보상 시스템으로 정확한 진행 상황 평가

WEB-SHEPHERD의 핵심 혁신은 체크리스트 기반의 단계별 보상 시스템이다. 기존의 멀티모달 대형 언어 모델(MLLM)들이 웹 내비게이션에서 어려움을 겪는 이유는 장기간의 순차적 의사결정이 필요하기 때문이다. WEB-SHEPHERD는 이 문제를 해결하기 위해 두 단계 접근법을 사용한다.

첫 번째 단계에서는 사용자 지시사항을 분석하여 주요 중간 단계들을 담은 체크리스트를 생성한다. 두 번째 단계에서는 이 체크리스트를 기준으로 각 액션이 목표 달성에 얼마나 기여하는지를 평가한다. 이러한 접근법은 기존의 결과 보상 모델(Outcome Reward Model, ORM)과 달리 각 단계에서의 세밀한 피드백을 제공하여, 더 신뢰할 수 있는 가이던스를 제공한다.


Bradley-Terry 모델링 대비 17점 성능 우위 입증한 생성형 보상 모델링

WEB-SHEPHERD의 기술적 우수성은 훈련 목표 선택에서도 확인된다. 연구진은 인간 선호도 기반 보상 모델에서 널리 사용되는 브래들리-테리(Bradley-Terry, BT) 손실과 생성형 보상 모델링을 비교 실험했다. 그 결과 BT 기반 모델은 특히 WebArena 하위 집합(분포 외 데이터)에서 현저히 낮은 성능을 보였다. 연구진은 BT 손실이 체크리스트를 효과적으로 활용하지 못하고 작업 진행 상황에 대한 민감도가 떨어진다고 분석했다. 이러한 발견은 BT 모델링의 핵심 한계인 도메인 간 일반화 성능 저하가 웹 내비게이션용 프로세스 보상 모델에서도 나타난다는 것을 보여준다.

실제 웹 환경에서 34.55% 성공률 달성, 기존 대비 10.9점 향상

실제 웹 환경에서의 성능 평가에서도 WEB-SHEPHERD는 탁월한 결과를 보였다. WebArena-lite에서 진행된 궤적 탐색 실험에서 WEB-SHEPHERD는 34.55%의 성공률을 기록했다. 이는 기본 성능인 23.64%보다 10.9점 향상된 수치이며, 심지어 GPT-4o의 궤적 탐색 없는 성능인 31.52%보다도 3점 높은 결과이다. 또한 WEB-SHEPHERD가 제공하는 피드백을 활용한 단계별 개선 실험에서도 성능 향상을 확인할 수 있었다. 이러한 결과는 WEB-SHEPHERD가 단순히 평가만 하는 것이 아니라, 실제로 웹 에이전트의 행동을 개선시킬 수 있는 유용한 피드백을 제공한다는 것을 보여준다.

FAQ

Q: WEB-SHEPHERD가 기존 AI 모델들과 다른 점은 무엇인가요?

A: WEB-SHEPHERD는 웹 내비게이션 전용으로 설계된 첫 번째 프로세스 보상 모델입니다. 기존 모델들이 프롬프팅에 의존했다면, WEB-SHEPHERD는 체크리스트 기반으로 각 단계의 진행 상황을 정확하게 평가하여 더 신뢰할 수 있는 가이던스를 제공합니다.

Q: 이 기술이 실제로 어떤 분야에 활용될 수 있나요?

A: 온라인 쇼핑, 예약 시스템, 정보 검색 등 웹 브라우저를 통해 수행되는 다양한 반복적 작업을 자동화할 수 있습니다. 특히 접근성이 필요한 사용자들이나 전문 업무 환경에서 디지털 업무를 자동화하는 데 활용될 수 있습니다.

Q: WEB-SHEPHERD의 비용 효율성은 어느 정도인가요?

A: WEB-SHEPHERD는 1,000개 인스턴스 처리 시 약 4.67달러의 비용이 소요됩니다. 이는 GPT-4o-mini의 43.57달러, GPT-4o의 435.74달러와 비교해 각각 10배, 100배 저렴한 수준입니다.

해당 기사에 인용된 논문 원문은 arxiv에서 확인할 수 있다.

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성했습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
2026년 3월 국산차 판매조건/출고대기 정리 다나와자동차
[이구동성] 쇠더룬드 회장이 이끄는 넥슨 '7조' 원정대 게임메카
김태곤 신작 MMO, 타이틀명 '임진왜란: 조선의 반격' 확정 (1) 게임메카
100% 전기차 르노 세닉 E-테크, ‘2026 올해의 차' 주요 자동차 시상식 2관왕 오토헤럴드
'6년은 타야 본전' 기아 텔루라이드 하이브리드 연비·가격 공개  오토헤럴드
BMW 올리버 집세 회장, ‘2026 월드 카 어워즈 올해의 인물' 선정 오토헤럴드
값 내리자 일주일 만에 1000대…볼보 EX30 계약 급증 오토헤럴드
푸조 올 뉴 3008 스마트 하이브리드, ‘2026 올해의 차 디자인’ 2관왕 오토헤럴드
포르쉐 K1 전기차 계획 철회 'V6·V8 내연기관으로 2028년' 출시 오토헤럴드
사이버캡 양산 직후 총괄 매니저 퇴사 '테슬라 리더십 공백 확대' 오토헤럴드
'AI 수소 시티' 본격화, 현대차그룹 새만금 미래기술 기지 건설 오토헤럴드
대한항공-영국 스카이포츠, 상용 eVTOL 운영 플랫폼 개발 파트너십 체결 글로벌오토뉴스
애스톤 마틴, 실적 부진에 인력 20% 감축 및 EV 투자 축소 글로벌오토뉴스
현대차그룹 대학생 교육봉사단 ‘현대점프스쿨’ 13기 발대식 개최 글로벌오토뉴스
푸조, 2026 WEC 출격할 ‘9X8’ 신규 리버리 공개 글로벌오토뉴스
익숙한 차가 지루해진 시대…’르노 필랑트’가 던진 변화의 신호 글로벌오토뉴스
엔드게임 확 바뀐다, 패스 오브 엑자일 '허상' 3월 7일 시작 게임메카
데브시스터즈, 삼성전자와 협업해 ‘갤럭시 S26 시리즈’ 스페셜 테마 선보인다 게임동아
위메이드의 글로벌 e스포츠 토너먼트 ‘이미르컵 월드 챔피언십’, 오는 28일 개최! 게임동아
PvP 대전, 위메이드 이미르컵 월드 챔피언십 28일 개최 게임메카
이 시간 HOT 댓글!
1/4