비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

웹사이트 사람처럼 탐색하는 '똑똑한 로봇' 등장… 연세대가 개발한 'WEB-SHEPHERD'

2025.06.09. 13:30:51
조회 수
37

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

WEB-SHEPHERD: Advancing PRMs for Reinforcing Web Agents


GPT-4o 대비 30점 높은 정확도, 10배 저렴한 비용 효율성 실현

연세대학교와 카네기멜론대학교 연구진이 웹 내비게이션 분야에서 혁신적인 성과를 발표했다. 해당 연구진이 발표한 논문에 따르면, 웹 에이전트의 성능을 크게 향상시킬 수 있는 첫 번째 프로세스 보상 모델(Process Reward Model, PRM) 'WEB-SHEPHERD'를 개발한 것이다. 이 모델은 기존 GPT-4o 대비 10배 더 비용 효율적이면서도 약 30점 높은 정확도를 달성했다.

WEB-SHEPHERD의 가장 큰 장점은 뛰어난 성능과 경제성을 동시에 달성한 것이다. 새로운 메타 평가 벤치마크인 WEBREWARDBENCH에서 WEB-SHEPHERD는 85.0%의 성능을 기록했다. 이는 프롬프팅을 사용한 GPT-4o-mini의 5.0%와 비교해 압도적인 차이를 보인다. 또한 WebArena-lite 테스트에서 GPT-4o-mini를 정책 모델로 사용하고 WEB-SHEPHERD를 검증자로 활용했을 때, 기존 대비 10.9점 높은 성능을 보이면서도 비용은 10분의 1 수준으로 절감했다. 이러한 성과는 웹 에이전트의 실제 배포에서 중요한 속도와 비용 효율성 문제를 해결한다는 점에서 의미가 크다.


4만 개 단계별 선호도 데이터셋 'WEBPRM COLLECTION' 구축

연구진은 WEB-SHEPHERD 개발을 위해 대규모 데이터셋인 'WEBPRM COLLECTION'을 새롭게 구축했다. 이 데이터셋은 851개의 인간 작성 지시사항과 4만 개의 단계별 선호도 쌍으로 구성되어 있다. 데이터셋은 쉬움, 보통, 어려움의 세 가지 난이도 수준으로 분류되며, 여행, 쇼핑, 엔터테인먼트 등 다양한 도메인을 포괄한다. 특히 주목할 점은 각 지시사항에 체크리스트(checklist)가 포함되어 있다는 것이다. 이 체크리스트는 복잡한 웹 내비게이션 작업을 명확하고 해석 가능한 하위 목표로 분해하여, WEB-SHEPHERD가 단계별 진행 상황을 정확하게 평가할 수 있도록 돕는다.

체크리스트 기반 단계별 보상 시스템으로 정확한 진행 상황 평가

WEB-SHEPHERD의 핵심 혁신은 체크리스트 기반의 단계별 보상 시스템이다. 기존의 멀티모달 대형 언어 모델(MLLM)들이 웹 내비게이션에서 어려움을 겪는 이유는 장기간의 순차적 의사결정이 필요하기 때문이다. WEB-SHEPHERD는 이 문제를 해결하기 위해 두 단계 접근법을 사용한다.

첫 번째 단계에서는 사용자 지시사항을 분석하여 주요 중간 단계들을 담은 체크리스트를 생성한다. 두 번째 단계에서는 이 체크리스트를 기준으로 각 액션이 목표 달성에 얼마나 기여하는지를 평가한다. 이러한 접근법은 기존의 결과 보상 모델(Outcome Reward Model, ORM)과 달리 각 단계에서의 세밀한 피드백을 제공하여, 더 신뢰할 수 있는 가이던스를 제공한다.


Bradley-Terry 모델링 대비 17점 성능 우위 입증한 생성형 보상 모델링

WEB-SHEPHERD의 기술적 우수성은 훈련 목표 선택에서도 확인된다. 연구진은 인간 선호도 기반 보상 모델에서 널리 사용되는 브래들리-테리(Bradley-Terry, BT) 손실과 생성형 보상 모델링을 비교 실험했다. 그 결과 BT 기반 모델은 특히 WebArena 하위 집합(분포 외 데이터)에서 현저히 낮은 성능을 보였다. 연구진은 BT 손실이 체크리스트를 효과적으로 활용하지 못하고 작업 진행 상황에 대한 민감도가 떨어진다고 분석했다. 이러한 발견은 BT 모델링의 핵심 한계인 도메인 간 일반화 성능 저하가 웹 내비게이션용 프로세스 보상 모델에서도 나타난다는 것을 보여준다.

실제 웹 환경에서 34.55% 성공률 달성, 기존 대비 10.9점 향상

실제 웹 환경에서의 성능 평가에서도 WEB-SHEPHERD는 탁월한 결과를 보였다. WebArena-lite에서 진행된 궤적 탐색 실험에서 WEB-SHEPHERD는 34.55%의 성공률을 기록했다. 이는 기본 성능인 23.64%보다 10.9점 향상된 수치이며, 심지어 GPT-4o의 궤적 탐색 없는 성능인 31.52%보다도 3점 높은 결과이다. 또한 WEB-SHEPHERD가 제공하는 피드백을 활용한 단계별 개선 실험에서도 성능 향상을 확인할 수 있었다. 이러한 결과는 WEB-SHEPHERD가 단순히 평가만 하는 것이 아니라, 실제로 웹 에이전트의 행동을 개선시킬 수 있는 유용한 피드백을 제공한다는 것을 보여준다.

FAQ

Q: WEB-SHEPHERD가 기존 AI 모델들과 다른 점은 무엇인가요?

A: WEB-SHEPHERD는 웹 내비게이션 전용으로 설계된 첫 번째 프로세스 보상 모델입니다. 기존 모델들이 프롬프팅에 의존했다면, WEB-SHEPHERD는 체크리스트 기반으로 각 단계의 진행 상황을 정확하게 평가하여 더 신뢰할 수 있는 가이던스를 제공합니다.

Q: 이 기술이 실제로 어떤 분야에 활용될 수 있나요?

A: 온라인 쇼핑, 예약 시스템, 정보 검색 등 웹 브라우저를 통해 수행되는 다양한 반복적 작업을 자동화할 수 있습니다. 특히 접근성이 필요한 사용자들이나 전문 업무 환경에서 디지털 업무를 자동화하는 데 활용될 수 있습니다.

Q: WEB-SHEPHERD의 비용 효율성은 어느 정도인가요?

A: WEB-SHEPHERD는 1,000개 인스턴스 처리 시 약 4.67달러의 비용이 소요됩니다. 이는 GPT-4o-mini의 43.57달러, GPT-4o의 435.74달러와 비교해 각각 10배, 100배 저렴한 수준입니다.

해당 기사에 인용된 논문 원문은 arxiv에서 확인할 수 있다.

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성했습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
4/1
1,000만 원도 안 되는 1인용 전기차, 日 미봇 2,250대 예약 글로벌오토뉴스
르망 24시 40주년…토요타 가주 레이싱, 여섯 번째 우승 도전 글로벌오토뉴스
세바스티앵 오지에, 사르데냐 랠리 우승…토요타 시즌 6연승 달성 글로벌오토뉴스
넷마블, IGN 라이브 2025서 신작 게임 '프로젝트 이블베인' 첫 공개 게임동아
넥써쓰, i에이전트프로토콜과 협업...AI 에이전트 크로쓰에 도입 게임동아
“요즘 Z세대는 챗GPT로 맛집 찾는다” AI 시대, 로컬 검색의 법칙이 바뀌었다 AI matters
검색 대신 챗봇에 쇼핑 맡기는 소비자들... 브랜드는 뭘 해야 하나? AI matters
2025년 AI 데이터센터 전력 사용량 40% 폭증… 효율성 개선해도 전력 수요 계속 늘어난다 AI matters
웹사이트 사람처럼 탐색하는 '똑똑한 로봇' 등장… 연세대가 개발한 'WEB-SHEPHERD' AI matters
“당신의 기억과 인간관계는 조작되었다” AI가 일상이 된 2035년에 벌어질 일 AI matters
앤트로픽, 클로드로 자체 블로그 운영 시작… AI가 블로그 전체 운영하나? AI matters
이제 AI가 넷플릭스 드라마 제작한다? '브레이킹 배드' 제작사 AMC, 런웨이와 파트너십 체결 AI matters
오픈AI CEO 해고 사건, 영화로 나온다... 샘 알트먼 역에 앤드류 가필드 유력 AI matters
국내 대표 버튜버 축제 ‘브이이벤트마켓 4회’ 6월 14일 개최 뉴스탭
캡콤, '레지던트 이블 9' 공식 발표…폐허 속 라쿤시티에서 새로운 생존 공포 시작 (1) 뉴스탭
AMD, 휴대용 콘솔을 위한 SoC 신제품 2종 공개…Ryzen AI Z2 Extreme·Ryzen Z2A 선보여 뉴스탭
전자랜드, 6월 주말마다 소형가전 최대 80% 할인 행사 진행 뉴스탭
한국노인인력개발원, 노인생산품 여름맞이 할인전 개최… 최대 30% 할인 뉴스탭
티르티르, 명동에 두 번째 오프라인 스토어 오픈… K-뷰티 대표 브랜드 도약 박차 뉴스탭
블랙야크, 피커스와 함께 '클라이밍 크루 페스티벌' 개최…21일부터 이틀간 열려 뉴스탭
이 시간 HOT 댓글!
1/4