비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

웹사이트 사람처럼 탐색하는 '똑똑한 로봇' 등장… 연세대가 개발한 'WEB-SHEPHERD'

2025.06.09. 13:30:51
조회 수
80
1

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

WEB-SHEPHERD: Advancing PRMs for Reinforcing Web Agents


GPT-4o 대비 30점 높은 정확도, 10배 저렴한 비용 효율성 실현

연세대학교와 카네기멜론대학교 연구진이 웹 내비게이션 분야에서 혁신적인 성과를 발표했다. 해당 연구진이 발표한 논문에 따르면, 웹 에이전트의 성능을 크게 향상시킬 수 있는 첫 번째 프로세스 보상 모델(Process Reward Model, PRM) 'WEB-SHEPHERD'를 개발한 것이다. 이 모델은 기존 GPT-4o 대비 10배 더 비용 효율적이면서도 약 30점 높은 정확도를 달성했다.

WEB-SHEPHERD의 가장 큰 장점은 뛰어난 성능과 경제성을 동시에 달성한 것이다. 새로운 메타 평가 벤치마크인 WEBREWARDBENCH에서 WEB-SHEPHERD는 85.0%의 성능을 기록했다. 이는 프롬프팅을 사용한 GPT-4o-mini의 5.0%와 비교해 압도적인 차이를 보인다. 또한 WebArena-lite 테스트에서 GPT-4o-mini를 정책 모델로 사용하고 WEB-SHEPHERD를 검증자로 활용했을 때, 기존 대비 10.9점 높은 성능을 보이면서도 비용은 10분의 1 수준으로 절감했다. 이러한 성과는 웹 에이전트의 실제 배포에서 중요한 속도와 비용 효율성 문제를 해결한다는 점에서 의미가 크다.


4만 개 단계별 선호도 데이터셋 'WEBPRM COLLECTION' 구축

연구진은 WEB-SHEPHERD 개발을 위해 대규모 데이터셋인 'WEBPRM COLLECTION'을 새롭게 구축했다. 이 데이터셋은 851개의 인간 작성 지시사항과 4만 개의 단계별 선호도 쌍으로 구성되어 있다. 데이터셋은 쉬움, 보통, 어려움의 세 가지 난이도 수준으로 분류되며, 여행, 쇼핑, 엔터테인먼트 등 다양한 도메인을 포괄한다. 특히 주목할 점은 각 지시사항에 체크리스트(checklist)가 포함되어 있다는 것이다. 이 체크리스트는 복잡한 웹 내비게이션 작업을 명확하고 해석 가능한 하위 목표로 분해하여, WEB-SHEPHERD가 단계별 진행 상황을 정확하게 평가할 수 있도록 돕는다.

체크리스트 기반 단계별 보상 시스템으로 정확한 진행 상황 평가

WEB-SHEPHERD의 핵심 혁신은 체크리스트 기반의 단계별 보상 시스템이다. 기존의 멀티모달 대형 언어 모델(MLLM)들이 웹 내비게이션에서 어려움을 겪는 이유는 장기간의 순차적 의사결정이 필요하기 때문이다. WEB-SHEPHERD는 이 문제를 해결하기 위해 두 단계 접근법을 사용한다.

첫 번째 단계에서는 사용자 지시사항을 분석하여 주요 중간 단계들을 담은 체크리스트를 생성한다. 두 번째 단계에서는 이 체크리스트를 기준으로 각 액션이 목표 달성에 얼마나 기여하는지를 평가한다. 이러한 접근법은 기존의 결과 보상 모델(Outcome Reward Model, ORM)과 달리 각 단계에서의 세밀한 피드백을 제공하여, 더 신뢰할 수 있는 가이던스를 제공한다.


Bradley-Terry 모델링 대비 17점 성능 우위 입증한 생성형 보상 모델링

WEB-SHEPHERD의 기술적 우수성은 훈련 목표 선택에서도 확인된다. 연구진은 인간 선호도 기반 보상 모델에서 널리 사용되는 브래들리-테리(Bradley-Terry, BT) 손실과 생성형 보상 모델링을 비교 실험했다. 그 결과 BT 기반 모델은 특히 WebArena 하위 집합(분포 외 데이터)에서 현저히 낮은 성능을 보였다. 연구진은 BT 손실이 체크리스트를 효과적으로 활용하지 못하고 작업 진행 상황에 대한 민감도가 떨어진다고 분석했다. 이러한 발견은 BT 모델링의 핵심 한계인 도메인 간 일반화 성능 저하가 웹 내비게이션용 프로세스 보상 모델에서도 나타난다는 것을 보여준다.

실제 웹 환경에서 34.55% 성공률 달성, 기존 대비 10.9점 향상

실제 웹 환경에서의 성능 평가에서도 WEB-SHEPHERD는 탁월한 결과를 보였다. WebArena-lite에서 진행된 궤적 탐색 실험에서 WEB-SHEPHERD는 34.55%의 성공률을 기록했다. 이는 기본 성능인 23.64%보다 10.9점 향상된 수치이며, 심지어 GPT-4o의 궤적 탐색 없는 성능인 31.52%보다도 3점 높은 결과이다. 또한 WEB-SHEPHERD가 제공하는 피드백을 활용한 단계별 개선 실험에서도 성능 향상을 확인할 수 있었다. 이러한 결과는 WEB-SHEPHERD가 단순히 평가만 하는 것이 아니라, 실제로 웹 에이전트의 행동을 개선시킬 수 있는 유용한 피드백을 제공한다는 것을 보여준다.

FAQ

Q: WEB-SHEPHERD가 기존 AI 모델들과 다른 점은 무엇인가요?

A: WEB-SHEPHERD는 웹 내비게이션 전용으로 설계된 첫 번째 프로세스 보상 모델입니다. 기존 모델들이 프롬프팅에 의존했다면, WEB-SHEPHERD는 체크리스트 기반으로 각 단계의 진행 상황을 정확하게 평가하여 더 신뢰할 수 있는 가이던스를 제공합니다.

Q: 이 기술이 실제로 어떤 분야에 활용될 수 있나요?

A: 온라인 쇼핑, 예약 시스템, 정보 검색 등 웹 브라우저를 통해 수행되는 다양한 반복적 작업을 자동화할 수 있습니다. 특히 접근성이 필요한 사용자들이나 전문 업무 환경에서 디지털 업무를 자동화하는 데 활용될 수 있습니다.

Q: WEB-SHEPHERD의 비용 효율성은 어느 정도인가요?

A: WEB-SHEPHERD는 1,000개 인스턴스 처리 시 약 4.67달러의 비용이 소요됩니다. 이는 GPT-4o-mini의 43.57달러, GPT-4o의 435.74달러와 비교해 각각 10배, 100배 저렴한 수준입니다.

해당 기사에 인용된 논문 원문은 arxiv에서 확인할 수 있다.

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성했습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
“AI가 가짜뉴스 잡는다”… X, 커뮤니티 노트에 AI 챗봇 투입 (1) AI matters
아마존, 창고 로봇 누적 100만 대 배치… AI 모델로 창고 자율주행 10% 향상 AI matters
플리토와 협력 나선 퓨리오사AI, AI 반도체는 왜 언어 데이터가 필요할까? IT동아
세컨드팀, "슈퍼코더, AI가 면접관이 되는 시대 연다” IT동아
'챗GPT는 제 고객관리의 핵심이예요' LLM, 성인 산업의 판도를 바꾸다 다나와
애플, ‘개인화 시리’ 자체 개발 한계로 오픈AI·앤트로픽과 제휴 검토 다나와
'지금 자판기 쪽으로 와. 내가 진짜라는 걸 보여주지' AI의 웃기지만 섬뜩한 '착각' 다나와
KRDS 준수해야 하는 공공 웹, AI 기반 검증 기술에도 ‘주목’ IT동아
구글, 가상 착장 앱 ‘도플’ 출시… “스타일 탐색을 더 쉽게” (2) 다나와
퓨리오사AI NPU 도입 앞둔 딥노이드, "운영비용 최적화·서비스 응용에 기대" IT동아
작곡 AI 수노, 편집 기능 강화 위해 ‘웨이브툴’ 인수… 음반사와 법적 분쟁은 지속 AI matters
스플렁크, AI 시대 데이터 관리 강조…“데이터 연합 전략이 대안” IT동아
[생성AI길라잡이] 구글 제미나이로 '고품질 음식 사진' 생성하기 IT동아
테슬라 로보택시, 출시 초반부터 사고 속출 다나와
넥스트라이즈 2025, 우주/방산/콘텐츠 부문 AI 스타트업 '눈길' IT동아
AI 무인 회수기, 페트병·캔 재활용으로 포인트 적립까지…선순환 효과 ‘톡톡’ IT동아
“형태보다 판단력이 중요하다" FCA, AI 금융 규제 패러다임 개혁 요구 (1) 다나와
리벨리온, SKT와 함께 AI 서비스 구현 나서··· '핵심은 AI 주권 확보' IT동아
AI 챗봇 또타24, 서울지하철 민원 접수 간단하고 빠르게 (4) IT동아
구글 AI 검색, 영국 경쟁당국 조사 착수…“시장 왜곡 우려” 다나와
이 시간 HOT 댓글!
1/4