웹사이트 사람처럼 탐색하는 '똑똑한 로봇' 등장… 연세대가 개발한 'WEB-SHEPHERD' : 다나와 DPG는 내맘을 디피지

WEB-SHEPHERD: Advancing PRMs for Reinforcing Web Agents

GPT-4o 대비 30점 높은 정확도, 10배 저렴한 비용 효율성 실현

연세대학교와 카네기멜론대학교 연구진이 웹 내비게이션 분야에서 혁신적인 성과를 발표했다. 해당 연구진이 발표한 논문에 따르면, 웹 에이전트의 성능을 크게 향상시킬 수 있는 첫 번째 프로세스 보상 모델(Process Reward Model, PRM) 'WEB-SHEPHERD'를 개발한 것이다. 이 모델은 기존 GPT-4o 대비 10배 더 비용 효율적이면서도 약 30점 높은 정확도를 달성했다.

WEB-SHEPHERD의 가장 큰 장점은 뛰어난 성능과 경제성을 동시에 달성한 것이다. 새로운 메타 평가 벤치마크인 WEBREWARDBENCH에서 WEB-SHEPHERD는 85.0%의 성능을 기록했다. 이는 프롬프팅을 사용한 GPT-4o-mini의 5.0%와 비교해 압도적인 차이를 보인다. 또한 WebArena-lite 테스트에서 GPT-4o-mini를 정책 모델로 사용하고 WEB-SHEPHERD를 검증자로 활용했을 때, 기존 대비 10.9점 높은 성능을 보이면서도 비용은 10분의 1 수준으로 절감했다. 이러한 성과는 웹 에이전트의 실제 배포에서 중요한 속도와 비용 효율성 문제를 해결한다는 점에서 의미가 크다.

4만 개 단계별 선호도 데이터셋 'WEBPRM COLLECTION' 구축

연구진은 WEB-SHEPHERD 개발을 위해 대규모 데이터셋인 'WEBPRM COLLECTION'을 새롭게 구축했다. 이 데이터셋은 851개의 인간 작성 지시사항과 4만 개의 단계별 선호도 쌍으로 구성되어 있다. 데이터셋은 쉬움, 보통, 어려움의 세 가지 난이도 수준으로 분류되며, 여행, 쇼핑, 엔터테인먼트 등 다양한 도메인을 포괄한다. 특히 주목할 점은 각 지시사항에 체크리스트(checklist)가 포함되어 있다는 것이다. 이 체크리스트는 복잡한 웹 내비게이션 작업을 명확하고 해석 가능한 하위 목표로 분해하여, WEB-SHEPHERD가 단계별 진행 상황을 정확하게 평가할 수 있도록 돕는다.

체크리스트 기반 단계별 보상 시스템으로 정확한 진행 상황 평가

WEB-SHEPHERD의 핵심 혁신은 체크리스트 기반의 단계별 보상 시스템이다. 기존의 멀티모달 대형 언어 모델(MLLM)들이 웹 내비게이션에서 어려움을 겪는 이유는 장기간의 순차적 의사결정이 필요하기 때문이다. WEB-SHEPHERD는 이 문제를 해결하기 위해 두 단계 접근법을 사용한다.

첫 번째 단계에서는 사용자 지시사항을 분석하여 주요 중간 단계들을 담은 체크리스트를 생성한다. 두 번째 단계에서는 이 체크리스트를 기준으로 각 액션이 목표 달성에 얼마나 기여하는지를 평가한다. 이러한 접근법은 기존의 결과 보상 모델(Outcome Reward Model, ORM)과 달리 각 단계에서의 세밀한 피드백을 제공하여, 더 신뢰할 수 있는 가이던스를 제공한다.

Bradley-Terry 모델링 대비 17점 성능 우위 입증한 생성형 보상 모델링

WEB-SHEPHERD의 기술적 우수성은 훈련 목표 선택에서도 확인된다. 연구진은 인간 선호도 기반 보상 모델에서 널리 사용되는 브래들리-테리(Bradley-Terry, BT) 손실과 생성형 보상 모델링을 비교 실험했다. 그 결과 BT 기반 모델은 특히 WebArena 하위 집합(분포 외 데이터)에서 현저히 낮은 성능을 보였다. 연구진은 BT 손실이 체크리스트를 효과적으로 활용하지 못하고 작업 진행 상황에 대한 민감도가 떨어진다고 분석했다. 이러한 발견은 BT 모델링의 핵심 한계인 도메인 간 일반화 성능 저하가 웹 내비게이션용 프로세스 보상 모델에서도 나타난다는 것을 보여준다.

실제 웹 환경에서 34.55% 성공률 달성, 기존 대비 10.9점 향상

실제 웹 환경에서의 성능 평가에서도 WEB-SHEPHERD는 탁월한 결과를 보였다. WebArena-lite에서 진행된 궤적 탐색 실험에서 WEB-SHEPHERD는 34.55%의 성공률을 기록했다. 이는 기본 성능인 23.64%보다 10.9점 향상된 수치이며, 심지어 GPT-4o의 궤적 탐색 없는 성능인 31.52%보다도 3점 높은 결과이다. 또한 WEB-SHEPHERD가 제공하는 피드백을 활용한 단계별 개선 실험에서도 성능 향상을 확인할 수 있었다. 이러한 결과는 WEB-SHEPHERD가 단순히 평가만 하는 것이 아니라, 실제로 웹 에이전트의 행동을 개선시킬 수 있는 유용한 피드백을 제공한다는 것을 보여준다.

FAQ

Q: WEB-SHEPHERD가 기존 AI 모델들과 다른 점은 무엇인가요?

A: WEB-SHEPHERD는 웹 내비게이션 전용으로 설계된 첫 번째 프로세스 보상 모델입니다. 기존 모델들이 프롬프팅에 의존했다면, WEB-SHEPHERD는 체크리스트 기반으로 각 단계의 진행 상황을 정확하게 평가하여 더 신뢰할 수 있는 가이던스를 제공합니다.

Q: 이 기술이 실제로 어떤 분야에 활용될 수 있나요?

A: 온라인 쇼핑, 예약 시스템, 정보 검색 등 웹 브라우저를 통해 수행되는 다양한 반복적 작업을 자동화할 수 있습니다. 특히 접근성이 필요한 사용자들이나 전문 업무 환경에서 디지털 업무를 자동화하는 데 활용될 수 있습니다.

Q: WEB-SHEPHERD의 비용 효율성은 어느 정도인가요?

A: WEB-SHEPHERD는 1,000개 인스턴스 처리 시 약 4.67달러의 비용이 소요됩니다. 이는 GPT-4o-mini의 43.57달러, GPT-4o의 435.74달러와 비교해 각각 10배, 100배 저렴한 수준입니다.

해당 기사에 인용된 논문 원문은 arxiv에서 확인할 수 있다.

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성했습니다.

AI Matters 뉴스레터 구독하기

“AI가 가짜뉴스 잡는다”… X, 커뮤니티 노트에 AI 챗봇 투입 (1)	AI matters
아마존, 창고 로봇 누적 100만 대 배치… AI 모델로 창고 자율주행 10% 향상	AI matters
플리토와 협력 나선 퓨리오사AI, AI 반도체는 왜 언어 데이터가 필요할까?	IT동아
세컨드팀, "슈퍼코더, AI가 면접관이 되는 시대 연다”	IT동아
'챗GPT는 제 고객관리의 핵심이예요' LLM, 성인 산업의 판도를 바꾸다	다나와
애플, ‘개인화 시리’ 자체 개발 한계로 오픈AI·앤트로픽과 제휴 검토	다나와
'지금 자판기 쪽으로 와. 내가 진짜라는 걸 보여주지' AI의 웃기지만 섬뜩한 '착각'	다나와
KRDS 준수해야 하는 공공 웹, AI 기반 검증 기술에도 ‘주목’	IT동아
구글, 가상 착장 앱 ‘도플’ 출시… “스타일 탐색을 더 쉽게” (2)	다나와
퓨리오사AI NPU 도입 앞둔 딥노이드, "운영비용 최적화·서비스 응용에 기대"	IT동아
작곡 AI 수노, 편집 기능 강화 위해 ‘웨이브툴’ 인수… 음반사와 법적 분쟁은 지속	AI matters
스플렁크, AI 시대 데이터 관리 강조…“데이터 연합 전략이 대안”	IT동아
[생성AI길라잡이] 구글 제미나이로 '고품질 음식 사진' 생성하기	IT동아
테슬라 로보택시, 출시 초반부터 사고 속출	다나와
넥스트라이즈 2025, 우주/방산/콘텐츠 부문 AI 스타트업 '눈길'	IT동아
AI 무인 회수기, 페트병·캔 재활용으로 포인트 적립까지…선순환 효과 ‘톡톡’	IT동아
“형태보다 판단력이 중요하다" FCA, AI 금융 규제 패러다임 개혁 요구 (1)	다나와
리벨리온, SKT와 함께 AI 서비스 구현 나서··· '핵심은 AI 주권 확보'	IT동아
AI 챗봇 또타24, 서울지하철 민원 접수 간단하고 빠르게 (4)	IT동아
구글 AI 검색, 영국 경쟁당국 조사 착수…“시장 왜곡 우려”	다나와
업스테이지·퓨리오사AI 맞손, '국산NPU에 국산 LLM 올린다'	IT동아
과기정통부·중기부 장관에 ‘AI 전문가’ 전면 배치… “국가 디지털 전략 가속화”	다나와
美 유통업계 '도난 피해' 연 57조에 달해....해결 위해 프랑스 AI 나선다 (3)	다나와
BBC, AI 스타트업 '퍼플렉시티'에 '무단 콘텐츠 사용'에 따른 법적 조치 경고	다나와
"너 말투, ChatGPT 같아"…AI가 우리의 말하는 방식을 바꾸고 있다 (6)	다나와
인고의 시간 거친 티맥스 ANC, 슈퍼앱 '가이아'에 사활 걸어 (1)	IT동아
공공 AI의 주축으로 떠오른 '소버린 AI', 해외 주요 국가 동향은	IT동아
MS, 수천명 추가 감원…AI 집중 전략 위한 조직 재편 (1)	다나와
애플, 검색 패권 흔든다. Perplexity 인수 검토로 본 전략 전환	다나와
"AI 투자 3배 늘리는데 인재는 홀대"... 액센추어가 경고한 기업 회복력의 함정	AI matters
아마존·구글·MS 324조 원 쏟아부었다... 'AI 인프라 전쟁' 분석 보고서	AI matters
파일럿부터 전면 도입까지… AI로 생산성 7.8% 높인 기업들의 성공 공식	AI matters
터치스크린 고장부터 튀김기 오류까지… 전 세계 패스트푸드 매장의 AI 활용법	AI matters
국민 3명 중 2명 “AI 서비스, 삶에 긍정적 영향”… 60대 이상은 거리감 여전 (1)	AI matters
에이전틱 AI가 바꾸는 4가지 비즈니스 혁신… 내가 놓친 업무 조각 찾아낸다	AI matters
데이터 분석 1위, 콘텐츠 제작 2위... MZ 직장인이 AI 사용하는 방법	AI matters
오픈AI, 기업 대상 챗GPT 할인 나서… MS와의 관계 악영향 때문? (1)	AI matters
中 AI 아바타, 라이브 커머스서 7시간 만에 76억원 매출… 인간 인플루언서 압도 (3)	AI matters
알리바바 클라우드, 한국에 두 번째 데이터센터 개설… “AI 수요 급증에 대비”	AI matters
애플, AI로 자체 칩 설계 가속화... "설계 속도 대폭 향상 기대"	AI matters
어도비, 핀터레스트와 개인화 AI 스타일 분석 '스타일 리딩' 체험 선보여	AI matters
하정우 AI수석 첫 브리핑… “AI 골든타임 3~5년… 이공계 인재 육성 책무 강화할 것”	AI matters
엔비디아, AI 스타트업 투자 광폭 확대… 2년간 80곳 이상 (1)	AI matters
[생성 AI 길라잡이] 바짝 앞으로 다가온 6G 시대, AI가 핵심? (1)	IT동아
인공지능 공세에 '애플 프리미엄' 가치 위협 받는다	IT동아
‘다크웹 전문가’ S2W, 사이버 범죄 AI 추적 기술 세계로	IT동아
영국 환경청, AI 데이터센터 급증에 "물 부족 위기 경고" (2)	다나와
OpenAI, 미 국방부와 2억 달러 초대형 계약 체결	다나와
라틴아메리카 최초의 AI 언어 모델 ‘Latam-GPT’, 2025년 출시 예정	다나와
메타, 오클리·프라다와 손잡고 AI 스마트 글라스 확장…패션 브랜드 협업 본격화 (3)	다나와
AI와 실사 촬영의 만남, 단편 영화 ‘ANCESTRA’	다나와
일반인이 AI로 법률문제 해결한다? 변호사 63% “위험하다” (5)	AI matters
빅테크가 'AI' 기술 깎을 때, 세일즈포스는 '도입 가능성'에 집중했다	IT동아
최신 AI 에이전트도 현실 업무 성공률 58%... 기밀 유지 성능은 0% 수준 (1)	AI matters
시청·병원·학교까지 AI 바람... 공공기관 94% AI 활용하지만 ‘보안’은 엉망	AI matters
챗GPT 많이 쓸수록 멍청해진다? MIT의 실험 결과 충격 (1)	AI matters
속도냐 안전이냐, AI 기업들의 딜레마… 절반이 '빠른 출시' 택했다	AI matters
中, 챗GPT·메타 AI 군에 투입... “군사정보 전 과정 자동화 시도” (1)	AI matters
"AI만으로 상업 포스터 완성" 바이트댄스, 풀스택 편집 가능한 디자인 시스템 공개	AI matters
AI 규제 완화냐 vs. 연구비 삭감이냐, 트럼프 2기 AI 정책 동향 분석	AI matters
과기정통부, 국내 AI 스타트업 8곳 해외 실증 지원… 6개국서 사업 실증	AI matters
英, 세계 최초 AI 기반 로펌 공식 승인… 법률 서비스 혁신 신호탄	AI matters
AI 코딩 툴 ‘커서’, 월 200달러 ‘울트라 요금제’ 출시… 기업 고객 공략 가속화 (1)	AI matters
샘 알트만, "메타, 오픈AI 인재 영입 위해 1억 달러 제안했지만 실패"	AI matters
G7, AI·핵심 광물·퀀텀 등 6대 글로벌 협정 채택 (1)	다나와
오픈AI, 美 국방부와 최대 2억 달러 계약… MS-정부 사업과 충돌 우려 (1)	AI matters
韓 기업 AI 도입 현주소는?...“인재·데이터 확보가 고민” (1)	IT동아
오픈AI도 한다, 美 정부용 ‘OpenAI for Government’ 공식 출범 (1)	AI matters
어도비, '파이어 플라이' 모바일 앱 출시… 이동 중 작업 가능해진다 (1)	AI matters
아마존 CEO "AI 도입으로 인력 감축 불가피"... 사무직 인력 줄인다 (2)	AI matters
메타, AI 스마트 글래스 오클리·프라다로 출시한다 (1)	AI matters
[기고] AI와 미래 산업기술 - 4. AI 시대, 세상을 바꾸는 산업 기술 전문가의 미래	IT동아
AI, 전 인류 위협할 수 있다 (6)	다나와
DISCO, 유럽 시장 공략 본격화…생성 AI로 법률 문서 검토 서비스 시작	다나와
Adobe, AI 기반 웹·모바일 트래픽 분석 툴 발표…마케팅 자동화에 속도	다나와
'AI에 의한 대규모 재난 미리 방지한다' 뉴욕주, AI 재앙 방지 위한 'RAISE 법안' 통과	다나와
'명화 복원도 이제 AI로 하세요' 전문가의 수작업보다 최대 66배 빨라 (4)	다나와
ABBA의 뵈른 울바에우스, AI로 새로운 뮤지컬 작업 중… “AI는 환상적인 도구이자 창작 파트너”	다나와
마텔, 오픈AI와 손잡고 AI 기반 장난감 개발…올해 첫 출시 예정	다나와
“클릭없는 세상 올 것” — 웹을 장악하는 새로운 'AI 검색 봇'	다나와
ChatGPT 최신 모델이 47년 전 아타리 체스 엔진에 완패	다나와
Meta, Scale AI에 대규모 투자 검토… 기존 파트너십 균열 조짐	다나와
‘통합검색을 통합 에이전트로’, 네이버 키워드·생성 AI 검색 두마리 토끼 잡을까	IT동아
[생성 AI 길라잡이] 8년간 공방 ‘로톡 사태’ 계기로 마련된 후속조치 살펴보니	IT동아
'영상 편집이 이렇게 쉽다고?' 메타, 생성형 AI 기반 영상 편집 기능 출시 (3)	다나와
현대백화점, 외국인 고객 위한 AI 쇼핑 어시스턴트 '헤이디' 출시한다	다나와
OpenAI, 차세대 지능형 모델 ‘o3-pro’ 출시… ChatGPT 유료 이용자 대상 제공 시작	다나와
아마존, 광고주 위해 비디오 생성기 등 AI 광고 도구 발표 (1)	다나와
ChatGPT 성장에 힘입어 오픈AI, 연간 반복 매출 100억 달러 돌파...'2029년 매출 4배 목표' (2)	다나와
구글, 제미나이 앱에 ‘예약 작업’ 기능 도입…AI 비서 전쟁 본격화 (1)	다나와
AI가 만든 아이스크림에 맞춤형 서비스까지···배스킨라빈스 청담점 가보니 (3)	IT동아
2025 대한민국 AI 50 발표…포티투닷·뷰노·스트라드비젼 등 혁신 주역 부상 (1)	다나와
일런 머스크, 오랜 숙원인 '로보택시' 서비스 드디어 출시...이번엔 진짜 '완전자율주행'? (1)	다나와
美 정부 백신 홈페이지, 해킹으로 인해 AI 생성 스팸 콘텐츠로 도배 (1)	AI matters
위키피디아, AI 자동 요약 실험 중단… 편집자들의 강력 반발 영향	AI matters
디즈니·유니버설, AI 이미지 생성 플랫폼 ‘미드저니’ 고소…“무단 저작물 활용” (1)	AI matters
사람처럼 행동 전 생각... 메타 AI 모델 ‘V-JEPA 2’ 공개 "로봇에 적용한다면?"	AI matters
前 오픈AI 연구원 “챗GPT, 생명 위협 상황에서도 종료 거부”	AI matters
美 정부가 선택할 정도의 보안 성능, 앤트로픽 '클로드 Gov' 배포	AI matters
데이터 유출 54% 폰에서 발생…기업용 안드로이드에 AI 보안·협업 기능 강화	AI matters

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

웹사이트 사람처럼 탐색하는 '똑똑한 로봇' 등장… 연세대가 개발한 'WEB-SHEPHERD'

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

웹사이트 사람처럼 탐색하는 '똑똑한 로봇' 등장… 연세대가 개발한 'WEB-SHEPHERD'

공유하기

공감/비공감