로그인하세요
알림
설정
레프트패널 닫기
관심
최근본
마이페이지
출석체크
카테고리
    서비스 바로가기
    • 자동차
    • 인기 서비스조립PC
    • PC견적
    • PC26
    • 신규 서비스LIVE쇼핑
    • 커뮤니티
    • 이벤트
    • CM추천/문의
    • 오늘의 특가
    앱 서비스
    • 자동차
    • PC견적
    • 장터
    인기 쇼핑몰
    • 지마켓
    • 옥션
    • 11번가
    • 롯데아이몰
    • 쿠팡
    • 롯데닷컴(롯데온)
    • 신세계몰
    • 현대Hmall
    • CJ 온스타일
    • GS샵
    • 하이마트
    • 엘롯데
    • 이마트몰
    • 홈플러스
    • NS몰
    • SK스토아
    • KT알파 쇼핑
    • 전자랜드
    • 무신사
    PC버전 로그인 개인정보처리방침 고객센터
    (주) 커넥트웨이브
    대표:
    김정남
    주소
    서울특별시 금천구 벚꽃로 298, 17층(가산동, 대륭포스트타워6차) (우) 08510
    • 사업자번호:
      117-81-40065
    • 통신판매업:
      제2004-서울양천-00918호
    • 부가통신사업:
      제003081호
    • 고객센터:
      1688-2470 (유료)
    • 이메일:
      cs@cowave.kr
    • 호스팅 제공자:
      (주)커넥트웨이브
    • 사업자 정보확인
    • 이용약관
    • 책임의 한계
    • 청소년 보호정책
    사용법 보기
    MY쇼핑이란? 자주 쓰는 쇼핑몰을 연결하면 쇼핑몰 주문내역을 한 번에 확인할 수 있습니다. 쇼핑몰 계정은 고객님의 핸드폰에만 저장되어 안전합니다.
    편리한 구매내역 확인. 다양한 쇼핑몰의 주문내역을 한 곳에서 확인해보세요.
    가격비교와 최저가 쇼핑을 한 번에. 자주 구매하는 상품은 가격비교를 통해 저렴하게 구매하세요.
    보안은 필수! 쉽고 편한 가치 쇼핑. 쇼핑몰 계정은 고객님의 핸드폰에만 암호화 저장되어 안전합니다. 쇼핑몰 연결
    다나와 홈

    커뮤니티 DPG

    일반뉴스

    • 게시판
    • 상품포럼
    • 뉴스
    • 동영상
    • 커뮤니티 공지사항
      소비자사용기
    • 특가몰
      자유게시판
    • 이달의 이벤트
      유머게시판
    • 당첨자발표게시판
      댕냥이게시판
    • 포인트 마켓
      Q&A게시판
    • 다나와 래플
      상품의견
    • 모두의 경매
      체험단
    • 오늘도 출석체크
      엄근진게시판
    • 입소문쇼핑
      쇼핑몰후기
    • 메인가자
      A/S후기
    • 당첨후기
    • 컴퓨터
      AI
    • 푸드
      취미
    • 최신뉴스
      일반뉴스
    • 기획뉴스
      신상품뉴스
    • 쇼핑뉴스
      테크팁
    • 다나와리포터
      구매가이드
    • 전문가리뷰
      인기순위가이드
    • 벤치마크
      차트뉴스
    • 가격동향
    • 고나고
      공구왕황부장
    • 노써치
      도레
    • 딴트공 말방구 실험실
      라이브렉스
    • 레고매니아
      맛상무
    • 모터피디
      무적풍화륜
    • 민티저
      보드나라
    • 여행매거진 트래비TV
      오토기어
    • 잘컴TV
      조코딩 JoCoding
    • 인프제 INFJ
      주연 ZUYONI
    • 진블로그
      집마 홀릭TV
    • 톡써니
      포마: 탈 것을 리뷰하는 남자
    • 쿨엔조이
      훅간다TV
    • Allthatboots TV
      DmonkTV
    • Hakbong Kwon
      Motorgraph
    • PC SNAP
      Producer dk
    • THE EDIT
      UnderKG
    • 다나와 공식채널
      다나와 2TV
    • 노리다
      샵다나와 조립갤러리
    >
    이전 글
    다음 글
    AI matters

    웹사이트 사람처럼 탐색하는 '똑똑한 로봇' 등장… 연세대가 개발한 'WEB-SHEPHERD'

    2025.06.09. 13:30:51
    읽음48

    WEB-SHEPHERD: Advancing PRMs for Reinforcing Web Agents


    GPT-4o 대비 30점 높은 정확도, 10배 저렴한 비용 효율성 실현

    연세대학교와 카네기멜론대학교 연구진이 웹 내비게이션 분야에서 혁신적인 성과를 발표했다. 해당 연구진이 발표한 논문에 따르면, 웹 에이전트의 성능을 크게 향상시킬 수 있는 첫 번째 프로세스 보상 모델(Process Reward Model, PRM) 'WEB-SHEPHERD'를 개발한 것이다. 이 모델은 기존 GPT-4o 대비 10배 더 비용 효율적이면서도 약 30점 높은 정확도를 달성했다.

    WEB-SHEPHERD의 가장 큰 장점은 뛰어난 성능과 경제성을 동시에 달성한 것이다. 새로운 메타 평가 벤치마크인 WEBREWARDBENCH에서 WEB-SHEPHERD는 85.0%의 성능을 기록했다. 이는 프롬프팅을 사용한 GPT-4o-mini의 5.0%와 비교해 압도적인 차이를 보인다. 또한 WebArena-lite 테스트에서 GPT-4o-mini를 정책 모델로 사용하고 WEB-SHEPHERD를 검증자로 활용했을 때, 기존 대비 10.9점 높은 성능을 보이면서도 비용은 10분의 1 수준으로 절감했다. 이러한 성과는 웹 에이전트의 실제 배포에서 중요한 속도와 비용 효율성 문제를 해결한다는 점에서 의미가 크다.


    4만 개 단계별 선호도 데이터셋 'WEBPRM COLLECTION' 구축

    연구진은 WEB-SHEPHERD 개발을 위해 대규모 데이터셋인 'WEBPRM COLLECTION'을 새롭게 구축했다. 이 데이터셋은 851개의 인간 작성 지시사항과 4만 개의 단계별 선호도 쌍으로 구성되어 있다. 데이터셋은 쉬움, 보통, 어려움의 세 가지 난이도 수준으로 분류되며, 여행, 쇼핑, 엔터테인먼트 등 다양한 도메인을 포괄한다. 특히 주목할 점은 각 지시사항에 체크리스트(checklist)가 포함되어 있다는 것이다. 이 체크리스트는 복잡한 웹 내비게이션 작업을 명확하고 해석 가능한 하위 목표로 분해하여, WEB-SHEPHERD가 단계별 진행 상황을 정확하게 평가할 수 있도록 돕는다.

    체크리스트 기반 단계별 보상 시스템으로 정확한 진행 상황 평가

    WEB-SHEPHERD의 핵심 혁신은 체크리스트 기반의 단계별 보상 시스템이다. 기존의 멀티모달 대형 언어 모델(MLLM)들이 웹 내비게이션에서 어려움을 겪는 이유는 장기간의 순차적 의사결정이 필요하기 때문이다. WEB-SHEPHERD는 이 문제를 해결하기 위해 두 단계 접근법을 사용한다.

    첫 번째 단계에서는 사용자 지시사항을 분석하여 주요 중간 단계들을 담은 체크리스트를 생성한다. 두 번째 단계에서는 이 체크리스트를 기준으로 각 액션이 목표 달성에 얼마나 기여하는지를 평가한다. 이러한 접근법은 기존의 결과 보상 모델(Outcome Reward Model, ORM)과 달리 각 단계에서의 세밀한 피드백을 제공하여, 더 신뢰할 수 있는 가이던스를 제공한다.


    Bradley-Terry 모델링 대비 17점 성능 우위 입증한 생성형 보상 모델링

    WEB-SHEPHERD의 기술적 우수성은 훈련 목표 선택에서도 확인된다. 연구진은 인간 선호도 기반 보상 모델에서 널리 사용되는 브래들리-테리(Bradley-Terry, BT) 손실과 생성형 보상 모델링을 비교 실험했다. 그 결과 BT 기반 모델은 특히 WebArena 하위 집합(분포 외 데이터)에서 현저히 낮은 성능을 보였다. 연구진은 BT 손실이 체크리스트를 효과적으로 활용하지 못하고 작업 진행 상황에 대한 민감도가 떨어진다고 분석했다. 이러한 발견은 BT 모델링의 핵심 한계인 도메인 간 일반화 성능 저하가 웹 내비게이션용 프로세스 보상 모델에서도 나타난다는 것을 보여준다.

    실제 웹 환경에서 34.55% 성공률 달성, 기존 대비 10.9점 향상

    실제 웹 환경에서의 성능 평가에서도 WEB-SHEPHERD는 탁월한 결과를 보였다. WebArena-lite에서 진행된 궤적 탐색 실험에서 WEB-SHEPHERD는 34.55%의 성공률을 기록했다. 이는 기본 성능인 23.64%보다 10.9점 향상된 수치이며, 심지어 GPT-4o의 궤적 탐색 없는 성능인 31.52%보다도 3점 높은 결과이다. 또한 WEB-SHEPHERD가 제공하는 피드백을 활용한 단계별 개선 실험에서도 성능 향상을 확인할 수 있었다. 이러한 결과는 WEB-SHEPHERD가 단순히 평가만 하는 것이 아니라, 실제로 웹 에이전트의 행동을 개선시킬 수 있는 유용한 피드백을 제공한다는 것을 보여준다.

    FAQ

    Q: WEB-SHEPHERD가 기존 AI 모델들과 다른 점은 무엇인가요?

    A: WEB-SHEPHERD는 웹 내비게이션 전용으로 설계된 첫 번째 프로세스 보상 모델입니다. 기존 모델들이 프롬프팅에 의존했다면, WEB-SHEPHERD는 체크리스트 기반으로 각 단계의 진행 상황을 정확하게 평가하여 더 신뢰할 수 있는 가이던스를 제공합니다.

    Q: 이 기술이 실제로 어떤 분야에 활용될 수 있나요?

    A: 온라인 쇼핑, 예약 시스템, 정보 검색 등 웹 브라우저를 통해 수행되는 다양한 반복적 작업을 자동화할 수 있습니다. 특히 접근성이 필요한 사용자들이나 전문 업무 환경에서 디지털 업무를 자동화하는 데 활용될 수 있습니다.

    Q: WEB-SHEPHERD의 비용 효율성은 어느 정도인가요?

    A: WEB-SHEPHERD는 1,000개 인스턴스 처리 시 약 4.67달러의 비용이 소요됩니다. 이는 GPT-4o-mini의 43.57달러, GPT-4o의 435.74달러와 비교해 각각 10배, 100배 저렴한 수준입니다.

    해당 기사에 인용된 논문 원문은 arxiv에서 확인할 수 있다.

    이미지 출처: 이디오그램 생성

    해당 기사는 챗GPT와 클로드를 활용해 작성했습니다.




    AI Matters 뉴스레터 구독하기
    태그
    웹사이트 똑똑한 로봇 연세대 WEB-SHEPHERD
    안내 ?

    말 많은 뉴스

    • 1

      고프로 VS 오즈모, 액션캠 승자는? [라이벌 열전]

      댓글14
      고프로 VS 오즈모, 액션캠 승자는? [라이벌 열전]
    • 2

      [리뷰] 중견급 그래픽 카드의 새로운 대안, AMD 라데온 RX 9060 XT

      댓글13
      [리뷰] 중견급 그래픽 카드의 새로운 대안, AMD 라데온 RX 9060 XT [
    • 3

      애플 WWDC 2025 미리보기 | iOS·iPadOS·macOS·watchOS 26 변화 한눈에

      댓글12
      애플 WWDC 2025 미리보기 | iOS·iPadOS·macOS·watchOS 26 변화 한눈에
    • 4

      [기자 수첩] “현대차 N, 잘 지내고 있지?”... 가장 치열한 시장에서 폭풍 성장

      댓글8
      [기자 수첩] “현대차 N, 잘 지내고 있지?”... 가장 치열한 시장에서 폭풍 성장
    • 5

      삼성전자, 스마트폰 잠금화면에도 표시되는 AI광고 미국에서 출시 예정...반응은?

      댓글8
      삼성전자, 스마트폰 잠금화면에도 표시되는 AI광고 미국에서 출시 예정...반응은?

    일반뉴스 최신 글

    이전 페이지 1/10 다음 페이지
    • 신규 모드와 한국 맞춤형 마케팅 전개, 에픽게임즈 포트나이트 확장 출시

      보드나라 19:53:35
      읽음 45 공감 1
    • 뷰소닉, 베스트셀러 4K 빔프로젝터 고객 대상 구매 후기 프로모션

      다나와 19:12:45
      읽음 48 공감 1
    • US여자오픈 난코스 겪고 온 유현조, 한국여자오픈 1R 선두

      연합뉴스 19:03:37
      읽음 37 공감 1
    • 이형준·옥태훈, 하나은행 인비테이셔널 1라운드 공동 선두

      연합뉴스 18:55:23
      읽음 37 공감 1
    • AMD 에픽 프로세서, 차세대 통신 네트워크 위한 노키아 클라우드 인프라에 적용

      다나와 18:49:12
      읽음 56 공감 1
    • 인텔 공인대리점, 정품 CPU 리뷰 퀴즈 프로모션 ‘리뷰에서 찾아봐!’ 진행

      다나와 18:46:14
      읽음 47 공감 1
    • 위메이드, 해외 개발사 블록체인 게임 2종 온보딩 계약 체결

      게임동아 17:56:14
      읽음 40 공감 1
    • 넷마블 '세븐나이츠 키우기', '비야' 작가와 2차 컬래버레이션

      게임동아 17:55:58
      읽음 44 공감 1
    • 넷마블, '리니지2 레볼루션' 개발진 신작 MMORPG '뱀피르' 사전 등록

      게임동아 17:55:41
      읽음 39 공감 1
    • ‘퍼디’, 출시 1주년 쇼케이스 ‘디센던트 페스트’ 7월 개최한다

      게임동아 17:55:12
      읽음 41 공감 2
    • ‘3on3 프리스타일’, 신규 캐릭터 ‘마리솔’ 업데이트

      게임동아 17:54:52
      읽음 40 공감 2
    • 올해만 두 번째!…이규민, 한 달 만에 또 홀인원…벤츠 받았다

      연합뉴스 17:43:39
      읽음 47 공감 2 댓글 1
    • '이글인 줄 알았는데'…좋다 만 이예원…동반자 공이 홀에 '쏙'

      연합뉴스 17:39:20
      읽음 40 공감 2
    • 전 GTA 개발진 신작 ‘마인즈아이’ 스팀 평가 ‘복합적’

      게임메카 17:33:38
      읽음 49 공감 3 댓글 1
    • 현대차, 역대급 고성능 전기 세단 '아이오닉 6 N' 티저 이미지 공개 

      오토헤럴드 17:28:24
      읽음 49 공감 1
    • "역대 3번째 이른 장마" 안전 운전을 위해 꼼꼼하게 살피고 준비해야 할 것

      오토헤럴드 17:28:18
      읽음 44 공감 1
    • 현대차그룹, ‘CSR 인사이트 데이’…지속가능한 미래 위한 아이디어 공유

      오토헤럴드 17:28:15
      읽음 43 공감 1
    • 아메리카 갓 탤런트 등장한 로봇개 '스팟'..."지금까지 본 적 없는 무대" 극찬

      오토헤럴드 17:28:11
      읽음 47 공감 1
    • "극우의 토템으로 인식" 프랑스 테슬라 소유주 임대 계약 해지 소송 제기

      오토헤럴드 17:28:08
      읽음 49 공감 1
    • 국내 유일 LPGA ‘BMW 레이디스 챔피언십’ 2029년까지 연장 확정

      오토헤럴드 17:28:06
      읽음 47 공감 1
    • 엔비디아, 완전한 자율주행 소프트웨어 플랫폼 출시

      글로벌오토뉴스 17:27:05
      읽음 49 공감 1
    • “중국산 의존 끝낸다”…미국 LFP 스타트업, 5천만 달러 유치 중

      글로벌오토뉴스 17:27:02
      읽음 38 공감 1
    • 웨이브-우버, 런던서 완전 자율주행 로보택시 추진

      글로벌오토뉴스 17:27:00
      읽음 43 공감 1
    • BMW XM, 하위 트림 모두 폐지…이제 진짜 ‘M만의 SUV’ 된다

      글로벌오토뉴스 17:26:57
      읽음 42
    • 포르쉐, 미국 생산 이전 계획 부인

      글로벌오토뉴스 17:26:54
      읽음 38
    • 롤스로이스, 생산 확대 대신 명품 ‘맞춤 주문’에 3,700억 원 투자

      글로벌오토뉴스 17:26:52
      읽음 44
    • 포드 브롱코, IIHS 최고 등급 탈락…소형차에도 밀렸다

      글로벌오토뉴스 17:26:49
      읽음 45
    • BYD 럭셔리 브랜드 양왕, 고성능 세단 U7 중국 본격 인도 개시

      글로벌오토뉴스 17:26:47
      읽음 38
    • 니오, 유럽 소형 프리미엄 EV 시장 겨냥한 ‘파이어플라이’ 출시

      글로벌오토뉴스 17:26:44
      읽음 36
    • 전기차에서 하이브리드까지, 제네시스가 노선을 바꾼 이유는?

      글로벌오토뉴스 17:26:42
      읽음 44
    • 유럽 신차 보닛 높이 평균 50cm 증가… "SUV 확산, 보행자 안전 위협" 경고

      글로벌오토뉴스 17:26:39
      읽음 35
    • 플레이어언노운 신작 '프롤로그: 고 웨이백' 데모 공개

      게임메카 17:19:47
      읽음 31
    • P의 거짓 DLC '서곡’ 일부 전투 난이도 완화 예고

      게임메카 17:19:23
      읽음 31
    • 게임 넘어 엔터테인먼트 축제로, 차이나조이 8월 개막

      게임메카 17:18:32
      읽음 29
    • 美 정부 백신 홈페이지, 해킹으로 인해 AI 생성 스팸 콘텐츠로 도배

      AI matters 17:17:28
      읽음 40 공감 1 댓글 1
    • 위키피디아, AI 자동 요약 실험 중단… 편집자들의 강력 반발 영향

      AI matters 17:15:51
      읽음 38
    • 디즈니·유니버설, AI 이미지 생성 플랫폼 ‘미드저니’ 고소…“무단 저작물 활용”

      AI matters 17:15:15
      읽음 37
    • 사람처럼 행동 전 생각... 메타 AI 모델 ‘V-JEPA 2’ 공개 "로봇에 적용한다면?"

      AI matters 17:14:48
      읽음 32
    • 前 오픈AI 연구원 “챗GPT, 생명 위협 상황에서도 종료 거부”

      AI matters 17:14:18
      읽음 32
    • 美 정부가 선택할 정도의 보안 성능, 앤트로픽 '클로드 Gov' 배포

      AI matters 17:13:40
      읽음 50
    • 데이터 유출 54% 폰에서 발생…기업용 안드로이드에 AI 보안·협업 기능 강화

      AI matters 17:12:22
      읽음 28
    • 메타, AI 영상 편집 기능 추가… 의상·배경 스타일 자유롭게 바꾼다

      AI matters 17:11:52
      읽음 31
    • 전 세계 방산업체 54%, “AI가 가장 중요”... 오픈AI도 무기 개발 나선다

      AI matters 17:11:21
      읽음 29
    • 삼성전자, ‘제11회 대학생 프로그래밍 챌린지’ 참가자 모집… AI 인재 발굴한다

      AI matters 17:08:10
      읽음 25
    • 구글, 내부 학습 플랫폼 AI로 전면 개편… "우리 업무와 관련된 것들 위주로"

      AI matters 17:03:35
      읽음 29
    • 스릭슨, 투어 프로가 쓰는 한정판 아이언 출시

      연합뉴스 16:37:55
      읽음 32
    • 마브렉스 홍진표 대표, 치열한 블록체인 게임 시장…전문 퍼블리셔 능력 필요

      게임동아 15:46:17
      읽음 48
    • 크래프톤 플라이웨이게임즈 신작 '어센드투제로' 성우 키토 아카리와 협업

      게임동아 15:46:00
      읽음 49
    • 메이플스토리 유니버스 이강석 실장, “득템 재미와 가치보존, 블록체인과 게임이 잘 결합된 메이플스토리N의 핵심”

      게임동아 15:45:35
      읽음 45
    • 컴투스홀딩스 장종철 상무 “누구나 쉽게 웹3 즐기는 플레이쓰리(PLAY 3)”

      게임동아 15:45:18
      읽음 43
    • 상품후기 작성하고 RTX5070 그래픽카드 받자!!

    • 역시나 꽝 없는 공유하기. 이번에는 라데온이다 우오오오~

    • 포인트 룰렛 돌리고 10초 만에 당첨 확인하세요!

    스폰서 PICK

    이전 페이지 3/5 다음 페이지
    • 엔티스 EG 1000W 80PLUS골드 풀모듈러 ATX3.1 화이트

      엔티스 EG 1000W 80PLUS골드 풀모듈러 ATX3.1 화이트

      엔티스
    • 알파스캔 AOC Q27G4/D 게이밍 FAST IPS 200 QHD HDR 400 멀티스탠드 무결점

      알파스캔 AOC Q27G4/D 게이밍 FAST IPS 200 QHD HDR 400 멀티스탠드 무결점

      알파스캔
    • Antec FLUX PRO MESH(블랙)

      Antec FLUX PRO MESH(블랙)

      Antec
    • 잘만 ALPHA II DS A36(블랙)

      잘만 ALPHA II DS A36(블랙)

      잘만
    • 앱코 KN35BT TKL DRT 8K 염료승화 블루투스 유무선 무접점(서울)

      앱코 KN35BT TKL DRT 8K 염료승화 블루투스 유무선 무접점(서울)

      앱코
    • 1stPlayer Mi5(블랙)

      1stPlayer Mi5(블랙)

      1stPlayer
    • 인텔 코어 울트라7 시리즈2 265K (애로우레이크)(정품)

      인텔 코어 울트라7 시리즈2 265K (애로우레이크)(정품)

      인텔
    • darkFlash DY470 ARGB 강화유리(화이트)

      darkFlash DY470 ARGB 강화유리(화이트)

      darkFlash
    • 마이크로닉스 Classic II 풀체인지 700W 80PLUS브론즈 ATX3.1

      마이크로닉스 Classic II 풀체인지 700W 80PLUS브론즈 ATX3.1

      마이크로닉스
    • AMD 라이젠5-6세대 9600X (그래니트 릿지)(멀티팩 정품)

      AMD 라이젠5-6세대 9600X (그래니트 릿지)(멀티팩 정품)

      AMD
    • 맥스엘리트(~6/30까지로 종료)
    • 명성(인텔)
    • 잘만
    PC버전 로그인 개인정보처리방침 고객센터
    (주) 커넥트웨이브
    대표:
    김정남
    주소
    서울특별시 금천구 벚꽃로 298, 17층(가산동, 대륭포스트타워6차) / 우편번호: 08510
    • 사업자번호:
      117-81-40065
    • 통신판매업:
      제2004-서울양천-00918호
    • 부가통신사업:
      제003081호
    • 고객센터:
      1688-2470 (유료)
    • 이메일:
      cs@cowave.kr
    • 호스팅 제공자:
      (주)커넥트웨이브
    • 사업자 정보확인
    • 이용약관
    • 책임의 한계
    • 청소년 보호정책
    뒤로
    새로고침 맨위로 이동
    안내

    유용하고 재미있는 정보인가요? 공감이 된다면 공감 버튼을,
    그렇지 않다면 비공감 버튼을
    눌러 주세요!
    공감이나 비공감을 선택 하는 경우
    다나와 포인트를 적립해 드립니다.
    ※ 공감 버튼의 총 선택 횟수는
    전체 공개입니다.
    비공감 버튼의 선택 여부는
    선택한 본인만 알 수 있습니다.

    포인트 안내
    목록
    공감
    비공감
    댓글
    공유

    공유받은 친구가 활동하면 포인트를!

    URL이 복사되었습니다.

    공유하기

    레이어 닫기

    지금 보는 페이지가 마음에 든다면
    공유하기를 통해 지인에게 소개해 주세요.

    • 카카오톡
    • 라인
    • 페이스북
    • X
    • 밴드
    https://dpg.danawa.com/mobile/news/view?boardSeq=60&listSeq=5824868 복사

    로그인 유저에게는 공유 활동에 따라
    다나와 포인트가 지급됩니다.

    자세히 >

    URL이 복사되었습니다.