단 2,400개 예제로 17만개 학습 능력 압도한다? 아마존이 만든 검색 혁명 's3' 뭐 길래 : 다나와 DPG는 내맘을 디피지

s3: You Don't Need That Much Data to Train a Search Agent via RL

단 2,400개 샘플로 17만 개 샘플 성능 압도: 70배 효율성의 비밀

일리노이 대학교 어바나 샴페인 캠퍼스와 아마존이 공동 개발한 새로운 AI 검색 프레임워크 s3(Search-Select-Serve)가 기존 방법보다 70배 적은 데이터로도 더 뛰어난 성능을 보여주는 것으로 나타났다. 해당 프레임워크는 단 2,400개의 훈련 샘플로 170,000개 샘플로 훈련된 기존 모델들을 능가하는 성과를 기록했다.

s3는 강화학습(RL) 기반의 경량화된 모델 독립적 프레임워크로, 검색 기능과 생성 기능을 분리하여 검색 성능만을 집중적으로 최적화한다. 이 방식은 기존의 검색증강생성(RAG) 시스템과 달리 생성 모델은 고정한 채 검색 에이전트만을 훈련시켜 효율성과 호환성을 극대화했다.

'Gain Beyond RAG' 보상 시스템으로 기존 한계 돌파

연구팀은 기존 RAG 시스템의 세 가지 발전 단계를 분석했다. 초기 Classic RAG는 고정된 검색 방법을 사용했고, Pre-RL-Zero 시기에는 더 적극적인 참여가 가능해졌지만 제로샷 프롬프팅에 의존했다. 현재의 RL-Zero 시대에서는 강화학습을 통한 에이전트 검색이 가능해졌지만, 대부분의 기존 방법들은 검색과 생성을 공동으로 최적화하여 실제 검색 개선 효과를 분리하기 어려웠다.

s3는 이러한 문제를 해결하기 위해 'Gain Beyond RAG(GBR)'라는 새로운 보상 신호를 도입했다. GBR은 s3가 검색한 문서를 사용했을 때의 생성 정확도가 기본 상위 k개 검색 대비 얼마나 향상되었는지를 측정한다. 이를 통해 생성 모델은 동결된 상태를 유지하면서도 검색 성능을 직접적으로 최적화할 수 있게 되었다.

일반 데이터 학습으로 의료 분야 76.6% 정확도 달성한 놀라운 전이 능력

실험 결과 s3는 6개의 일반 도메인 질의응답 벤치마크와 5개의 의료 도메인 질의응답 벤치마크에서 모두 최고 성능을 기록했다. 특히 주목할 점은 일반 데이터로만 훈련된 s3가 의료 질의응답에서도 우수한 성능을 보여준 것이다. 이는 강화학습으로 습득한 검색 기술이 생성 튜닝 방식보다 더 안정적으로 다른 도메인으로 전이된다는 것을 시사한다.

Claude-3-Haiku를 생성 모델로 사용한 실험에서 s3는 일반 도메인에서 평균 58.9%의 정확도를 달성했으며, 의료 도메인에서는 Wikipedia+PubMed+Textbook 말뭉치를 사용했을 때 76.6%의 정확도를 기록했다. 이는 기존의 DeepRetrieval과 Search-R1 모델들을 모두 능가하는 수치다.

실제 사례로 보는 s3의 똑똑한 검색: "2007년 영화" 질문 완벽 해결

s3의 실제 검색 능력을 보여주는 흥미로운 사례가 있다. "재활용 타이어 등 자연·업사이클 소재로 만든 패시브 솔라 하우스 발명가에 대한 영화가 제작된 연도는?"이라는 복잡한 질문에 대해 기존 RAG와 s3의 대응을 비교해보자. 기존 RAG 시스템은 "어스십(Earthship) 발명가에 대한 특정 영화나 그 개봉 연도에 대한 정보가 제공되지 않았다"며 답변을 포기했다. 반면 s3는 첫 번째 검색에서 어스십과 발명가 마이클 레이놀즈(Michael Reynolds)를 찾아낸 후, 두 번째 검색에서 "어스십 발명가에 대한 영화가 언제 만들어졌나?"라는 구체적 질문을 생성했다.

그 결과 s3는 "Garbage Warrior는 어스십 스타일 건축의 발명가인 건축가 마이크 레이놀즈에 대한 2007년 영화다"라는 정확한 정보를 찾아 "2007년"이라는 정답을 도출했다. 이는 s3가 단순히 키워드 매칭이 아닌 맥락을 이해하고 논리적으로 검색 전략을 세운다는 것을 보여준다.

훈련 시간 33배 단축, 인간 판단 일치율 96.4% 달성

s3의 가장 큰 장점은 훈련 효율성이다. Search-R1이 2,100단계(170,000개 예제)의 훈련이 필요한 반면, s3는 단 20단계(2,400개 예제)만으로 더 나은 성능을 달성했다. 훈련 시간 역시 약 33배 단축되어 실제 활용 가능성을 크게 높였다. 또한 s3는 7B 정책 모델을 사용하고 검색기 사전 훈련이 불필요하여 저자원 환경에서도 적용하기 용이하다.

연구팀은 보상 함수 비교 실험을 통해 의미론적으로 정렬된 평가 지표의 중요성도 입증했다. Generation Accuracy 지표는 인간 판단과 96.4%의 일치율을 보인 반면, Search-R1에서 사용하는 Exact Match는 15.8%에 불과했다. 이는 보상 선택이 검색 품질에 직접적인 영향을 미친다는 것을 보여준다.

아직 남은 과제들: 계산 비용과 편향성 문제 해결이 관건

s3의 혁신적 성과에도 불구하고 몇 가지 한계점이 존재한다. 가장 큰 과제는 훈련 중 보상 계산을 위해 LLM 추론이 필요하다는 점이다. 이는 토큰 수준이나 검색 전용 목적 함수에 비해 계산 오버헤드를 증가시켜 확장성을 제한한다. 연구팀에 따르면 s3는 단계별로는 더 느리지만, 최소한의 단계로 높은 성능을 달성하여 전체적으로는 효율적이라고 설명한다.

또한 s3는 유능한 고정 생성 모델의 존재를 전제로 한다. 저성능이나 명령어 처리가 약한 생성기의 경우 향상된 검색의 이점이 완전히 출력으로 이어지지 않을 수 있다. 편향성 문제도 주의해야 할 부분이다. s3는 모든 검색증강 시스템과 마찬가지로 검색기와 생성기 양쪽의 편향을 상속받는다. 특히 의료나 과학 분야와 같은 민감한 도메인에 적용할 때는 소스 말뭉치와 출력 결과에 대한 신중한 검증이 필요하다고 연구팀은 강조했다.

그럼에도 불구하고 s3는 저자원 커뮤니티에서도 효과적인 검색 에이전트 훈련을 가능케 하여 RAG 시스템을 더욱 접근 가능하게 만든다는 긍정적 영향이 기대된다.

FAQ

Q1: s3가 기존 RAG 시스템보다 효율적인 이유는 무엇인가요?

A1: s3는 검색 기능과 생성 기능을 분리하여 검색 에이전트만을 집중적으로 훈련시키기 때문입니다. 이를 통해 2,400개의 적은 데이터로도 170,000개 데이터로 훈련된 기존 모델보다 우수한 성능을 달성할 수 있습니다.

Q2: s3의 'Gain Beyond RAG' 보상 신호는 어떻게 작동하나요?

A2: GBR은 s3가 검색한 문서를 사용했을 때의 생성 정확도와 기본 상위 k개 검색 결과를 사용했을 때의 정확도 차이를 측정합니다. 이를 통해 실제로 답변 품질을 향상시키는 검색 성능을 직접적으로 최적화할 수 있습니다.

Q3: s3는 의료 분야와 같은 전문 도메인에서도 사용할 수 있나요?

A3: 네, 가능합니다. s3는 일반 데이터로만 훈련되었음에도 불구하고 의료 질의응답에서 76.6%의 높은 정확도를 기록했습니다. 이는 강화학습으로 습득한 검색 기술이 다양한 전문 도메인으로 안정적으로 전이된다는 것을 보여줍니다.

해당 기사에 인용된 논문 원문은 링크에서 확인 가능하다.

AI Matters 뉴스레터 구독하기

KRDS 준수해야 하는 공공 웹, AI 기반 검증 기술에도 ‘주목’	IT동아
구글, 가상 착장 앱 ‘도플’ 출시… “스타일 탐색을 더 쉽게” (2)	다나와
퓨리오사AI NPU 도입 앞둔 딥노이드, "운영비용 최적화·서비스 응용에 기대"	IT동아
작곡 AI 수노, 편집 기능 강화 위해 ‘웨이브툴’ 인수… 음반사와 법적 분쟁은 지속	AI matters
스플렁크, AI 시대 데이터 관리 강조…“데이터 연합 전략이 대안”	IT동아
[생성AI길라잡이] 구글 제미나이로 '고품질 음식 사진' 생성하기	IT동아
테슬라 로보택시, 출시 초반부터 사고 속출	다나와
넥스트라이즈 2025, 우주/방산/콘텐츠 부문 AI 스타트업 '눈길'	IT동아
AI 무인 회수기, 페트병·캔 재활용으로 포인트 적립까지…선순환 효과 ‘톡톡’	IT동아
“형태보다 판단력이 중요하다" FCA, AI 금융 규제 패러다임 개혁 요구 (1)	다나와
리벨리온, SKT와 함께 AI 서비스 구현 나서··· '핵심은 AI 주권 확보'	IT동아
AI 챗봇 또타24, 서울지하철 민원 접수 간단하고 빠르게 (4)	IT동아
구글 AI 검색, 영국 경쟁당국 조사 착수…“시장 왜곡 우려”	다나와
업스테이지·퓨리오사AI 맞손, '국산NPU에 국산 LLM 올린다'	IT동아
과기정통부·중기부 장관에 ‘AI 전문가’ 전면 배치… “국가 디지털 전략 가속화”	다나와
美 유통업계 '도난 피해' 연 57조에 달해....해결 위해 프랑스 AI 나선다 (3)	다나와
BBC, AI 스타트업 '퍼플렉시티'에 '무단 콘텐츠 사용'에 따른 법적 조치 경고	다나와
"너 말투, ChatGPT 같아"…AI가 우리의 말하는 방식을 바꾸고 있다 (6)	다나와
인고의 시간 거친 티맥스 ANC, 슈퍼앱 '가이아'에 사활 걸어 (1)	IT동아
공공 AI의 주축으로 떠오른 '소버린 AI', 해외 주요 국가 동향은	IT동아
MS, 수천명 추가 감원…AI 집중 전략 위한 조직 재편 (1)	다나와
애플, 검색 패권 흔든다. Perplexity 인수 검토로 본 전략 전환	다나와
"AI 투자 3배 늘리는데 인재는 홀대"... 액센추어가 경고한 기업 회복력의 함정	AI matters
아마존·구글·MS 324조 원 쏟아부었다... 'AI 인프라 전쟁' 분석 보고서	AI matters
파일럿부터 전면 도입까지… AI로 생산성 7.8% 높인 기업들의 성공 공식	AI matters
터치스크린 고장부터 튀김기 오류까지… 전 세계 패스트푸드 매장의 AI 활용법	AI matters
국민 3명 중 2명 “AI 서비스, 삶에 긍정적 영향”… 60대 이상은 거리감 여전 (1)	AI matters
에이전틱 AI가 바꾸는 4가지 비즈니스 혁신… 내가 놓친 업무 조각 찾아낸다	AI matters
데이터 분석 1위, 콘텐츠 제작 2위... MZ 직장인이 AI 사용하는 방법	AI matters
오픈AI, 기업 대상 챗GPT 할인 나서… MS와의 관계 악영향 때문? (1)	AI matters
中 AI 아바타, 라이브 커머스서 7시간 만에 76억원 매출… 인간 인플루언서 압도 (3)	AI matters
알리바바 클라우드, 한국에 두 번째 데이터센터 개설… “AI 수요 급증에 대비”	AI matters
애플, AI로 자체 칩 설계 가속화... "설계 속도 대폭 향상 기대"	AI matters
어도비, 핀터레스트와 개인화 AI 스타일 분석 '스타일 리딩' 체험 선보여	AI matters
하정우 AI수석 첫 브리핑… “AI 골든타임 3~5년… 이공계 인재 육성 책무 강화할 것”	AI matters
엔비디아, AI 스타트업 투자 광폭 확대… 2년간 80곳 이상 (1)	AI matters
[생성 AI 길라잡이] 바짝 앞으로 다가온 6G 시대, AI가 핵심? (1)	IT동아
인공지능 공세에 '애플 프리미엄' 가치 위협 받는다	IT동아
‘다크웹 전문가’ S2W, 사이버 범죄 AI 추적 기술 세계로	IT동아
영국 환경청, AI 데이터센터 급증에 "물 부족 위기 경고" (2)	다나와
OpenAI, 미 국방부와 2억 달러 초대형 계약 체결	다나와
라틴아메리카 최초의 AI 언어 모델 ‘Latam-GPT’, 2025년 출시 예정	다나와
메타, 오클리·프라다와 손잡고 AI 스마트 글라스 확장…패션 브랜드 협업 본격화 (3)	다나와
AI와 실사 촬영의 만남, 단편 영화 ‘ANCESTRA’	다나와
일반인이 AI로 법률문제 해결한다? 변호사 63% “위험하다” (5)	AI matters
빅테크가 'AI' 기술 깎을 때, 세일즈포스는 '도입 가능성'에 집중했다	IT동아
최신 AI 에이전트도 현실 업무 성공률 58%... 기밀 유지 성능은 0% 수준 (1)	AI matters
시청·병원·학교까지 AI 바람... 공공기관 94% AI 활용하지만 ‘보안’은 엉망	AI matters
챗GPT 많이 쓸수록 멍청해진다? MIT의 실험 결과 충격 (1)	AI matters
속도냐 안전이냐, AI 기업들의 딜레마… 절반이 '빠른 출시' 택했다	AI matters
中, 챗GPT·메타 AI 군에 투입... “군사정보 전 과정 자동화 시도” (1)	AI matters
"AI만으로 상업 포스터 완성" 바이트댄스, 풀스택 편집 가능한 디자인 시스템 공개	AI matters
AI 규제 완화냐 vs. 연구비 삭감이냐, 트럼프 2기 AI 정책 동향 분석	AI matters
과기정통부, 국내 AI 스타트업 8곳 해외 실증 지원… 6개국서 사업 실증	AI matters
英, 세계 최초 AI 기반 로펌 공식 승인… 법률 서비스 혁신 신호탄	AI matters
AI 코딩 툴 ‘커서’, 월 200달러 ‘울트라 요금제’ 출시… 기업 고객 공략 가속화 (1)	AI matters
샘 알트만, "메타, 오픈AI 인재 영입 위해 1억 달러 제안했지만 실패"	AI matters
G7, AI·핵심 광물·퀀텀 등 6대 글로벌 협정 채택 (1)	다나와
오픈AI, 美 국방부와 최대 2억 달러 계약… MS-정부 사업과 충돌 우려 (1)	AI matters
韓 기업 AI 도입 현주소는?...“인재·데이터 확보가 고민” (1)	IT동아
오픈AI도 한다, 美 정부용 ‘OpenAI for Government’ 공식 출범 (1)	AI matters
어도비, '파이어 플라이' 모바일 앱 출시… 이동 중 작업 가능해진다 (1)	AI matters
아마존 CEO "AI 도입으로 인력 감축 불가피"... 사무직 인력 줄인다 (2)	AI matters
메타, AI 스마트 글래스 오클리·프라다로 출시한다 (1)	AI matters
[기고] AI와 미래 산업기술 - 4. AI 시대, 세상을 바꾸는 산업 기술 전문가의 미래	IT동아
AI, 전 인류 위협할 수 있다 (6)	다나와
DISCO, 유럽 시장 공략 본격화…생성 AI로 법률 문서 검토 서비스 시작	다나와
Adobe, AI 기반 웹·모바일 트래픽 분석 툴 발표…마케팅 자동화에 속도	다나와
'AI에 의한 대규모 재난 미리 방지한다' 뉴욕주, AI 재앙 방지 위한 'RAISE 법안' 통과	다나와
'명화 복원도 이제 AI로 하세요' 전문가의 수작업보다 최대 66배 빨라 (4)	다나와
ABBA의 뵈른 울바에우스, AI로 새로운 뮤지컬 작업 중… “AI는 환상적인 도구이자 창작 파트너”	다나와
마텔, 오픈AI와 손잡고 AI 기반 장난감 개발…올해 첫 출시 예정	다나와
“클릭없는 세상 올 것” — 웹을 장악하는 새로운 'AI 검색 봇'	다나와
ChatGPT 최신 모델이 47년 전 아타리 체스 엔진에 완패	다나와
Meta, Scale AI에 대규모 투자 검토… 기존 파트너십 균열 조짐	다나와
‘통합검색을 통합 에이전트로’, 네이버 키워드·생성 AI 검색 두마리 토끼 잡을까	IT동아
[생성 AI 길라잡이] 8년간 공방 ‘로톡 사태’ 계기로 마련된 후속조치 살펴보니	IT동아
'영상 편집이 이렇게 쉽다고?' 메타, 생성형 AI 기반 영상 편집 기능 출시 (3)	다나와
현대백화점, 외국인 고객 위한 AI 쇼핑 어시스턴트 '헤이디' 출시한다	다나와
OpenAI, 차세대 지능형 모델 ‘o3-pro’ 출시… ChatGPT 유료 이용자 대상 제공 시작	다나와
아마존, 광고주 위해 비디오 생성기 등 AI 광고 도구 발표 (1)	다나와
ChatGPT 성장에 힘입어 오픈AI, 연간 반복 매출 100억 달러 돌파...'2029년 매출 4배 목표' (2)	다나와
구글, 제미나이 앱에 ‘예약 작업’ 기능 도입…AI 비서 전쟁 본격화 (1)	다나와
AI가 만든 아이스크림에 맞춤형 서비스까지···배스킨라빈스 청담점 가보니 (3)	IT동아
2025 대한민국 AI 50 발표…포티투닷·뷰노·스트라드비젼 등 혁신 주역 부상 (1)	다나와
일런 머스크, 오랜 숙원인 '로보택시' 서비스 드디어 출시...이번엔 진짜 '완전자율주행'? (1)	다나와
美 정부 백신 홈페이지, 해킹으로 인해 AI 생성 스팸 콘텐츠로 도배 (1)	AI matters
위키피디아, AI 자동 요약 실험 중단… 편집자들의 강력 반발 영향	AI matters
디즈니·유니버설, AI 이미지 생성 플랫폼 ‘미드저니’ 고소…“무단 저작물 활용” (1)	AI matters
사람처럼 행동 전 생각... 메타 AI 모델 ‘V-JEPA 2’ 공개 "로봇에 적용한다면?"	AI matters
前 오픈AI 연구원 “챗GPT, 생명 위협 상황에서도 종료 거부”	AI matters
美 정부가 선택할 정도의 보안 성능, 앤트로픽 '클로드 Gov' 배포	AI matters
데이터 유출 54% 폰에서 발생…기업용 안드로이드에 AI 보안·협업 기능 강화	AI matters
메타, AI 영상 편집 기능 추가… 의상·배경 스타일 자유롭게 바꾼다	AI matters
애플, 신형 AI 모델 성능, 자체 벤치마크서도 경쟁사 대비 열세 (1)	AI matters
AI 시대? 코딩 툴 41% 성장하는 동안 에듀테크·프리랜서 업계 몰락	AI matters
AI, 인프라부터 윤리까지…글로벌 기업들의 투자 각축전 (1)	다나와
항공우주업계가 2025년 AI 상용화에 올인하는 이유 (1)	AI matters
AI가 18세기 노예 문서 1,500p 해독… 美 대학도서관의 AI 활용법 (1)	AI matters
강화학습으로 똑똑해진 AI의 근자감… "모르겠다" 못하고 자신만만하게 틀린다 (1)	AI matters

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

단 2,400개 예제로 17만개 학습 능력 압도한다? 아마존이 만든 검색 혁명 's3' 뭐 길래

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

단 2,400개 예제로 17만개 학습 능력 압도한다? 아마존이 만든 검색 혁명 's3' 뭐 길래

공유하기

공감/비공감