AWS, 문제 풀 때마다 학습하는 AI 개발... 경험 쌓을수록 저렴하고 정확해 : 다나와 DPG는 내맘을 디피지

사람이 문제를 풀 때 과거 경험을 떠올려 더 나은 방법을 선택하듯, AI도 이제 경험을 통해 학습한다. AWS AI와 펜실베이니아대학교 연구진이 개발한 EGUR(Experience-Guided Reasoner)는 문제를 해결할 때마다 그 경험을 기억하고, 다음에 비슷한 문제가 나오면 더 효율적인 방법으로 접근하는 AI 시스템이다. 기존 AI가 매번 같은 방식으로 문제를 풀었다면, EGUR는 상황에 맞는 최적의 전략을 실시간으로 만들어낸다.

정확도는 높이고 비용은 100분의 1로, 경험이 만든 차이

EGUR는 다섯 가지 어려운 테스트에서 기존 최고 성능 시스템보다 최대 14% 더 정확한 답을 냈다. 특히 논리 문제인 3-SAT에서는 기존 시스템인 Mem0보다 14% 높은 정확도를 기록했다. 더 놀라운 건 비용이다. 사물 개수 세기 문제에서 EGUR는 기존 시스템인 Dynamic Cheatsheet보다 111배 적은 비용으로 더 정확한 답을 냈다. 게다가 이런 성능 향상은 시스템이 경험을 쌓을수록 더욱 두드러졌다.

연구진은 수학 경시대회 문제(AIME 2025), 논리 퍼즐(3-SAT), 그리고 영화 추천, 단어 정렬, 사물 개수 세기 같은 추론 문제에서 실험을 진행했다. Claude 3.7 Sonnet이라는 AI 모델을 사용한 결과, EGUR-5는 3-SAT 문제를 96.0%의 정확도로 풀면서 0.152달러의 비용만 들었다. 반면 CodeAct는 77.0%의 정확도에 0.257달러, Dynamic Cheatsheet는 89.9%의 정확도에 무려 76.353달러가 들었다.

전략을 만드는 전략, EGUR의 작동 원리

EGUR의 핵심 아이디어는 '전략을 만드는 전략'이다. 기존 AI 시스템들은 미리 정해진 문제 해결 방식을 사용하고, 단지 입력되는 텍스트만 조금씩 바꿨다. 하지만 EGUR는 각 문제마다 완전히 새로운 해결 방식을 실시간으로 만들어낸다. 이 시스템은 두 가지 핵심 부품으로 작동한다.

첫 번째는 '가이드(Guide)'다. 가이드는 현재 문제와 과거에 쌓인 경험을 바탕으로 여러 가지 해결 방법을 제안한다. 각 문제마다 여러 개의 방법을 만들어보는데, 많이 만들수록 더 다양한 시도가 가능하지만 그만큼 비용도 든다. 실험에서는 주로 5개씩 만들어봤다.

두 번째는 '통합자(Consolidator)'다. 통합자는 여러 방법을 실제로 시도해본 결과를 분석해서 기억으로 저장한다. 어떤 방법이 효과적이었는지, 어떤 실수가 반복되는지 등을 정리해둔다. 이 기억은 크게 두 종류로 나뉜다. 성공한 해결 방법을 문제 유형별로 저장하는 '전략 모음집'과, 일반적으로 유용한 팁과 주의사항을 정리한 '참고 노트'다.

연구진은 이런 전략을 수학적으로 정리하기 위해 '상태를 기억하는 과정'이라는 개념을 만들었다. 이는 입력을 받아 출력을 만들면서 동시에 내부 상태도 업데이트하는 함수로, 여러 단계를 순서대로 연결하거나 동시에 실행하거나 조건에 따라 다르게 동작하도록 만들 수 있다. 예를 들어 CodeAct라는 전략은 AI가 답을 내고 그 답으로 코드를 실행해보고 다시 답을 수정하는 과정을 반복한다.

문제마다 다른 최적의 방법, 만능 전략은 없다

연구진이 분석한 결과, 문제 유형에 따라 최적의 해결 방법이 완전히 달랐다. 클로드 3.7 Sonnet 모델을 사용한 실험에서 'Code'라는 전략은 논리 퍼즐과 단어 정렬에서 최고 성능을 보였지만, 수학 문제와 영화 추천에서는 최악의 성능을 기록했다. 비슷한 정확도를 가진 방법들 사이에서도 비용 차이가 컸다. 'Eval-Opt'는 'Self-Consistency'와 비슷한 정확도를 내면서도 비용은 절반만 들었다.

흥미롭게도 더 복잡하고 유연한 방법이 반드시 더 좋은 결과를 내지는 않았다. 이론적으로는 복잡한 '에이전트' 방식이 상황에 따라 단순한 방법을 흉내낼 수 있지만, 실제로는 적절한 선택을 하지 못하는 경우가 많았다. 심지어 성공하더라도 단순한 방법을 직접 쓰는 것보다 훨씬 많은 계산 비용이 들었다. 예를 들어 CodeAct는 가장 범용적인 방법이지만 대부분의 문제에서 최선의 선택이 아니었다.

EGUR는 이 문제를 해결하기 위해 여러 방법을 동시에 시도해보고 결과를 비교한다. 한 문제 당 여러 해결 방법을 만들고 실행해서 어떤 게 더 효과적인지 직접 확인하는 것이다. 실험 결과 단 하나의 방법만 시도하는 것보다 5개를 비교하는 게 대부분의 문제에서 더 나은 성능을 보였고, 특히 논리 퍼즐과 사물 개수 세기에서 큰 개선이 있었다.

학습된 전략의 실제 모습, 때로는 간단한 게 최고

EGUR가 실제로 어떤 걸 학습했는지 분석한 결과 몇 가지 일관된 패턴이 발견됐다. 코드를 사용하는 전략의 경우, EGUR는 어떤 프로그래밍 라이브러리를 쓸 수 있는지 명시하고, 유용한 코드 조각을 미리 포함시키며, 오류가 났을 때 어떻게 처리할지 추가하는 법을 배웠다. 더 일반적으로는 기본 방법이 실패할 때는 더 구체적으로 접근하되, 문제가 간단하면 오히려 단순하게 푸는 법을 익혔다.

특히 흥미로운 발견은 코드 실행 도구가 때로는 오히려 방해가 된다는 점이다. 사물 개수 세기 문제를 보면 직관적으로는 코드로 계산하는 게 좋을 것 같지만(많은 숫자를 더해야 하니까), EGUR는 상세한 지침이 담긴 단순한 질문 한 번으로 해결하는 방법으로 수렴했고 이게 더 정확하면서도 훨씬 저렴했다. 학습된 방법에는 텍스트를 어떻게 읽을지, 항목을 어떻게 분류할지, 수량 변화를 어떻게 처리할지에 대한 구체적인 안내가 포함됐다.

단어 정렬 문제에서도 EGUR는 두 가지 상황을 구분하는 법을 배웠다. 단순히 알파벳 순서로 정렬하는 문제에는 파이썬의 정렬 기능을 쓰고, 설명 속 논리적 오류를 찾는 문제에는 코드 대신 단계적 추론 방식을 사용했다. 이런 발견들은 EGUR가 도구를 쓸 때와 AI의 사고력에 의존할 때를 구분하고, 언제 계산을 많이 할지 적게 할지, 그리고 문제 특성에 맞게 질문 방식을 조정하는 실용적인 요령을 학습한다는 것을 보여준다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. EGUR는 기존의 기억 기능을 가진 AI와 어떻게 다른가요?

A. 기존 AI들은 과거 경험을 텍스트 형태로만 기억해서 질문에 덧붙이는 정도였습니다. EGUR는 기억을 바탕으로 문제 해결 방식 자체를 새로 만듭니다. 질문 문구뿐 아니라 AI의 답변 스타일 설정, 사용할 도구, 문제 풀이 순서까지 모두 상황에 맞게 바꿀 수 있어 훨씬 유연합니다.

Q2. EGUR의 비용 절감 효과는 어떻게 가능한가요?

A. EGUR는 문제 유형에 따라 딱 필요한 만큼만 계산합니다. 간단한 문제는 한 번의 질문으로, 복잡한 문제는 코드 실행이나 여러 번의 시도로 푸는 식입니다. 또한 이전에 성공한 방법을 저장해뒀다가 비슷한 문제가 나오면 바로 재사용하므로 반복 작업의 비용이 크게 줄어듭니다.

Q3. EGUR는 어떤 종류의 작업에 가장 효과적인가요?

A. EGUR는 수학 문제, 논리 퍼즐, 추론이 필요한 작업 등 다양한 분야에서 효과를 보였습니다. 특히 문제마다 최선의 접근법이 다르거나, 비슷한 유형의 문제가 자주 반복되거나, 비용을 줄이는 게 중요한 상황에서 큰 장점을 발휘합니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문 명: Experience-Guided Adaptation of Inference-Time Reasoning Strategies

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

명조 X 컴포즈커피 세미팝업 프리오픈 성료	게임동아
불안감 커지는 한미 간 통상 불확실성, 車 업계 특별법 조속 제정 촉구 (1)	오토헤럴드
독일인 75% "구매 의향 없다" 수치로 확인된 테슬라 브랜드 이미지 급락 (1)	오토헤럴드
지난해 韓시장 269% 폭풍 성장 후 폴스타가 꺼내든 다음 카드 '초고성능'	오토헤럴드
[LCK] DN 수퍼스와 DRX의 대반란 속 '혼돈 속 LCK 컵'	게임동아
엄마-아빠도 게이머였다…넷플릭스 다큐멘터리가 선사하는 추억 여행 화제[게임 인더스트리] (1)	게임동아
바이오하자드 레퀴엠, "그레이스로 도망친 적도, 레온으로 쓰러뜨릴 수 있다" (1)	게임동아
크래프톤, 3년간 1조 원 이상 주주환원 추진	게임동아
캐킷 ‘럽플레이스’, 설맞이 ‘만복 대축제’ 대규모 업데이트	게임동아
웹젠, '드래곤소드' 신규 캐릭터와 콘텐츠 확장에 천장까지 완화	게임동아
엔씨 ‘리니지 클래식’, 이틀 만에 누적 접속자 50만, 최대 동접 18만 돌파	게임동아
엔씨 '리니지 클래식', PC방 순위 4위 등극.. 자동 플레이 시스템 도입 검토	게임동아
그라비티, 신작 ‘라그나로크 오리진 클래식’ 홍콩 지역 CBT 참가자 모집	게임동아
크래프톤, 2025년 연간 매출 3조 3,266억, 영업이익 1조 544억	게임동아
‘조선협객전 클래식’, 온라인 쇼케이스 통해 상세 정보 공개	게임동아
타일 한 칸에서 시작된 작은 왕국. '드랍 더치' 개발한 슬리피 밀 스튜디오	게임동아
[롤짤] 1만 골드차 역전까지, LCK 친정팀 파괴 메타	게임메카
아이작의 번제 개발자 신작 ‘뮤제닉’ 메타크리틱 90점 (1)	게임메카
문화적 공로, 33 원정대 개발진 전원 기사 작위 받았다	게임메카
공포게임 아닙니다, '토마스와 친구들' 기반 신작 발표	게임메카
메모리 부족, 엔비디아 올해 GPU 신제품 출시 안 한다?	게임메카
레이싱게임 '레이시티' 스팀 페이지 오픈, 진위 여부 화제	게임메카
3편 직후 이야기, 발더스 게이트 TV 드라마 발표 (1)	게임메카
패러독스 CEO “DLC 폭격에 대한 부담감 잘 알고 있다”	게임메카
[오늘의 스팀] 확률 없는 턴제 전략 신작 ‘메너스’ 출시	게임메카
[이구동성] 짜잔~ 2 라는 건 없군요	게임메카
3인 협동 기계수 토벌, 호라이즌 헌터즈 개더링 공개	게임메카
인어 먹으면 불로불사? 파라노마사이트 시리즈 최신작 발표	게임메카
도쿄 떠나 새 도시로, 팔콤 '교토 재너두' 베일 벗었다	게임메카
업데이트 종료됐던 그랑블루 리링크, 확장팩으로 부활한다	게임메카
닌텐도 다이렉트, 스위치 1·2로 출시될 신작 다수 공개	게임메카
'삼국지 전략판’, 코에이 테크모 ‘삼국지’ 시리즈 40주년 기념 참여	게임동아
[오늘의 스팀] 돌아온 탱크, 헬다이버즈 2 업데이트 관심	게임메카
완성도 높은 사무라이·닌자 액션, 인왕 3 메타크리틱 86점	게임메카
와우 총괄 프로듀서 “워크래프트 IP 충분히 활용 못 했다”	게임메카
우리 우정 영원히, 살인사건 은폐하는 협동 게임 등장	게임메카
스텔란티스 전동화 '리셋'으로 38조원 절감, LG엔솔 협력 구조도 재편	오토헤럴드
토요타, 센추리 쿠페 양산 임박 '800마력 V12 하이브리드설' 부상	오토헤럴드
현대모비스, 협력사 미래 개척하는 ‘원팀’ 2026 파트너스 데이’ 개최	오토헤럴드
사자의 코털을 건드린 BYD '車 관세 불법' 美 정부 상대 소송 제기	오토헤럴드
마세라티, 정통 이탈리안 GT '그란투리스모' 올해의 럭셔리카 부문 석권	오토헤럴드
'8년 만에 나오나' 테슬라, 로드스터 신규 상표권 출원으로 기대감	오토헤럴드
[EV 트렌드] '급속 충전 3000회' CATL, 차세대 전기차 배터리 5C 공개	오토헤럴드
보스턴다이나믹스 아틀라스 '연속 공중제비, 한 치의 흔들림도 없는 착지'	오토헤럴드
미국 캘리포니아, 2억 달러 규모 독자 전기차 보조금 강행… 트럼프와 정면충돌	글로벌오토뉴스
중국 샤오펑, 레인지로버 감성의 플래그십 SUV GX 공개… AI 기술로 승부수	글로벌오토뉴스
팩토리얼-카르마, 미국 첫 고체 배터리 양산 프로그램 가동	글로벌오토뉴스
중국 자동차, 2025년 세계 시장 점유율 35.6% 기록 독주 체제	글로벌오토뉴스
창안자동차, 세계 최초 나트륨 이온 배터리 양산 세단 네보 A06 공개	글로벌오토뉴스
토요타 차기 사장 켄타 콘, 소통과 결단의 리더십으로 변혁 주도	글로벌오토뉴스
동펑자동차, 2026년 판매 목표 325만 대 발표… 화웨이 협업 이진 브랜드 출격	글로벌오토뉴스
빈패스트, 2025년 글로벌 판매 100% 증가	글로벌오토뉴스
폭스바겐·스텔란티스 CEO 공동 전선…유럽산 전기차 지원 촉구	글로벌오토뉴스
폭스콘, 중국 정저우에 전기차 연구센터 가동… 24개월 개발 속도전 선언	글로벌오토뉴스
2026년 1월 수입 상용차 신규등록 404대… 전월 대비 21.7% 증가	글로벌오토뉴스
만트럭버스코리아 창립 25주년 맞아 고객 혜택 및 서비스 대폭 강화	글로벌오토뉴스
볼보자동차코리아, XC40 블랙 에디션 50대 한정 출시	글로벌오토뉴스
마세라티 그란투리스모, 국내외 ‘2026 올해의 럭셔리카’ 수상	글로벌오토뉴스
아우디 코리아, 부산 남천 전시작 신규 오픈… 동남권 고객 접점 확대	글로벌오토뉴스
한국타이어 티스테이션, 설 맞이 온라인 28% 할인 쿠폰 증정 프로모션 진행	글로벌오토뉴스
현대모비스, 협력사와 ‘미래 모빌리티 원팀’ 선언… 2026 파트너스 데이 개최	글로벌오토뉴스
르노코리아, 설 연휴 안전 운전 돕는 전국 무상 점검 서비스 실시	글로벌오토뉴스
르노 4세대 트윙고의 디자인 보기	글로벌오토뉴스
KGM, ‘무쏘’ 출시 기념 문화 이벤트 ‘KGM 시네마 데이’ 개최	글로벌오토뉴스
테슬라, 2028년 목표 100GW 태양광 발전 계획 가속화	글로벌오토뉴스
397. 2025년 전기차 판매,유럽 30%/미국 1.2% 증가/중국 1,100만대가 캐즘이라고?	글로벌오토뉴스
자동차업계, 미국 관세 25% 인상 위기에 "대미투자특별법 조속 제정" 강력 촉구	글로벌오토뉴스
보스턴다이나믹스 아틀라스, 연속 공중제비 성공	글로벌오토뉴스
데브시스터즈 2025년 매출 2947억 원... “4분기 적자 속 IP 확장 전략 가속”	게임동아
코리아보드게임즈, ‘티켓 투 라이드 레거시: 서부 개척’ 2월 9일부터 선주문 진행	게임동아
e스포츠 월드컵 예선 프로그램 '로드 투 EWC' 출범	게임메카
테이크투 CEO "게임 가격, 물가 감안하면 오히려 싸다"	게임메카
스카이림, 15년 된 NPC 그래픽 오류 개선하는 모드 나왔다	게임메카
‘2’ 뗀 오버워치, 신규 영웅 10종과 새 스토리로 재무장	게임메카
부활 가능할까? 문명 7 단일 국가 플레이 기능 추가	게임메카
2026 LCK컵 플레이-인 6일 개막, 6개 팀 격돌한다	게임메카
[순위분석] 큰 거 오나? 오버워치 2 간만에 순위 상승	게임메카
아크 월드 투어 파이널 2026, 최종 예선 참가 신청	게임메카
[오늘의 스팀] 직접 주문 외치는 리썰류 신작 ‘얍얍’ 호평	게임메카
Xbox 차세대 콘솔 내년 출시되나? 리사 수 발언 화제	게임메카
에픽게임즈 스토어 “우리는 스팀을 넘어뜨릴 생각 없다”	게임메카
신규 증강·세트 추가, 롤 '증바람' 업데이트 적용 완료	게임메카
러스트, ‘커널 단위 보안’ 도입 발표에 유저 여론 양분	게임메카
"AI가 AI를 만드는 시대 열렸다"… 오픈AI, 자기 학습 모델 'GPT-5.3-Codex' 공개	AI matters
NHN ‘한게임 섯다&맞고’, 2007년생 새내기 환영 이벤트 진행	게임동아
"챗GPT 5.2 제쳤다"… 앤트로픽, 클로드 Opus 4.6 신모델 공개	AI matters
"AI 직원을 여러분 회사에 파견합니다 기존 AI 같이 쓰세요"… 오픈AI, 기업용 AI 공개	AI matters
서린씨앤아이, 11번가 에브리십일절서 고성능 PC 부품 최대 혜택	뉴스탭
파워 커플로 싸운다…GTA 온라인 ‘데드라인 듀엣’ 등장, 보상은 3배	뉴스탭
“쇼핑하다 전기차 시승까지”... DT네트웍스, 스타필드서 BYD 주중 시승 행사	뉴스탭
삼양식품 ‘삼양1963’ 흥행 100일…코엑스서 백일잔치 연다	뉴스탭
“약 8만원 상당 키캡 증정”…스틸시리즈, 에이펙스 프로 Gen 3 한정 혜택	뉴스탭
가트너가 짚은 2026 사이버보안 키워드, ‘AI 무질서·양자컴퓨팅·규제 리스크’	뉴스탭
SATUR, 신예은 우먼라인 모델 발탁…젠지 여성 공략 본격화	뉴스탭
에이수스, 하이마트 잠실점에 ROG 체험존 구축…하이엔드 게이밍 직접 체험	뉴스탭
요거트는 재료, 라면은 실험…MZ세대가 만든 ‘모디슈머’ 열풍	뉴스탭
‘퍼스트 디센던트’ 냉기 속성 계승자 ‘다이아’ 업데이트	게임동아
‘에오스 레드’ 과금 제한 서버 ‘하틴’ 캐릭터명 선점 실시	게임동아
민트로켓, ‘데이브 더 다이버’ 중국 정식 출시	게임동아
"노는게 제일 좋아!!" 카러플, ‘뽀로로’ 컬래버 업데이트	게임동아

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

AWS, 문제 풀 때마다 학습하는 AI 개발... 경험 쌓을수록 저렴하고 정확해

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

AWS, 문제 풀 때마다 학습하는 AI 개발... 경험 쌓을수록 저렴하고 정확해

공유하기

공감/비공감