비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

AWS, 문제 풀 때마다 학습하는 AI 개발... 경험 쌓을수록 저렴하고 정확해

2025.11.21. 16:00:11
조회 수
223
12
댓글 수
1

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

사람이 문제를 풀 때 과거 경험을 떠올려 더 나은 방법을 선택하듯, AI도 이제 경험을 통해 학습한다. AWS AI와 펜실베이니아대학교 연구진이 개발한 EGUR(Experience-Guided Reasoner)는 문제를 해결할 때마다 그 경험을 기억하고, 다음에 비슷한 문제가 나오면 더 효율적인 방법으로 접근하는 AI 시스템이다. 기존 AI가 매번 같은 방식으로 문제를 풀었다면, EGUR는 상황에 맞는 최적의 전략을 실시간으로 만들어낸다.

정확도는 높이고 비용은 100분의 1로, 경험이 만든 차이

EGUR는 다섯 가지 어려운 테스트에서 기존 최고 성능 시스템보다 최대 14% 더 정확한 답을 냈다. 특히 논리 문제인 3-SAT에서는 기존 시스템인 Mem0보다 14% 높은 정확도를 기록했다. 더 놀라운 건 비용이다. 사물 개수 세기 문제에서 EGUR는 기존 시스템인 Dynamic Cheatsheet보다 111배 적은 비용으로 더 정확한 답을 냈다. 게다가 이런 성능 향상은 시스템이 경험을 쌓을수록 더욱 두드러졌다.

연구진은 수학 경시대회 문제(AIME 2025), 논리 퍼즐(3-SAT), 그리고 영화 추천, 단어 정렬, 사물 개수 세기 같은 추론 문제에서 실험을 진행했다. Claude 3.7 Sonnet이라는 AI 모델을 사용한 결과, EGUR-5는 3-SAT 문제를 96.0%의 정확도로 풀면서 0.152달러의 비용만 들었다. 반면 CodeAct는 77.0%의 정확도에 0.257달러, Dynamic Cheatsheet는 89.9%의 정확도에 무려 76.353달러가 들었다.


전략을 만드는 전략, EGUR의 작동 원리

EGUR의 핵심 아이디어는 '전략을 만드는 전략'이다. 기존 AI 시스템들은 미리 정해진 문제 해결 방식을 사용하고, 단지 입력되는 텍스트만 조금씩 바꿨다. 하지만 EGUR는 각 문제마다 완전히 새로운 해결 방식을 실시간으로 만들어낸다. 이 시스템은 두 가지 핵심 부품으로 작동한다.

첫 번째는 '가이드(Guide)'다. 가이드는 현재 문제와 과거에 쌓인 경험을 바탕으로 여러 가지 해결 방법을 제안한다. 각 문제마다 여러 개의 방법을 만들어보는데, 많이 만들수록 더 다양한 시도가 가능하지만 그만큼 비용도 든다. 실험에서는 주로 5개씩 만들어봤다.

두 번째는 '통합자(Consolidator)'다. 통합자는 여러 방법을 실제로 시도해본 결과를 분석해서 기억으로 저장한다. 어떤 방법이 효과적이었는지, 어떤 실수가 반복되는지 등을 정리해둔다. 이 기억은 크게 두 종류로 나뉜다. 성공한 해결 방법을 문제 유형별로 저장하는 '전략 모음집'과, 일반적으로 유용한 팁과 주의사항을 정리한 '참고 노트'다.

연구진은 이런 전략을 수학적으로 정리하기 위해 '상태를 기억하는 과정'이라는 개념을 만들었다. 이는 입력을 받아 출력을 만들면서 동시에 내부 상태도 업데이트하는 함수로, 여러 단계를 순서대로 연결하거나 동시에 실행하거나 조건에 따라 다르게 동작하도록 만들 수 있다. 예를 들어 CodeAct라는 전략은 AI가 답을 내고 그 답으로 코드를 실행해보고 다시 답을 수정하는 과정을 반복한다.

문제마다 다른 최적의 방법, 만능 전략은 없다

연구진이 분석한 결과, 문제 유형에 따라 최적의 해결 방법이 완전히 달랐다. 클로드 3.7 Sonnet 모델을 사용한 실험에서 'Code'라는 전략은 논리 퍼즐과 단어 정렬에서 최고 성능을 보였지만, 수학 문제와 영화 추천에서는 최악의 성능을 기록했다. 비슷한 정확도를 가진 방법들 사이에서도 비용 차이가 컸다. 'Eval-Opt'는 'Self-Consistency'와 비슷한 정확도를 내면서도 비용은 절반만 들었다.

흥미롭게도 더 복잡하고 유연한 방법이 반드시 더 좋은 결과를 내지는 않았다. 이론적으로는 복잡한 '에이전트' 방식이 상황에 따라 단순한 방법을 흉내낼 수 있지만, 실제로는 적절한 선택을 하지 못하는 경우가 많았다. 심지어 성공하더라도 단순한 방법을 직접 쓰는 것보다 훨씬 많은 계산 비용이 들었다. 예를 들어 CodeAct는 가장 범용적인 방법이지만 대부분의 문제에서 최선의 선택이 아니었다.

EGUR는 이 문제를 해결하기 위해 여러 방법을 동시에 시도해보고 결과를 비교한다. 한 문제 당 여러 해결 방법을 만들고 실행해서 어떤 게 더 효과적인지 직접 확인하는 것이다. 실험 결과 단 하나의 방법만 시도하는 것보다 5개를 비교하는 게 대부분의 문제에서 더 나은 성능을 보였고, 특히 논리 퍼즐과 사물 개수 세기에서 큰 개선이 있었다.

학습된 전략의 실제 모습, 때로는 간단한 게 최고

EGUR가 실제로 어떤 걸 학습했는지 분석한 결과 몇 가지 일관된 패턴이 발견됐다. 코드를 사용하는 전략의 경우, EGUR는 어떤 프로그래밍 라이브러리를 쓸 수 있는지 명시하고, 유용한 코드 조각을 미리 포함시키며, 오류가 났을 때 어떻게 처리할지 추가하는 법을 배웠다. 더 일반적으로는 기본 방법이 실패할 때는 더 구체적으로 접근하되, 문제가 간단하면 오히려 단순하게 푸는 법을 익혔다.

특히 흥미로운 발견은 코드 실행 도구가 때로는 오히려 방해가 된다는 점이다. 사물 개수 세기 문제를 보면 직관적으로는 코드로 계산하는 게 좋을 것 같지만(많은 숫자를 더해야 하니까), EGUR는 상세한 지침이 담긴 단순한 질문 한 번으로 해결하는 방법으로 수렴했고 이게 더 정확하면서도 훨씬 저렴했다. 학습된 방법에는 텍스트를 어떻게 읽을지, 항목을 어떻게 분류할지, 수량 변화를 어떻게 처리할지에 대한 구체적인 안내가 포함됐다.

단어 정렬 문제에서도 EGUR는 두 가지 상황을 구분하는 법을 배웠다. 단순히 알파벳 순서로 정렬하는 문제에는 파이썬의 정렬 기능을 쓰고, 설명 속 논리적 오류를 찾는 문제에는 코드 대신 단계적 추론 방식을 사용했다. 이런 발견들은 EGUR가 도구를 쓸 때와 AI의 사고력에 의존할 때를 구분하고, 언제 계산을 많이 할지 적게 할지, 그리고 문제 특성에 맞게 질문 방식을 조정하는 실용적인 요령을 학습한다는 것을 보여준다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. EGUR는 기존의 기억 기능을 가진 AI와 어떻게 다른가요?

A. 기존 AI들은 과거 경험을 텍스트 형태로만 기억해서 질문에 덧붙이는 정도였습니다. EGUR는 기억을 바탕으로 문제 해결 방식 자체를 새로 만듭니다. 질문 문구뿐 아니라 AI의 답변 스타일 설정, 사용할 도구, 문제 풀이 순서까지 모두 상황에 맞게 바꿀 수 있어 훨씬 유연합니다.

Q2. EGUR의 비용 절감 효과는 어떻게 가능한가요?

A. EGUR는 문제 유형에 따라 딱 필요한 만큼만 계산합니다. 간단한 문제는 한 번의 질문으로, 복잡한 문제는 코드 실행이나 여러 번의 시도로 푸는 식입니다. 또한 이전에 성공한 방법을 저장해뒀다가 비슷한 문제가 나오면 바로 재사용하므로 반복 작업의 비용이 크게 줄어듭니다.

Q3. EGUR는 어떤 종류의 작업에 가장 효과적인가요?

A. EGUR는 수학 문제, 논리 퍼즐, 추론이 필요한 작업 등 다양한 분야에서 효과를 보였습니다. 특히 문제마다 최선의 접근법이 다르거나, 비슷한 유형의 문제가 자주 반복되거나, 비용을 줄이는 게 중요한 상황에서 큰 장점을 발휘합니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문 명: Experience-Guided Adaptation of Inference-Time Reasoning Strategies

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
명조 X 컴포즈커피 세미팝업 프리오픈 성료 게임동아
불안감 커지는 한미 간 통상 불확실성, 車 업계 특별법 조속 제정 촉구 (1) 오토헤럴드
독일인 75% "구매 의향 없다" 수치로 확인된 테슬라 브랜드 이미지 급락 (1) 오토헤럴드
지난해 韓시장 269% 폭풍 성장 후 폴스타가 꺼내든 다음 카드 '초고성능' 오토헤럴드
[LCK] DN 수퍼스와 DRX의 대반란 속 '혼돈 속 LCK 컵' 게임동아
엄마-아빠도 게이머였다…넷플릭스 다큐멘터리가 선사하는 추억 여행 화제[게임 인더스트리] (1) 게임동아
바이오하자드 레퀴엠, "그레이스로 도망친 적도, 레온으로 쓰러뜨릴 수 있다" (1) 게임동아
크래프톤, 3년간 1조 원 이상 주주환원 추진 게임동아
캐킷 ‘럽플레이스’, 설맞이 ‘만복 대축제’ 대규모 업데이트 게임동아
웹젠, '드래곤소드' 신규 캐릭터와 콘텐츠 확장에 천장까지 완화 게임동아
엔씨 ‘리니지 클래식’, 이틀 만에 누적 접속자 50만, 최대 동접 18만 돌파 게임동아
엔씨 '리니지 클래식', PC방 순위 4위 등극.. 자동 플레이 시스템 도입 검토 게임동아
그라비티, 신작 ‘라그나로크 오리진 클래식’ 홍콩 지역 CBT 참가자 모집 게임동아
크래프톤, 2025년 연간 매출 3조 3,266억, 영업이익 1조 544억 게임동아
‘조선협객전 클래식’, 온라인 쇼케이스 통해 상세 정보 공개 게임동아
타일 한 칸에서 시작된 작은 왕국. '드랍 더치' 개발한 슬리피 밀 스튜디오 게임동아
[롤짤] 1만 골드차 역전까지, LCK 친정팀 파괴 메타 게임메카
아이작의 번제 개발자 신작 ‘뮤제닉’ 메타크리틱 90점 (1) 게임메카
문화적 공로, 33 원정대 개발진 전원 기사 작위 받았다 게임메카
공포게임 아닙니다, '토마스와 친구들' 기반 신작 발표 게임메카
이 시간 HOT 댓글!
1/4