비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

AWS, 문제 풀 때마다 학습하는 AI 개발... 경험 쌓을수록 저렴하고 정확해

2025.11.21. 16:00:11
조회 수
57
2
댓글 수
1

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

사람이 문제를 풀 때 과거 경험을 떠올려 더 나은 방법을 선택하듯, AI도 이제 경험을 통해 학습한다. AWS AI와 펜실베이니아대학교 연구진이 개발한 EGUR(Experience-Guided Reasoner)는 문제를 해결할 때마다 그 경험을 기억하고, 다음에 비슷한 문제가 나오면 더 효율적인 방법으로 접근하는 AI 시스템이다. 기존 AI가 매번 같은 방식으로 문제를 풀었다면, EGUR는 상황에 맞는 최적의 전략을 실시간으로 만들어낸다.

정확도는 높이고 비용은 100분의 1로, 경험이 만든 차이

EGUR는 다섯 가지 어려운 테스트에서 기존 최고 성능 시스템보다 최대 14% 더 정확한 답을 냈다. 특히 논리 문제인 3-SAT에서는 기존 시스템인 Mem0보다 14% 높은 정확도를 기록했다. 더 놀라운 건 비용이다. 사물 개수 세기 문제에서 EGUR는 기존 시스템인 Dynamic Cheatsheet보다 111배 적은 비용으로 더 정확한 답을 냈다. 게다가 이런 성능 향상은 시스템이 경험을 쌓을수록 더욱 두드러졌다.

연구진은 수학 경시대회 문제(AIME 2025), 논리 퍼즐(3-SAT), 그리고 영화 추천, 단어 정렬, 사물 개수 세기 같은 추론 문제에서 실험을 진행했다. Claude 3.7 Sonnet이라는 AI 모델을 사용한 결과, EGUR-5는 3-SAT 문제를 96.0%의 정확도로 풀면서 0.152달러의 비용만 들었다. 반면 CodeAct는 77.0%의 정확도에 0.257달러, Dynamic Cheatsheet는 89.9%의 정확도에 무려 76.353달러가 들었다.


전략을 만드는 전략, EGUR의 작동 원리

EGUR의 핵심 아이디어는 '전략을 만드는 전략'이다. 기존 AI 시스템들은 미리 정해진 문제 해결 방식을 사용하고, 단지 입력되는 텍스트만 조금씩 바꿨다. 하지만 EGUR는 각 문제마다 완전히 새로운 해결 방식을 실시간으로 만들어낸다. 이 시스템은 두 가지 핵심 부품으로 작동한다.

첫 번째는 '가이드(Guide)'다. 가이드는 현재 문제와 과거에 쌓인 경험을 바탕으로 여러 가지 해결 방법을 제안한다. 각 문제마다 여러 개의 방법을 만들어보는데, 많이 만들수록 더 다양한 시도가 가능하지만 그만큼 비용도 든다. 실험에서는 주로 5개씩 만들어봤다.

두 번째는 '통합자(Consolidator)'다. 통합자는 여러 방법을 실제로 시도해본 결과를 분석해서 기억으로 저장한다. 어떤 방법이 효과적이었는지, 어떤 실수가 반복되는지 등을 정리해둔다. 이 기억은 크게 두 종류로 나뉜다. 성공한 해결 방법을 문제 유형별로 저장하는 '전략 모음집'과, 일반적으로 유용한 팁과 주의사항을 정리한 '참고 노트'다.

연구진은 이런 전략을 수학적으로 정리하기 위해 '상태를 기억하는 과정'이라는 개념을 만들었다. 이는 입력을 받아 출력을 만들면서 동시에 내부 상태도 업데이트하는 함수로, 여러 단계를 순서대로 연결하거나 동시에 실행하거나 조건에 따라 다르게 동작하도록 만들 수 있다. 예를 들어 CodeAct라는 전략은 AI가 답을 내고 그 답으로 코드를 실행해보고 다시 답을 수정하는 과정을 반복한다.

문제마다 다른 최적의 방법, 만능 전략은 없다

연구진이 분석한 결과, 문제 유형에 따라 최적의 해결 방법이 완전히 달랐다. 클로드 3.7 Sonnet 모델을 사용한 실험에서 'Code'라는 전략은 논리 퍼즐과 단어 정렬에서 최고 성능을 보였지만, 수학 문제와 영화 추천에서는 최악의 성능을 기록했다. 비슷한 정확도를 가진 방법들 사이에서도 비용 차이가 컸다. 'Eval-Opt'는 'Self-Consistency'와 비슷한 정확도를 내면서도 비용은 절반만 들었다.

흥미롭게도 더 복잡하고 유연한 방법이 반드시 더 좋은 결과를 내지는 않았다. 이론적으로는 복잡한 '에이전트' 방식이 상황에 따라 단순한 방법을 흉내낼 수 있지만, 실제로는 적절한 선택을 하지 못하는 경우가 많았다. 심지어 성공하더라도 단순한 방법을 직접 쓰는 것보다 훨씬 많은 계산 비용이 들었다. 예를 들어 CodeAct는 가장 범용적인 방법이지만 대부분의 문제에서 최선의 선택이 아니었다.

EGUR는 이 문제를 해결하기 위해 여러 방법을 동시에 시도해보고 결과를 비교한다. 한 문제 당 여러 해결 방법을 만들고 실행해서 어떤 게 더 효과적인지 직접 확인하는 것이다. 실험 결과 단 하나의 방법만 시도하는 것보다 5개를 비교하는 게 대부분의 문제에서 더 나은 성능을 보였고, 특히 논리 퍼즐과 사물 개수 세기에서 큰 개선이 있었다.

학습된 전략의 실제 모습, 때로는 간단한 게 최고

EGUR가 실제로 어떤 걸 학습했는지 분석한 결과 몇 가지 일관된 패턴이 발견됐다. 코드를 사용하는 전략의 경우, EGUR는 어떤 프로그래밍 라이브러리를 쓸 수 있는지 명시하고, 유용한 코드 조각을 미리 포함시키며, 오류가 났을 때 어떻게 처리할지 추가하는 법을 배웠다. 더 일반적으로는 기본 방법이 실패할 때는 더 구체적으로 접근하되, 문제가 간단하면 오히려 단순하게 푸는 법을 익혔다.

특히 흥미로운 발견은 코드 실행 도구가 때로는 오히려 방해가 된다는 점이다. 사물 개수 세기 문제를 보면 직관적으로는 코드로 계산하는 게 좋을 것 같지만(많은 숫자를 더해야 하니까), EGUR는 상세한 지침이 담긴 단순한 질문 한 번으로 해결하는 방법으로 수렴했고 이게 더 정확하면서도 훨씬 저렴했다. 학습된 방법에는 텍스트를 어떻게 읽을지, 항목을 어떻게 분류할지, 수량 변화를 어떻게 처리할지에 대한 구체적인 안내가 포함됐다.

단어 정렬 문제에서도 EGUR는 두 가지 상황을 구분하는 법을 배웠다. 단순히 알파벳 순서로 정렬하는 문제에는 파이썬의 정렬 기능을 쓰고, 설명 속 논리적 오류를 찾는 문제에는 코드 대신 단계적 추론 방식을 사용했다. 이런 발견들은 EGUR가 도구를 쓸 때와 AI의 사고력에 의존할 때를 구분하고, 언제 계산을 많이 할지 적게 할지, 그리고 문제 특성에 맞게 질문 방식을 조정하는 실용적인 요령을 학습한다는 것을 보여준다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. EGUR는 기존의 기억 기능을 가진 AI와 어떻게 다른가요?

A. 기존 AI들은 과거 경험을 텍스트 형태로만 기억해서 질문에 덧붙이는 정도였습니다. EGUR는 기억을 바탕으로 문제 해결 방식 자체를 새로 만듭니다. 질문 문구뿐 아니라 AI의 답변 스타일 설정, 사용할 도구, 문제 풀이 순서까지 모두 상황에 맞게 바꿀 수 있어 훨씬 유연합니다.

Q2. EGUR의 비용 절감 효과는 어떻게 가능한가요?

A. EGUR는 문제 유형에 따라 딱 필요한 만큼만 계산합니다. 간단한 문제는 한 번의 질문으로, 복잡한 문제는 코드 실행이나 여러 번의 시도로 푸는 식입니다. 또한 이전에 성공한 방법을 저장해뒀다가 비슷한 문제가 나오면 바로 재사용하므로 반복 작업의 비용이 크게 줄어듭니다.

Q3. EGUR는 어떤 종류의 작업에 가장 효과적인가요?

A. EGUR는 수학 문제, 논리 퍼즐, 추론이 필요한 작업 등 다양한 분야에서 효과를 보였습니다. 특히 문제마다 최선의 접근법이 다르거나, 비슷한 유형의 문제가 자주 반복되거나, 비용을 줄이는 게 중요한 상황에서 큰 장점을 발휘합니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문 명: Experience-Guided Adaptation of Inference-Time Reasoning Strategies

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
AWS, 문제 풀 때마다 학습하는 AI 개발... 경험 쌓을수록 저렴하고 정확해 (1) AI matters
AI가 교수보다 더 깐깐해… AI한테 채점 맡겼더니, 학생 10명 중 4명 점수 떨어져 (1) AI matters
"이전 답변 틀렸다" 한마디에 무너지는 AI... 같은 질문도 ‘대화 형식’으로 하면 답 달라져 AI matters
'불수능'이었다는 2026학년도 수능시험, 최신 AI들에게 풀게 한다면? 다나와
'최고의 아첨꾼AI' Grok, “엘론 머스크는 오타니를 제외하면 가장 뛰어나” 다나와
"AI가 버블이라고?ㅋㅋ" 엔비디아, 3분기 실적 '어닝 서프라이즈'...뉴욕증시 급등세로 마감 다나와
오픈AI, 장시간 코딩에 특화된 ‘GPT-5.1-Codex-Max’ 모델 공개 다나와
AI로 곰 출몰 위험 한눈에…日 조치대, 19개 지역 ‘곰 조우 예측 지도’ 공개 다나와
AI에 코딩 도구 주면 정답률 19%↑…풀이 과정은 41% 더 형편없어져 AI matters
챗GPT에게 "어느 나라가 더 나쁜가?" 물었더니... AI도 국가 차별한다 (1) AI matters
긴 문서 속 숨은 해킹 명령어, 이제 AI가 스스로 찾아 차단한다 AI matters
디노티시아, SC25서 VDPU 기반 FPGA로 'AI 반도체' 성능 알린다 IT동아
AI 여러 개 쓰면 답 정확해진다더니... 토큰비용 5배에 정답률은 제자리 AI matters
챗GPT가 원전을 부른다… 데이터센터 전력 수요 폭증에 기업들 원전에 '올인' AI matters
구글 CEO, “AI 맹신 금물”… 급격한 확산 속 과열 우려 제기 다나와
윈도우 11, AI 비서 기능 강화되지만… 새 악성코드 위협도 동반 (1) 다나와
폭스뉴스, 팔란티어와 손잡고 AI 기반 뉴스룸 구축… “미래 뉴스 절반은 AI가 만든다” 전망도 다나와
인도, AI 확산 영향으로 초보 개발자 일자리 최대 25퍼센트 감소 다나와
"AI가 CCTV 속 폭력 포착"... 제미나이가 ‘주먹 드는 순간’ 95% 정확도로 잡는다 AI matters
"챗GPT도 속았다"... AI에게 '답 없는 질문'하자 60% 이상 틀려 AI matters
이 시간 HOT 댓글!
1/4