비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

인공지능의 깊이 있는 사고, 구글 딥마인드가 해냈다...자연어 계획 분야 98% 정확도 달성

2025.01.22. 18:17:11
조회 수
502
14
댓글 수
1

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

Evolving Deeper LLM Thinking


마인드 에볼루션으로 한 단계 도약...TravelPlanner 100%, Meeting Planning 98.4% 달성

구글 딥마인드가 2025년 1월 발표한 연구에 따르면, 마인드 에볼루션(Mind Evolution)이라는 새로운 진화 검색 전략을 통해 대규모 언어 모델의 추론 능력을 크게 향상시켰다. 기존의 1회성 추론 방식으로는 TravelPlanner에서 5.6%, Meeting Planning에서 20.8%의 낮은 성공률을 보였으나, 마인드 에볼루션을 적용한 제미니 1.5 프로는 각각 100%와 98.4%의 성공률을 달성했다. 특히 제미니 1.5 플래시 모델만으로도 TravelPlanner에서 95.6%의 높은 성공률을 기록했다.



진화적 접근으로 최적화...4개 집단 800회 시도로 최고 성능 달성

마인드 에볼루션은 10세대에 걸친 진화적 검색을 수행하며, 4개의 독립적인 집단에서 각각 5개의 대화를 진행하고 매 대화마다 4번의 순차적 개선을 시도한다. 이는 총 800회의 시도를 통해 최적의 해결책을 찾는 과정이다.

연구팀은 3세대마다 성과가 낮은 집단을 리셋하고, 매 세대마다 각 집단 간 이주를 통해 다양성을 유지하는 전략을 채택했다. 이러한 방식은 기존의 Best-of-N이나 Sequential Revision보다 더 효율적으로 해결책을 탐색할 수 있게 했다.

복잡도 증가에도 강건한 성능...도시 10개 방문 계획도 87.5% 해결

Trip Planning 과제에서는 방문 도시 수가 증가함에 따른 성능 변화를 분석했다. 도시 수가 3개에서 10개로 증가하는 상황에서도 마인드 에볼루션은 87.5%의 높은 성공률을 유지했다. Meeting Planning에서도 미팅 대상이 10명까지 증가하는 복잡한 상황에서 85% 이상의 성공률을 보였다. 이는 기존 방식들의 성능이 복잡도 증가에 따라 급격히 저하되는 것과 대조적이다.

컴퓨팅 효율성 확보...평균 API 비용 0.28달러로 95% 이상 성공

마인드 에볼루션은 TravelPlanner 테스트에서 평균 167회의 API 호출과 3.02M의 입력 토큰, 0.18M의 출력 토큰으로 95.2%의 성공률을 달성했다. 이는 약 0.28달러의 API 비용에 해당한다. Sequential Revision이 280회 호출에 2.75달러를 소비한 것과 비교하면 훨씬 효율적이다. Trip Planning에서도 평균 196회 호출로 94.1%의 성공률을 달성했다.

실험 분석으로 입증된 효과...비평적 사고와 텍스트 피드백의 중요성

연구팀은 실험을 통해 마인드 에볼루션의 핵심 요소들의 효과를 검증했다. 비평가 역할의 도입으로 성공률이 46.1%에서 71.1%로 향상되었고, 전략/질문 프롬프트를 추가하자 76.1%로 개선되었다. 텍스트 피드백과 LLM을 활용한 리셋을 모두 적용하자 최종적으로 95.6%까지 성능이 향상되었다.

StegPoet으로 증명한 확장성...시와 에세이의 숨겨진 메시지 87% 해독

새로운 벤치마크 StegPoet에서도 마인드 에볼루션의 우수성이 입증되었다. 에세이나 시에 숨겨진 메시지를 찾아내는 이 과제에서 제미니 1.5 프로는 검증 세트의 87.1%, 테스트 세트의 79.2%를 성공적으로 해결했다. 반면 Best-of-N은 검증 세트에서 1%의 성공률을 기록했고, Sequential Revision도 19.8%에 그쳤다. 본 연구는 형식적인 해결기(formal solver) 없이도 자연어 계획 문제에서 최고 수준의 성과를 달성한 첫 사례로 평가받고 있다.

해당 기사에서 인용한 논문은 링크에서 확인할 수 있다.

이미지출처: 구글딥마인드 이미지 편집

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
퍼스트서버 피드백 수렴, 던파 '천해천'으로 반등 노린다 게임메카
[오늘의 스팀] 철권 8, 시즌 3 평가 ‘압도적으로 부정적’ (1) 게임메카
[생활 속 IT] 벚꽃 명소·개화 시기 한눈에, 카카오맵 ‘벚꽃 지도’ IT동아
은행털이 액션 페이데이 VR게임 '에이스 하이' 3분기 출시 게임메카
EA와 결별한 피파의 공식 신작, ‘피파 히어로즈’ 영상 공개 게임메카
'신의 눈이라더니' BYD 자율주행 논란, 기술 경쟁 속 드러난 한계 오토헤럴드
"출시도 전에 전면 중단" 소니·혼다의 '아필라' 양산 앞두고 급제동 오토헤럴드
현대차 무뇨스 사장 "전동화 넘어 소프트웨어·기술 기업으로 전환 가속" 오토헤럴드
'공동 개발의 두 얼굴' 포르쉐·아우디, 전기차 플랫폼 공유 전략 흔들 오토헤럴드
"살아남으려면 바뀌어야 한다" 토요타, 협력사 484곳에 '생존 경고' 오토헤럴드
생기 넘치는 섬 생활, 친구모아 아일랜드 체험판 배포 게임메카
수입차 10대 중 8대 이상 ‘친환경차' 모델 다양화로 선택 폭 확대 오토헤럴드
[기자 수첩] 치솟는 유가에 주목 받는 '에탄올 혼합 휘발유' 우리는 왜? 오토헤럴드
명작 MMO의 귀환 ‘에버퀘스트 레전드’ 7월 출시 게임메카
원고 넣으면 3분 만에 책 한 권 뚝딱…루미너리북스, AI가 내지 디자인까지 자동화 AI matters
ARM, AGI 시대 겨냥한 첫 자체 AI 칩 공개 - 데이터센터용 CPU·GPU 직접 설계 AI matters
구글, AI 모델 압축 기술 터보퀀트 공개 - 성능 손실 없이 모델 크기 절반으로 AI matters
클로드, 전 세계 동시 장애 발생 - 앤트로픽, 수시간 만에 복구 완료 AI matters
구글 제미나이, 다크웹 하루 1000만 건 분석... AI 위협 인텔리전스 서비스 출시 AI matters
챗GPT 쇼핑 기능 전면 개편 - 인스턴트 결제 포기하고 상품 탐색에 집중 AI matters
이 시간 HOT 댓글!
1/4