인공지능의 깊이 있는 사고, 구글 딥마인드가 해냈다...자연어 계획 분야 98% 정확도 달성 : 다나와 DPG는 내맘을 디피지

Evolving Deeper LLM Thinking

마인드 에볼루션으로 한 단계 도약...TravelPlanner 100%, Meeting Planning 98.4% 달성

구글 딥마인드가 2025년 1월 발표한 연구에 따르면, 마인드 에볼루션(Mind Evolution)이라는 새로운 진화 검색 전략을 통해 대규모 언어 모델의 추론 능력을 크게 향상시켰다. 기존의 1회성 추론 방식으로는 TravelPlanner에서 5.6%, Meeting Planning에서 20.8%의 낮은 성공률을 보였으나, 마인드 에볼루션을 적용한 제미니 1.5 프로는 각각 100%와 98.4%의 성공률을 달성했다. 특히 제미니 1.5 플래시 모델만으로도 TravelPlanner에서 95.6%의 높은 성공률을 기록했다.

진화적 접근으로 최적화...4개 집단 800회 시도로 최고 성능 달성

마인드 에볼루션은 10세대에 걸친 진화적 검색을 수행하며, 4개의 독립적인 집단에서 각각 5개의 대화를 진행하고 매 대화마다 4번의 순차적 개선을 시도한다. 이는 총 800회의 시도를 통해 최적의 해결책을 찾는 과정이다.

연구팀은 3세대마다 성과가 낮은 집단을 리셋하고, 매 세대마다 각 집단 간 이주를 통해 다양성을 유지하는 전략을 채택했다. 이러한 방식은 기존의 Best-of-N이나 Sequential Revision보다 더 효율적으로 해결책을 탐색할 수 있게 했다.

복잡도 증가에도 강건한 성능...도시 10개 방문 계획도 87.5% 해결

Trip Planning 과제에서는 방문 도시 수가 증가함에 따른 성능 변화를 분석했다. 도시 수가 3개에서 10개로 증가하는 상황에서도 마인드 에볼루션은 87.5%의 높은 성공률을 유지했다. Meeting Planning에서도 미팅 대상이 10명까지 증가하는 복잡한 상황에서 85% 이상의 성공률을 보였다. 이는 기존 방식들의 성능이 복잡도 증가에 따라 급격히 저하되는 것과 대조적이다.

컴퓨팅 효율성 확보...평균 API 비용 0.28달러로 95% 이상 성공

마인드 에볼루션은 TravelPlanner 테스트에서 평균 167회의 API 호출과 3.02M의 입력 토큰, 0.18M의 출력 토큰으로 95.2%의 성공률을 달성했다. 이는 약 0.28달러의 API 비용에 해당한다. Sequential Revision이 280회 호출에 2.75달러를 소비한 것과 비교하면 훨씬 효율적이다. Trip Planning에서도 평균 196회 호출로 94.1%의 성공률을 달성했다.

실험 분석으로 입증된 효과...비평적 사고와 텍스트 피드백의 중요성

연구팀은 실험을 통해 마인드 에볼루션의 핵심 요소들의 효과를 검증했다. 비평가 역할의 도입으로 성공률이 46.1%에서 71.1%로 향상되었고, 전략/질문 프롬프트를 추가하자 76.1%로 개선되었다. 텍스트 피드백과 LLM을 활용한 리셋을 모두 적용하자 최종적으로 95.6%까지 성능이 향상되었다.

StegPoet으로 증명한 확장성...시와 에세이의 숨겨진 메시지 87% 해독

새로운 벤치마크 StegPoet에서도 마인드 에볼루션의 우수성이 입증되었다. 에세이나 시에 숨겨진 메시지를 찾아내는 이 과제에서 제미니 1.5 프로는 검증 세트의 87.1%, 테스트 세트의 79.2%를 성공적으로 해결했다. 반면 Best-of-N은 검증 세트에서 1%의 성공률을 기록했고, Sequential Revision도 19.8%에 그쳤다. 본 연구는 형식적인 해결기(formal solver) 없이도 자연어 계획 문제에서 최고 수준의 성과를 달성한 첫 사례로 평가받고 있다.

해당 기사에서 인용한 논문은 링크에서 확인할 수 있다.

이미지출처: 구글딥마인드 이미지 편집

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

오픈AI, 챗GPT '슈퍼 AI 비서' 발전 계획 공개… "헬스장 가입부터 변호사 연락까지" (1)	AI matters
24시간 만에 업무 활용 가능 수준 AI 솔루션 완성하는 로봇? MS 차세대 에이전트 기술 공개	AI matters
"AI 때문에 망했다" vs "AI로 대박났다"... 성패를 가르는 이것	AI matters
AI 뒤처진 애플, iOS 19 대거 개편… “AI보다 디자인 변화가 핵심”	AI matters
내 캐릭터로 애니메이션 제작 가능… 캐릭터AI, 씬·아바타FX·스트림 등 멀티모달 창작 기능 공개	AI matters
이번엔 모바일서 통할까… 어도비, 생성형 AI 기능 탑재 포토샵 안드로이드 버전 출시	AI matters
美 빅3 음반사, AI 기업과 음악 활용 라이선스 협상 추진	AI matters
폭스바겐 노조 2만명 해고 동의, 볼프스부르크 공장 '4일 근무제' 전환도 (1)	오토헤럴드
'치열한 경쟁 속 BYD 압도적' 5월 中 신에너지차 판매 꾸준한 상승 중	오토헤럴드
폭스바겐, 미국에 수십억 달러 투자로 상호관세 판도 바꿀 특혜에 기대감	오토헤럴드
볼보 전기 SUV 'EX30', EV 어워즈 2025 ‘심사위원 선정 혁신 전기차’ 등극	오토헤럴드
폴스타, 'EV 어워즈 2025'서 폴스타4 '심사위원 선정 혁신 전기차' 수상	오토헤럴드
폴스타 4, EV 어워즈 2025 ‘심사위원 선정 혁신 전기차’ 수상	글로벌오토뉴스
기아 EV4, ‘대한민국 올해의 전기차’ 선정…아이오닉9은 소비자 선택상 수상	글로벌오토뉴스
한국타이어, 미국 청소년 단체 설립에 2만 달러 기부…지역 사회 지원 활동 지속	글로벌오토뉴스
볼보 EX30, ‘EV 어워즈 2025’ 심사위원 선정 올해의 전기차 수상	글로벌오토뉴스
포드·현대차, 美 5월 판매 증가…관세 우려에 소비자 구매 앞당겨	글로벌오토뉴스
중국의 희토류 수출 규제, 글로벌 자동차 산업 생산 차질 우려	글로벌오토뉴스
독일 자동차 산업, 바닥 뚫나…업황지수 또 하락	글로벌오토뉴스
젬블로컴퍼니, 라온, 쿠키런 보드게임 앞세워 천안 K-컬처 박람회 참가	게임동아
젠슨 황 CEO, 스위치 2 휴대용 기기 중 가장 강력하다 (1)	게임메카
대한민국 21대 대통령 된 이재명의 게임 공약은? (1)	게임메카
PS5에서 60FPS로 오픈월드를, 위쳐 4 테크 데모 공개	게임메카
350만 장 판매, 엘든 링 밤의 통치자 2인 모드 추가한다	게임메카
발더스 3 흥행 후, 위자드 오브 더 코스트 D&D 신작 발표 (1)	게임메카
'로스트아크' 스마일게이트알피지, 1~2월 매출 858억 원	게임메카
"진짜 M은 여기에" BMW M FEST 2025, 고성능 차 저변 확대로 대 성황	오토헤럴드
'여전히 취약한 산업 생태계' 볼보, EX90 부품 부족으로 美 생산 중단	오토헤럴드
5월 국내 완성차 판매 '흔들 흔들'… 위태로운 내수 불안한 수출	오토헤럴드
현대차, 美 J.D.파워 EV 앱 평가 2년 연속 1위…'디지털 경험' 선도 입증	오토헤럴드
현대차ㆍ기아 "첫 출발하기 좋은 차" 14개 중 7개 부문 싹쓸이 기염	오토헤럴드
"도요타보다 10년 빨랐다" 현대차, 39년만에 美 누적 1700만대 돌파	오토헤럴드
“기술의 경계를 넓히다”… 현대차그룹, FISITA서 미래 모빌리티 비전 천명	오토헤럴드
제네시스, 브랜드 역사상 가장 빠른 'GV60 마그마' 3분기 양산 돌입	오토헤럴드
EV 트렌드 코리아 2025 개막… 올해의 전기차 어워즈 '기아 EV9' 수상	오토헤럴드
도요타, 그룹의 시작 '도요타 직기' 비상장화 추진... 1조 7000억원 투입	오토헤럴드
[EV 트렌드] '유럽 확장에 나선 中 전기차' 니오, EU 7개국으로 추가 진출	오토헤럴드
"닛산 역사상 가장 공기역학적"... 원조 전기차 '리프' 3세대 버전 디자인 공개	오토헤럴드
"아이오닉 5 적수가 온다" 르노 세닉 E-Tech, 443km 국내 인증 완료	오토헤럴드
속도보다 연비 중심 경제운전 '2025 강원 국제 모터 페스타 에코랠리’ 개최	오토헤럴드
“무쏘 EV 전기 픽업 시장 노크”…KGM, EV 트렌드 코리아 2025 참가	오토헤럴드
GM 한국사업장, 5월 판매 5만 대 돌파…트랙스 크로스오버 실적 견인	글로벌오토뉴스
기아, 5월 글로벌 판매 27만 대 육박…스포티지 최다 판매	글로벌오토뉴스
트럼프의 시간은 끝났다. 그리고...	글로벌오토뉴스
현대·기아 주춤, 르노코리아·KGM 반등… 5월 완성차 실적 희비 엇갈려	글로벌오토뉴스
5월 자동차 판매 순위, 쏘렌토 1위 탈환… 팰리세이드만 유일하게 증가세	글로벌오토뉴스
테슬라, 오스틴에서 무인 모델 Y 로보택시 테스트 순항… 6월 첫 인도 예정	글로벌오토뉴스
토요타, 영국 공장에서 GR 코롤라 생산 결정… 유럽 시장 공략 강화	글로벌오토뉴스
토요타, 4월 글로벌 판매 12% 증가… 다이하츠 회복세 뚜렷	글로벌오토뉴스
스카니아, 20억 유로 규모 중국 생산 허브 2025년 4분기 가동	글로벌오토뉴스
중국 NEV, 소비자 만족도 '역대 최고'...여성 구매자 증가세 '두드러져'	글로벌오토뉴스
BYD, 5월 NEV 판매 보합세 속 해외 판매 '고공 성장'...배터리 탑재량 '두 배' 증가	글로벌오토뉴스
토요타, 액체 수소 엔진차로 24시간 내구레이스 완주… 실증 성공	글로벌오토뉴스
쉘, 함부르크에 메가와트급 충전 인프라 테스트 센터 건설...상용차 및 선박 전기화 박차	글로벌오토뉴스
기아 EV4, 한국에서만 생산...미국 관세 장벽 넘을까?	글로벌오토뉴스
노르웨이 5월 신차 등록 급증, 전기차 93.9%...테슬라 1위, 중국차 약진	글로벌오토뉴스
한국타이어, TBX 고객 대상 ‘지갑든든 혜택두둑’ 프로모션	글로벌오토뉴스
KG모빌리티, ‘EV 트렌드 코리아 2025’ 참가… 무쏘 EV 등 전기차 3종 전시	글로벌오토뉴스
캐딜락, ‘2025 디오니소스 와인페어’서 리릭 전시	글로벌오토뉴스
람보르기니, ‘드림핵 댈러스 2025’ 참가	글로벌오토뉴스
한국타이어, WRC 사르데냐 랠리 타이어 독점 공급	글로벌오토뉴스
현대차, 세계 최대 모빌리티 컨퍼런스서 '넥쏘' 공개	글로벌오토뉴스
혼다코리아, '더 고'에서 고객 참여형 토크쇼 개최	글로벌오토뉴스
현대자동차그룹, U.S. 뉴스 '10대를 위한 최고의 차량' 최다 선정...4년 연속 기록	글로벌오토뉴스
현대차그룹, ‘10대를 위한 최고의 차량’ 7개 부문 수상	글로벌오토뉴스
식음료업계, 사상 최장 폭염 앞두고 여름 한정 메뉴 경쟁 본격화 (1)	뉴스탭
AMD, 하이엔드 GPU 시장 재도전 예고…RX 9080 XT와 RDNA 4 강화 모델 준비 중	뉴스탭
블랙베리 클래식, 중국 기업 손에서 부활…'Zinwa Q25'로 재탄생	뉴스탭
로스트아크,단독 미디어아트 전시 ‘빛의 여정’ 개최한다	게임동아
메타, 기존 통념 뒤집는 연구 결과 공개… “추론 시간 짧으면 LLM 정확도 34.5% 향상”	AI matters
'젠지', 발로란트 마스터스 토론토 스위스 스테이지 출전	게임동아
단 2,400개 예제로 17만개 학습 능력 압도한다? 아마존이 만든 검색 혁명 's3' 뭐 길래	AI matters
클래스 ‘뇌신’ 리부트! 엔씨 리니지M, ‘라이징 스톰’ 사전예약 진행	게임동아
[Q&AI] 21대 대선 당선자 확정 시간 예측, 어디가 정확할까? ‘그록 vs. 퍼플렉시티’	AI matters
"정답 몰라도 괜찮다"... AI 강화학습의 상식을 뒤엎은 워싱턴대 연구	AI matters
AI 에이전트 24개 모아 놨더니 신기한 일이… “AI끼리 대화하면서 '암묵적 룰' 만들어”	AI matters
한국, 생성형 AI 유료 구독자 7배 급증… 과기부 ‘AI 이용자 조사’ 결과 충격	AI matters
로봇에게 "왼쪽 물건 가져와"라고 하면 정말 이해할까? 로봇의 공간 인지 기술	AI matters
삼성, 갤럭시 S26에 퍼플렉시티 AI 탑재 제휴 임박... 구글 의존도 탈피 시도	AI matters
‘인터넷의 여왕’ 메리 미커, 5년 만에 AI 리포트 발표… “AI는 기술이 아닌 인프라”	AI matters
권익위, 문체부에 스크린골프장 안전 높이 강화 권고	연합뉴스
초기 AI 투자자 엘라드 길, 다음 대형 투자처로 'AI 기반 롤업' 선택	AI matters
트럼프 행정부, 중국 대상 반도체 설계 소프트웨어 수출 통제 강화	AI matters
메타, AI로 제품 위험 평가 자동화한다... "90% 업데이트 검토 맡길 것"	AI matters
백악관, 트럼프 비서실장 휴대전화 해킹 조사 착수… AI 음성 조작으로 고위관리들 속여	AI matters
구글, 지메일 모바일 앱에 AI 요약 기능 추가... 긴 이메일도 한눈에	AI matters
[체험기] “소리 지르며 플레이했다”. 새로운 방식의 협동 공포 게임 ‘백룸 컴퍼니’	게임동아
크래프톤, 인도 최고 권위의 광고 시상식 ‘큐리어스’에서 본상 수상	게임동아
데브시스터즈 '쿠키런 킹덤', ‘다시 열정의 전장으로’ 업데이트 진행	게임동아
‘우크라이나 침공 묘사 담겼다’, 러시아 군사 선전 게임이 스팀에 출시	게임동아
러시아 법원, 워게이밍 '극단주의 단체' 가담 승인	게임동아
현직 치과의사가 US오픈 골프대회 출전…예선 합격	연합뉴스
‘FC 모바일’의 한국 대표 2인, EA 글로벌 행사 ‘FC 모바일 페스티벌’ 출전	게임동아
‘블루 아카’, 무신사와 컬래버레이션 예고	게임동아
쿠로게임즈 ‘명조' 일산 킨텍스 제2전시장에서 ‘띵조 페스티벌’ 개최	게임동아
[한주의게임소식] "아직은 지켜봐야?" 중국 첫발 내디딘 '니케'	게임동아
스마일게이트 에픽세븐에 신규 한정 영웅 ‘로빈’ 등장!	게임동아
‘크래시 피버’ 애니메이션 ‘불꽃소방대 3장’과 컬래버레이션 진행	게임동아
[겜덕연구소] 성능 구더기 수준! 먹는 순간 짜증이 샘솟는 레트로 게임 속 무기들!! (1)	게임동아
웹젠, ‘드래곤소드’ CBT 해보니...스킬 액션과 오픈월드 콘텐츠 인상적	게임동아

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

인공지능의 깊이 있는 사고, 구글 딥마인드가 해냈다...자연어 계획 분야 98% 정확도 달성

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

인공지능의 깊이 있는 사고, 구글 딥마인드가 해냈다...자연어 계획 분야 98% 정확도 달성

공유하기

공감/비공감