인공지능의 깊이 있는 사고, 구글 딥마인드가 해냈다...자연어 계획 분야 98% 정확도 달성 : 다나와 DPG는 내맘을 디피지

Evolving Deeper LLM Thinking

마인드 에볼루션으로 한 단계 도약...TravelPlanner 100%, Meeting Planning 98.4% 달성

구글 딥마인드가 2025년 1월 발표한 연구에 따르면, 마인드 에볼루션(Mind Evolution)이라는 새로운 진화 검색 전략을 통해 대규모 언어 모델의 추론 능력을 크게 향상시켰다. 기존의 1회성 추론 방식으로는 TravelPlanner에서 5.6%, Meeting Planning에서 20.8%의 낮은 성공률을 보였으나, 마인드 에볼루션을 적용한 제미니 1.5 프로는 각각 100%와 98.4%의 성공률을 달성했다. 특히 제미니 1.5 플래시 모델만으로도 TravelPlanner에서 95.6%의 높은 성공률을 기록했다.

진화적 접근으로 최적화...4개 집단 800회 시도로 최고 성능 달성

마인드 에볼루션은 10세대에 걸친 진화적 검색을 수행하며, 4개의 독립적인 집단에서 각각 5개의 대화를 진행하고 매 대화마다 4번의 순차적 개선을 시도한다. 이는 총 800회의 시도를 통해 최적의 해결책을 찾는 과정이다.

연구팀은 3세대마다 성과가 낮은 집단을 리셋하고, 매 세대마다 각 집단 간 이주를 통해 다양성을 유지하는 전략을 채택했다. 이러한 방식은 기존의 Best-of-N이나 Sequential Revision보다 더 효율적으로 해결책을 탐색할 수 있게 했다.

복잡도 증가에도 강건한 성능...도시 10개 방문 계획도 87.5% 해결

Trip Planning 과제에서는 방문 도시 수가 증가함에 따른 성능 변화를 분석했다. 도시 수가 3개에서 10개로 증가하는 상황에서도 마인드 에볼루션은 87.5%의 높은 성공률을 유지했다. Meeting Planning에서도 미팅 대상이 10명까지 증가하는 복잡한 상황에서 85% 이상의 성공률을 보였다. 이는 기존 방식들의 성능이 복잡도 증가에 따라 급격히 저하되는 것과 대조적이다.

컴퓨팅 효율성 확보...평균 API 비용 0.28달러로 95% 이상 성공

마인드 에볼루션은 TravelPlanner 테스트에서 평균 167회의 API 호출과 3.02M의 입력 토큰, 0.18M의 출력 토큰으로 95.2%의 성공률을 달성했다. 이는 약 0.28달러의 API 비용에 해당한다. Sequential Revision이 280회 호출에 2.75달러를 소비한 것과 비교하면 훨씬 효율적이다. Trip Planning에서도 평균 196회 호출로 94.1%의 성공률을 달성했다.

실험 분석으로 입증된 효과...비평적 사고와 텍스트 피드백의 중요성

연구팀은 실험을 통해 마인드 에볼루션의 핵심 요소들의 효과를 검증했다. 비평가 역할의 도입으로 성공률이 46.1%에서 71.1%로 향상되었고, 전략/질문 프롬프트를 추가하자 76.1%로 개선되었다. 텍스트 피드백과 LLM을 활용한 리셋을 모두 적용하자 최종적으로 95.6%까지 성능이 향상되었다.

StegPoet으로 증명한 확장성...시와 에세이의 숨겨진 메시지 87% 해독

새로운 벤치마크 StegPoet에서도 마인드 에볼루션의 우수성이 입증되었다. 에세이나 시에 숨겨진 메시지를 찾아내는 이 과제에서 제미니 1.5 프로는 검증 세트의 87.1%, 테스트 세트의 79.2%를 성공적으로 해결했다. 반면 Best-of-N은 검증 세트에서 1%의 성공률을 기록했고, Sequential Revision도 19.8%에 그쳤다. 본 연구는 형식적인 해결기(formal solver) 없이도 자연어 계획 문제에서 최고 수준의 성과를 달성한 첫 사례로 평가받고 있다.

해당 기사에서 인용한 논문은 링크에서 확인할 수 있다.

이미지출처: 구글딥마인드 이미지 편집

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

귀여운 외계인 언어를 해석하라, '피꾸 어드벤처' 공개	게임메카
원숭이 섬 느낌 어드벤처 '데포니아' 스팀서 무료 배포	게임메카
치안·비용·국제정세에도, GDC 2027 샌프란시스코 개최	게임메카
장비 제작은 물론 연애도하고 코딩도 하고 색다른 농사 게임들	게임동아
닉네임도 디지털 자산으로 ‘메이플스토리 N’, NFT 1억 2,000만 네소에 거래 (1)	게임동아
"응답자 95%가 AI 활용", 유니티 ‘2026 유니티 게임 개발 보고서’ 공개	게임동아
넷마블 '뱀피르', 신규 클래스 ‘아카샤’ 추가와 글로벌 서버 오픈	게임동아
엘든링 공식 오케스트라 내한... 5월 3일 서울 롯데콘서트홀에서 개최	게임동아
국내 첫 엘든 링 오케스트라 콘서트, 5월 서울서 열린다 (1)	게임메카
500만 장 돌파한 ‘바하 레퀴엠’ 신규 스토리 DLC 예고	게임메카
현대모비스 헝가리 공장 가동 개시, 유럽 완성차에 섀시 모듈 공급	오토헤럴드
페라리 첫 전기차 '루체' 디자이너도 긴장한 파격 디자인 5월 공개	오토헤럴드
'성능과 가격은 딱 중간' 포르쉐 카이엔 S 일렉트릭 라인업에 합류	오토헤럴드
르노 퓨처레디 전략 공개, 한국 '글로벌 허브'로 2030년 신차 26종 출시	오토헤럴드
넥써쓰, GDC서 '에이전트버스: 게임의 미래' 발표...UGC넘어 AGC로	게임동아
에픽게임즈 포트나이트, 운영비 충당 위해 유료 재화 'V-Bucks' 가격 인상	게임동아
스토리 DLC 제작 중? ‘바이오하자드 레퀴엠’ 향후 업데이트 계획 공개 (1)	게임동아
출시 안 된 게임 공략집이 나왔다고? ‘AI 가이드북 주의보’	게임동아
캡콤 신작 ‘프래그마타’, 체험판·위시리스트 등록 수 200만 건 돌파!	게임동아
[자동차와 法] 교통안전 및 과실비율 산정에 AI 활용하는 주요국 사례	IT동아
제이씨현시스템, 기가바이트 메인보드 후기 작성자 대상 이벤트	다나와
서린씨앤아이, 화이트데이 맞이 조립 PC 구매 고객 대상 사은품 세트 증정 이벤트	다나와
MSI, 게이밍기어와 함께하는 3월 구매 고객 이벤트 진행	다나와
PS5서 4K 40fps 지원, 붉은사막 PC·콘솔 사양 공개	게임메카
[오늘의 스팀] 출시 앞둔 몬헌 스토리즈 3, 판매량 급상승	게임메카
포켓몬과 젤다 등, 유명작 ‘복붙’한 게임 스팀에 등장	게임메카
서머 게임 페스트에 게이(Gay)밍 프라이드 퍼레이드 열린다	게임메카
과학자들이 뇌세포를 인공 배양한 후, ‘둠’을 플레이했다	게임메카
4월 출시되는 2.5D 사이버펑크 '리플레이스드' 신규 영상 (1)	게임메카
전년비 25% 증가, 작년 스팀 게임 다운로드 '1억 테라'	게임메카
총 상금 10억, NHN 제3회 '한게임 포커 투어' 대회 연다	게임메카
AI 투자 늘렸는데… 글로벌 기업 35% 여전히 ‘수동 번역’에 의존	뉴스탭
160명 몰린 수중 클래스…배럴, 워터 스포츠 체험 프로그램 인기	뉴스탭
미세먼지·꽃가루에 코 막힌 봄…비염 건강기능식품 매출 153% 급증	뉴스탭
“회의 끝나면 일이 자동 실행”…줌, ‘에이전틱 AI 3.0’으로 업무 자동화 플랫폼 확장	뉴스탭
황사·미세먼지 많은 봄…대청소 ‘이 가전’으로 해결한다	뉴스탭
“한국 여성, 세계에서 가장 많이 해외여행 간다”…글로벌 여행 트렌드 주도	뉴스탭
“아이디어가 세상을 바꾼다”…제임스 다이슨 어워드 2026, 한국 참가자 모집	뉴스탭
“게임은 더 작게, 개발은 더 빠르게”…유니티 보고서가 밝힌 2026 게임 산업 변화	뉴스탭
챗GPT 사용자 2293만 명, 그록 AI는 출시 1년 만에 3위 올라섰다	AI matters
오픈AI, AI 보안 스타트업 프롬프트푸 인수…에이전트 보안 강화 나선다	AI matters
PS5에서도 쾌적! 펄어비스 '붉은사막' PC와 콘솔 플랫폼 성능 정보 공개	게임동아
"경쟁사도 우리 편"…오픈AI·구글 직원들, 앤트로픽 국방부 소송 공개 지지	AI matters
“짧게 자도 푹 잔 느낌”…에이스침대 광고, 유튜브 1.2억뷰 돌파	뉴스탭
“46만원 그래픽카드를 5만원에?” 조텍코리아, RTX 5050 래플 이벤트 진행	뉴스탭
“AI 시대, 프리미엄으로 승부”…에이수스 젠북 전략 공개	뉴스탭
에이수스코리아 20주년…젠북 앞세워 한국 AI PC 시장 공략 본격화	뉴스탭
듀얼 스크린부터 32시간 배터리까지… 에이수스 젠북, AI PC 기준 다시 썼다	뉴스탭
“990g 초경량에 AI 80TOPS”…ASUS 젠북 A14·A16 사전예약 시작	뉴스탭
레이저, GDC 2026서 ‘AI 게임 개발 인프라’ 공개…개발 속도와 몰입도 동시에 잡는다	뉴스탭
화이트데이 맞은 PC 유저를 위한 선물…서린씨앤아이, 조립 PC 구매 고객 사은품 이벤트	뉴스탭
“벤테이가의 기원을 담았다”…벤틀리, 한정판 ‘벤테이가 아르테나라 에디션’ 공개	뉴스탭
인텔, ‘임베디드 월드 2026’서 차세대 엣지 플랫폼 공개…산업용 AI 성능 대폭 강화	뉴스탭
캐논, 캐나다 알버타 포토 트립 참가자 모집…“드라마 촬영지에서 작품 찍는다”	뉴스탭
“메인프레임 버리고 AI로”…티맥스소프트, 일본 DX 시장 정조준	뉴스탭
MSI 그래픽카드 후기 쓰면 네이버페이 1만원…3월 한 달간 이벤트 진행	뉴스탭
MSI, WiFi 7 메시 공유기 구매하면 네이버페이 1만원…후기 이벤트 진행	뉴스탭
MSI 게이밍기어 사면 네이버페이 준다…3월 후기 이벤트 진행	뉴스탭
침대가 거실이 됐다…‘침실 시네마’ 즐기는 신혼부부 늘어	뉴스탭
인천공항 앞 ‘하얏트 리젠시 인천’ 새 출발…파라다이스시티 시너지 기대	뉴스탭
운동·수면·수분까지… ‘건강지능(HQ)’ 시대, 웰니스 관리 방식 바뀐다	뉴스탭
엔씨소프트, 유럽 모바일 캐주얼 플랫폼 기업 ‘JustPlay’ 인수	게임동아
넷마블 '세븐나이츠 리버스', 애니메이션 ‘나 혼자만 레벨업’ 만난다	게임동아
‘창세기전 모바일’, 신규 캐릭터 ‘리델 하트’ 추가 업데이트	게임동아
블루 아카’, 신규 이벤트 스토리 ‘마법소녀 헤비캘리버’ 등장	게임동아
게이밍 시스템의 끝은 화려한 튜닝, NZXT F120X 화이트 120mm 시스템 팬	브레인박스
가장 발란스 잡힌 라이젠 X3D 프로세서용 메인보드, ASRock B850 ROCK WIFI7	브레인박스
파인인포, KLEVV C910G SSD 인지도 제고 위한 인스타그램 이벤트 진행	다나와
MSI코리아, 지포스 그래픽카드 고객 위한 스팀 월렛 증정 프로모션	다나와
서린씨앤아이, 리안리 파워 고객 대상 유니팬 TL LCD 증정 이벤트	다나와
1stPlayer 'GM7 ARGB BTF' 케이스 구매 시, 7팬으로 퍼펙트 업그레이드	다나와
MSI, WiFi 7 메시 공유기 'Roamii BE Lite' 3월 구매 고객 이벤트	다나와
위드앤아이티, 일산 킨텍스서 열리는 세계 보안 엑스포 'SECON 2026' 참가	다나와
키우기 열풍에 추억의 IP까지 더했다. 뉴노멀소프트 ‘창세기전 키우기’ 정식 출격 (1)	게임동아
[가이드] 고양이 번식 SRPG ‘뮤제닉스’, 내가 몰라서 후회했던 것들	게임동아
NHN ‘한게임 로얄홀덤’, 빗썸과 제3회 HPT 대회 개최	게임동아
[가이드] ‘뮤제닉스’ 1막 노가다 안녕, 이 게임에 ‘자동전투’가 있다?	게임동아
6주년 맞은 ‘묵혼’, 신서버 '곤륜' 오픈 및 역대급 이벤트 진행한다	게임동아
인도에 등장한 현대차 베르나 부분변경 '디자인 다듬고 상품성 보강'	오토헤럴드
렉서스, 2026 밀라노 디자인 위크 참가 ‘LS 콘셉트’ 미래 공간 제시	오토헤럴드
기아, 전기차 안전 기술 담은 ‘심포니 오브 EV 테크놀로지’ 영상 공개	오토헤럴드
현실적 EV '닛산 리프' 2026 세계 여성 올해의 차 '슈프림 위너' 선정	오토헤럴드
'출시 3년 만에 변화' 현대차, 그랜저 부분변경 실내외 디자인 대폭 변경	오토헤럴드
현대차 넥쏘 중고차 16.9일, 그랜저보다 빨리 팔린 비결은 '시세 급락'	오토헤럴드
테슬라 '중장기 전략 변수 등장' 로보택시 핵심 소프트웨어 담당 퇴사	오토헤럴드
벤츠 전기차 배터리 제조사 조직적 은폐 드러나, 과징금 112억·검찰 고발	오토헤럴드
현대차 스타리아 EV 출시 임박 '국내 인증서 최대 441km 기록'	오토헤럴드
배틀그라운드, 9주년 기념해 인기 아티스트 ‘올데이 프로젝트’와 컬래버레이션	게임동아
스팀 이용자들 하루 약 27만 4천 TB 다운로드한다... “1분에 19만 GB”	게임동아
넷마블 'SOL: 인챈트' 현빈이 알린다	게임동아
인간 뇌세포 덩어리가 ‘둠(DOOM)’을 플레이한다?	게임동아
넷마블, 오픈월드 RPG '일곱 개의 대죄: Origin' 캐릭터 매드 무비 순차 공개	게임동아
“700만 장 팔아줬는데”... EA, 배틀필드 개발진 일부 해고	게임동아
'붉은사막' 날개 달고 펄어비스 주가 훨훨. 어디까지 올라가려나?	게임동아
닌텐도, 관세 조치에 미국 정부 고소 (1)	게임동아
‘알케론’ 개발한 롭 팔도 대표, GDC 2026 기조연설 연사로 나선다	게임동아
AI뉴스 GPT‑5.4, Gemini 3.1 FlashLite, 노트북LM Cinematic Video, LTX2.3, Qwen 3.5 Small, 메타 스마트 안경 논란 동영상 있음	조코딩 JoCoding
국산 익스트랙션 던전 스토커즈, 흥행 부진 끝에 '섭종'	게임메카
T1, 4월 인스파이어 아레나서 LCK 팀 로드쇼 개최한다	게임메카
커피에 샌드위치 한 끼…할리스, 식사 대용 베이커리 강화	뉴스탭

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

인공지능의 깊이 있는 사고, 구글 딥마인드가 해냈다...자연어 계획 분야 98% 정확도 달성

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

인공지능의 깊이 있는 사고, 구글 딥마인드가 해냈다...자연어 계획 분야 98% 정확도 달성

공유하기

공감/비공감