출처 : 구글 딥마인드 블로그(이하 동일)
구글 딥마인드(Google DeepMind)가 실시간으로 상호작용 가능한 AI 기반 세계 생성 모델 ‘Genie 3’를 공개했다. 사용자가 단순히 텍스트 프롬프트만 입력하면, 초당 24프레임, 720p 해상도로 수 분간 유지되는 동적인 가상 환경을 생성한다.
딥마인드는 지난 10여 년간 시뮬레이션 환경에서의 AI 학습을 선도해왔다.
‘Genie’ 시리즈는 이러한 연구의 연장선으로, AI가 세계를 이해하고 그에 기반한 환경을 생성·예측할 수 있도록 설계된 ‘월드 모델(World Model)’이다. Genie 3는 그 중에서도 최초로 실시간 상호작용을 가능케 한 모델로, 전작 대비 환경의 일관성과 사실감이 크게 향상됐다.
Genie 3는 물과 빛, 복잡한 환경 간 상호작용 같은 자연 현상은 물론, 동식물의 생태계, 상상 속 세계, 애니메이션 스타일 캐릭터까지 생성할 수 있다. 또한, 과거의 장소나 시대적 배경도 묘사할 수 있어 지리적·시간적 경계를 뛰어넘는 경험을 제공한다.
또한 실시간 상호작용을 위해 Genie 3는 이전 사용자의 행동을 초 단위로 기억하며, 누적된 ‘세계의 궤적’을 기반으로 매 프레임을 생성한다. 이처럼 오토리그레시브 방식으로 환경을 생성하는 것은 기술적으로 어려운 문제지만, Genie 3는 최대 수 분간의 높은 시각적 일관성을 유지하는 데 성공했다. 특히 Genie 3는 NeRFs, Gaussian Splatting과 달리 명시적인 3D 모델 없이도 역동적이고 풍부한 환경을 구성한다는 점에서 주목된다.
딥마인드는 이 모델을 통해 자사의 범용 3D 에이전트인 SIMA가 다양한 목표를 수행하는 실험도 진행했다. 에이전트는 Genie 3가 생성한 가상 환경 속에서 목표 달성을 위한 일련의 행동을 수행했고, Genie 3는 해당 행동을 기반으로 세계를 실시간으로 시뮬레이션했다. 이는 AGI 개발을 위한 중요한 기반이 될 것으로 기대된다.
Genie 3는 여전히 제한된 행동 범위, 다중 에이전트 상호작용의 어려움, 실제 지리적 위치의 정확한 재현 부족, 텍스트 표현의 제한, 지속 상호작용 시간의 제약 등 한계를 안고 있다. 이에 따라 딥마인드는 책임 있는 기술 개발을 위해 제한된 연구자 및 크리에이터 집단에 우선 공개하고, 피드백을 수렴하는 ‘리서치 프리뷰’ 형식으로 모델을 제공 중이다.
Genie 3는 향후 교육, 훈련, 로봇 시뮬레이션, AI 에이전트 성능 평가 등 다양한 분야에 활용될 수 있을 것으로 전망된다. 딥마인드는 인간 창의성을 증진하고 AI의 오용을 방지하기 위해 책임 있는 기술 개발 기조를 유지하면서, Genie 3의 향후 활용 범위를 확대해 나갈 계획이다.
글 / 김지훈 news@cowave.kr
(c) 비교하고 잘 사는, 다나와 www.danawa.com