Google DeepMind가 text 프롬프트만으로 현실과 유사한 3D 인터랙티브 환경을 생성하는 ‘Genie 3’ 월드 모델을 발표했다. 이 모델은 기존 Genie 2의 한계를 넘어, 최대 수 분 동안 사용자가 AI 에이전트를 포함해 실시간으로 환경과 상호작용할 수 있는 기능을 제공한다.
Genie 3는 이전 모델 대비 크게 향상된 시각 메모리 기능을 탑재해, 사용자가 한번 본 객체나 벽의 그림 등이 시야에서 사라졌다가도 다시 돌아오면 동일하게 남아 있도록 유지한다. 해상도는 720p·24fps로 개선되었으며, 날씨 변화나 캐릭터 추가 등의 프롬프트 기반 이벤트 수정(Promptable world events)도 실시간 반영 가능하다.
DeepMind는 이 기술이 AI 에이전트 교육의 핵심 인프라가 될 것으로 보고 있다. 예를 들어 실제 창고, 스키장 등 복잡한 물리 규칙 기반 환경을 시뮬레이션해 로봇이나 자율주행 시스템의 의사결정 능력을 실험할 수 있다는 설명이다. 이는 궁극적으로 AGI(Artificial General Intelligence) 개발의 중요한 중간 단계로 평가된다.
현재 Genie 3는 제한된 연구자·크리에이터 그룹 대상 리서치 프리뷰 형태로만 공개되고 있으며, DeepMind는 기술의 안전성과 윤리적 리스크를 평가한 후 점진적인 일반화 가능성을 모색하고 있다. 일부 기능은 아직 실험적 단계이며, 텍스트나 숫자 인식 등 일부 요소는 프롬프트 입력 시에만 정확히 구현된다는 점도 확인된다.
전문가들은 Genie 3의 등장이 AI 에이전트가 인간을 대체하는 것이 아닌, 함께 작동할 수 있는 ‘현실 기반 환경 실험 공간’ 구축의 시발점이 될 것으로 기대하고 있다. Edinburgh대의 Subramanian Ramamoorthy 교수는 “AI 에이전트가 세계 모델을 통해 실제 행동 결과를 예측하고 학습할 수 있다면, 자율 에이전트의 지능 수준은 급속도로 성장할 것”이라고 강조했다.
글 / 한만수 news@cowave.kr
(c) 비교하고 잘 사는, 다나와 www.danawa.com