차후에는 오픈월드 게임 개발의 핵심이 될까?
지난 5일 구글 딥마인드(DeepMind)는 실시간으로 인터랙티브 3D 세계를 생성할 수 있는 월드 생성 모델 ‘지니 3(Genie 3)’를 발표했다. 설명에 따르면 ‘지니 3’는 텍스트 프롬프트만으로도 초당 24 프레임, 720p 해상도로 수 분간 일관된 세계를 구현할 수 있고, 게임 개발이나 로봇 훈련, 교육 콘텐츠 등에 활용할 수 있다.


지니 3의 가장 큰 특징은 바로 ‘실시간 상호작용성과 장기적 시각적 일관성’이다. 이용자가 프롬프트를 입력하면, ‘지니 3’은 그에 맞춰 세계를 즉석에서 생성한다. 이용자 혹은 AI 에이전트는 이 세계를 실시간으로 탐색하며 상호작용할 수 있고, 카메라가 다른 방향을 바라보고 돌아왔을 때도 이전에 생성된 환경 요소들이 그대로 유지된다.

기술적으로 지니 3은 자기 회귀적 프레임 생성을 바탕으로 상호작용성을 구현했다. 이전에 생성된 환경 궤적을 지속적으로 참조하면서도, 이용자의 새로운 입력이 있을 때마다 초당 수십 회의 계산을 통해 물리적 일관성을 유지하는 것이 핵심이다. 모델은 최대 1분 전 생성된 정보까지 기억해, 장기간 일관된 환경을 유지하는데 성공했다.
다만 ‘지니 3’은 아직까지 몇 개의 제한사항이 존재한다. 실제 지리적 장소의 완벽한 재현은 어렵고, 간단한 단어 외 복잡한 문장과 같은 텍스트 렌더링에는 한계가 있다. 또한 아직은 장시간의 연속 플레이를 염두에 두지 않아, 수분 내외의 인터랙션에서만 높은 일관성을 유지하는 수준에 머물러 있다. 장시간의 시뮬레이션 동안 누적되는 데이터 불일치를 해결하는 것은 향후 기술적 과제가 될 전망이다.
구글 딥마인드의 관계자는 “‘지니 3’이 세계 모델에 있어 중요한 전환점이 될 것이라고 생각한다.”, “인류의 이익을 위해 안전하고 책임감 있게 개발하고 있다.”라고 말했다.