
마이크로소프트(Microsoft)가 4일(현지 시간) '월드 앤 휴먼 액션 마스크깃 모델'(World and Human Action MaskGIT Model, WHAMM)이라는 새로운 인공지능 기술을 공개했다. 이 기술은 코파일럿 랩스(Copilot Labs)를 통해 퀘이크 II(Quake II) 게임플레이를 AI로 구현한 체험을 제공한다.
WHAMM은 올해 2월 공개된 뮤즈(Muse)와 최근 네이처(Nature)에 게재된 월드 앤 휴먼 액션 모델(WHAM)의 실시간 버전이다. 가장 큰 특징은 초당 10프레임 이상의 이미지를 생성할 수 있는 속도로, 이전 모델인 WHAM-1.6B의 초당 1프레임보다 대폭 향상됐다.
마이크로소프트 연구팀은 프로 게임 테스터들과 협력하여 데이터를 효율적으로 수집했으며, 기존 WHAM-1.6B 훈련에 필요했던 7년 분량의 게임플레이 데이터를 단 1주일로 줄였다. 또한 출력 해상도도 640×360으로 두 배 증가시켰다.

WHAMM은 "백본(Backbone)" 트랜스포머와 "리파인먼트(Refinement)" 트랜스포머라는 두 단계 설정을 사용한다. 이 방식을 통해 이미지 생성 속도를 크게 향상시켰다. 연구팀은 이 모델의 한계도 언급했다. 적 캐릭터와의 상호작용이 부정확하고, 모델의 컨텍스트 길이가 0.9초로 제한되어 시야에서 오래 벗어난 물체를 기억하지 못한다. 또한 현재 퀘이크 II의 단일 레벨 일부만 학습했기 때문에 경험 범위가 제한적이다.
마이크로소프트 연구 블로그에 따르면, 이 프로젝트는 게임 인텔리전스, Xbox 게이밍 AI, Xbox 인증 팀의 공동 노력으로 이루어졌다. 연구팀은 이 기술이 "게임 자체를 플레이하는 것이 아니라 모델을 플레이하는 것"이라고 강조하며, 미래에 새로운 종류의 인터랙티브 미디어를 가능하게 할 것으로 기대했다.
해당 발표에 대한 자세한 사항은 링크에서 확인할 수 있다.
이미지 출처: 마이크로소프트
기사는 클로드와 챗gpt를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기