비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

모션 캡처가 필요 없다! 걷고, 앉고, 기타 치고...AI가 스스로 배우는 자연스러운 동작 생성 기술

2024.12.31. 09:47:40
조회 수
365
6
댓글 수
3

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

ZeroHSI: Zero-Shot 4D Human-Scene Interaction by Video Generation



모션 캡처 없이도 자연스러운 가상 캐릭터 움직임 구현

북경대학교 Hongjie Li 연구원과 스탠포드대학교 Hong-Xing Yu 연구원이 공동 1저자로 참여한 연구팀이 3D 가상공간에서 사람과 환경의 자연스러운 상호작용을 생성하는 혁신적인 기술을 개발했다. 이 기술은 엠바디드 AI(Embodied AI), 가상현실(VR), 로봇공학 분야의 핵심 과제인 인간-환경 상호작용(Human-Scene Interaction, HSI) 생성 문제를 해결했다는 평가를 받고 있다.

기존 가상 캐릭터 기술의 한계점 극복

기존의 HSI 생성 연구는 크게 두 가지 방향으로 진행됐다.

첫째는 정적인 3D 공간에서의 상호작용에 초점을 맞춘 연구로, 모션 디퓨전 모델(Motion Diffusion Model)을 활용해 3D 공간과 모션 캡처 데이터를 학습시켰다. 그러나 이 방식은 흔한 동작인 걷기나 앉기조차도 다른 환경에 일반화하기 어려웠다.

둘째는 동적 물체 조작에 중점을 둔 연구다. 이 접근법은 같은 종류의 물체 내에서는 일반화가 가능했지만, 형태가 크게 다른 물체는 다루지 못했다. 두 방향 모두 3D 공간과 모션 캡처 데이터가 쌍으로 구성된 데이터셋에 의존한다는 근본적 한계가 있었다.

영상 생성 AI와 3D 기술의 혁신적 결합

연구진이 개발한 'ZeroHSI'는 기존 방식과 달리 최신 영상 생성 AI 모델이 학습한 풍부한 동작 정보를 활용한다. 이 모델들은 방대한 양의 자연스러운 인간 동작과 상호작용이 포함된 영상을 학습했기 때문에, 다양한 3D 환경에서 맥락에 맞는 자연스러운 동작을 생성할 수 있다.

이 기술은 3D 가우시안 스플래팅(3D Gaussian Splatting) 기술을 기반으로 구현됐다. 시스템은 먼저 3D 공간을 입력받아 애니메이션이 가능한 아바타를 초기화하고, 프레임별로 상대적 카메라 변환을 순차적으로 추정한다. 이후 생성된 비디오를 참조하여 프레임별로 인간 포즈 파라미터를 최적화하고, VPoser를 활용한 인간 포즈 사전 정보를 통해 자연스러운 동작을 생성한다. 이 방식으로 정적인 환경뿐 아니라 움직이는 물체와의 상호작용도 자연스럽게 구현할 수 있다.

12개 실내외 환경에서 입증된 자연스러운 상호작용

연구진은 기술 평가를 위해 "AnyInteraction"이라는 새로운 벤치마크 데이터셋을 구축했다. 이 데이터셋은 침실, 거실, 체육관, 바, 놀이터, 온실, 카페, 상점 등 총 12개의 서로 다른 3D 환경으로 구성되었으며, 이 중 7개는 실내 환경, 5개는 실외 환경이다. 특히 Mip-NeRF 360과 Tanks and Temples 데이터셋의 실제 장면을 활용하여 현실감을 높였다.

정량적 평가에서 ZeroHSI는 TRUMANS와 LINGO 등 기존 방식들보다 더 나은 의미론적 정렬(Semantic Alignment)과 동작 다양성, 물리적 타당성을 보여줬다. 실제 구현된 상호작용은 정적 환경에서의 걷기, 앉기, 청소하기부터 동적 물체와의 상호작용인 식물 물주기, 꽃병 들기, 잔디깎기, 기타 연주에 이르기까지 다양했다. 특히 동적 물체와의 상호작용에서 ZeroHSI는 CHOIS와 LINGO 대비 높은 접촉률과 낮은 물체 관통률을 기록했다. 400명의 참가자를 대상으로 한 평가에서도 정적 및 동적 시나리오 모두에서 기존 방식들보다 더 자연스럽고 의도한 동작과 잘 부합한다는 평가를 받았다.



메타버스와 로봇공학의 새 지평을 열다

현재 ZeroHSI는 동작 시퀀스당 약 1시간의 처리 시간이 필요해 실시간 응용에는 제약이 있으며, 미세한 물체와의 상호작용에서는 신뢰할 수 있는 시각적 감독이 어렵다는 한계가 있다. 또한 생성된 동작의 품질이 영상 생성 모델의 성능에 의존적이나, 비디오 생성 기술의 빠른 발전으로 이러한 한계는 점차 극복될 것으로 예상된다.

이 기술은 VR/AR에서 더 자연스러운 아바타 움직임 구현, 로봇공학에서의 동작 계획 수립, 메타버스의 실감형 캐릭터 제어 등 다양한 분야에서 활용될 수 있다. 특히 모션 캡처 데이터 없이도 자연스러운 인간-환경 상호작용을 생성할 수 있다는 점에서, 가상 환경에서의 인간 행동 시뮬레이션 분야에 새로운 지평을 열었다는 평가를 받고 있다.

해당 논문의 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다. 





AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 기획뉴스 전체 둘러보기
1/1
에이서, AI PC 전면에 내세운 컴퓨텍스 2025 전략… Copilot+로 전 라인업 무장 뉴스탭
“증명사진 위조 여부 판별” 생성 AI 딥페이크 탐지 서비스 샌즈랩 ‘페이크체크 2.0’ IT동아
크리에이터에게 가장 중요한 건 스토리지, SanDisk CREATOR SERIES 발표회 (1) 브레인박스
크리에이터를 위한 선택, 샌디스크 크리에이터 시리즈 발표 (1) 블루프레임
대만 국내용 메시지에 불과한 엔비디아와 대만의 AI 중심기지 전략 '팀타이완' 전략 동영상 있음 보드나라
로컬 친구 같은 호텔, OMO5 구마모토 (1) 트래비
[BOOK] 로컬 맛집에서 당황하지 않기 (1) 트래비
전설의 100만뷰 아이폰 꿀팁,, 2025년 최신 버전 동영상 있음 THE EDIT
시즈오카 여행을 계획한다면 반드시 저장해야 할 맛집 5 (1) 트래비
질병코드∙심의∙확률 규제 등, 대선 후보별 게임 공약은? 게임메카
[순정남] 아차! 대선 정치색을 드러낸 롤 챔피언 TOP 5 (1) 게임메카
남들과 다른 겜돌이를 위한 겜디아스 컴퓨텍스 2025 부스를 가다. (1) 브레인박스
새로운 나스 DS1825+, DS 1525+ 및 NVMe 스토리지 솔루션 PAS7700 등을 전시한 시놀로지 컴퓨텍스 2025 부스에 가다. (1) 브레인박스
20년 넘게 부침 없는, 국산 장수 MMORPG 근황 (2) 게임메카
[겜덕연구소] 왕년의 디즈니는 짱이었지! 디즈니 레트로 게임도 짱이었어! (4) 게임동아
딥 리서치에 대한 모든 것: 경쟁 지형도부터 모델 별 장단점, 가격 비교까지 (2) AI matters
[KOBA 2025] 8K 영상 실시간 편집이 가능한 NAS? 해답은 QNAP (3) 위클리포스트
폭스바겐 "전기차 힘드네!" 다시 내연차에 93조원 쏟아붓겠다! (1) 동영상 있음 오토기어
컴퓨텍스2025에서 커세어-엘가토 부스에서 "스트림덱 에브리웨어" 직접 체험해 보다. (2) 브레인박스
퇴근 후 술자리는 본능일까? 침팬지에게 물어보라 (3) 과학향기
이 시간 HOT 댓글!
1/4