AI가 사람 움직임을 '언어'처럼 이해하게 됐다 : 다나와 DPG는 내맘을 디피지

북경대와 둥화대, 화난이공대 공동 연구진이 3월 23일 발표한 유니모션(UniMotion) 논문은 AI가 사람의 동작, 이미지, 텍스트를 하나의 '언어'처럼 자유롭게 읽고 쓸 수 있게 만든 첫 사례다. "앉았다 일어나"라는 말을 듣고 3D 동작을 만들고, 반대로 춤추는 영상을 보고 "발을 앞으로 내딛고 팔을 흔든다"는 설명을 자동으로 써내는 일이 같은 시스템 안에서 동시에 가능해졌다는 뜻이다.

기존 AI는 움직임을 '단어'로 쪼갰다가 잃어버렸다

지금까지 AI는 사람의 움직임을 다룰 때 마치 영화 필름을 사진으로 찢어 보관하듯 '단어'로 바꿔 저장했다. 모션GPT 같은 기존 기술은 VQ-VAE라는 방식으로 동작을 512개 코드북의 조합으로 쪼갰다. 문제는 이 과정에서 어깨를 얼마나 들어 올렸는지, 발끝이 정확히 어디를 향했는지 같은 미세한 정보가 증발한다는 점이었다. 연구진 실험 결과 VQ-VAE 방식은 손목 위치 오차가 평균 212.9mm에 달했다. 성인 손바닥 너비를 두 번 벌려놓은 정도다.

유니모션은 이 문제를 '연속 공간'으로 해결했다. 동작을 코드로 자르지 않고 수학적 좌표 그대로 보존하는 CMA-VAE 구조를 만든 것이다. 같은 조건에서 손목 오차는 43.8mm로 떨어졌다. 5분의 1 수준이다. 더 중요한 건 시간 흐름이 자연스럽게 이어진다는 점이다. 기존 방식은 프레임마다 코드가 바뀌면서 움직임이 뚝뚝 끊기는 '지터' 현상이 생겼지만, 유니모션은 실제 사람의 가속도 패턴과 거의 동일한 부드러움을 보였다.

그림 1. 움직임·텍스트·영상 세 가지를 하나의 모델로 처리하는 유니모션(UniMotion)이 기존 모델들이 일부만 지원하던 7가지 과제를 최초로 전부 수행하며 성능도 앞섰다.

영상 없이도 '눈으로 본 것처럼' 학습하는 구조

연구진은 여기서 한 발 더 나갔다. 평소엔 동작 데이터만 보지만, 훈련 중에는 영상과 동작을 함께 보는 '이중 인코더' 방식(DPA)을 설계했다. 비유하자면 학생이 교과서(동작)만 보고 공부하지만, 선생님이 옆에서 그림(영상)을 보며 설명해주는 방식이다. 훈련이 끝나면 선생님은 떠나고 학생 혼자 문제를 푸는데, 이미 시각 정보의 핵심이 머릿속에 남아 있다.

실제로 DPA를 제거하자 텍스트→동작 생성 정확도(R@3)가 0.841에서 0.818로, 동작 편집 정확도는 84.94%에서 80.35%로 떨어졌다. 영상 없이도 "몸의 균형은 어때야 하는가" "팔다리 비율은 자연스러운가" 같은 시각적 직관이 내재화됐다는 증거다.

스스로 복습하며 구조를 익히는 '자가 정렬' 단계

연구진은 본격 훈련 전 AI에게 '자가 복습' 시간을 줬다. LRA(잠재 복원 정렬)라는 단계에서 시스템은 자신이 인코딩한 동작 정보를 노이즈에서 다시 복원하는 연습만 8만 스텝 반복한다. 텍스트 설명 같은 애매한 힌트 없이 "이 좌표값이 주어지면 원래 동작은 이거였다"는 명확한 정답만으로 뼈대를 다지는 것이다.

이 단계를 건너뛰면 어떻게 될까. 텍스트→동작 점수는 0.801, 동작 예측 오차는 3.777mm로 치솟았다. 반대로 자가 정렬을 거치면 0.841과 3.172mm로 안정된다. 마치 악보를 읽기 전에 스케일 연습부터 하는 음악가처럼, AI도 구조를 먼저 익혀야 복잡한 과제를 안정적으로 처리한다.

7가지 일을 한 몸으로 처리하는 통합 설계

유니모션의 진짜 강점은 범용성이다. 텍스트→동작, 동작→텍스트, 동작 예측, 동작 편집, 영상→동작, 영상→텍스트, 동작 기반 이미지 편집까지 총 7개 작업을 단일 모델로 처리한다. 기존엔 작업마다 별도 모델이 필요했다. 모션GPT는 텍스트↔동작만, 유니포즈는 정지 자세↔이미지만 다뤘다.

통합의 핵심은 '듀얼 패스 임베더'다. 동작 정보를 두 갈래로 처리하는데, 한쪽은 의미(Semantic)를 추출하고 다른 쪽은 세부 좌표(Generation)를 보존한다. 마치 책을 읽을 때 줄거리와 문장 표현을 동시에 기억하는 것과 같다. 동작 편집 과제에서 이 구조는 결정적이다. "양손을 위로"라는 명령(의미)을 이해하면서도 원본 동작의 걸음 폭이나 어깨 각도(세부)는 그대로 유지해야 하기 때문이다.

전문 모델보다 정확하고, 범용 모델보다 세밀하다

휴먼ML3D 데이터셋 텍스트→동작 생성에서 유니모션은 R@3 점수 0.841로 1위를 기록했다. 단일 과제 전문 모델 MoMask(0.807)를 제쳤다. 동작→텍스트 설명에선 BertScore 41.2로 기존 최고(36.7)를 크게 앞섰다. 동작 예측 오차는 3.172mm로 모션GPT(4.745mm) 대비 33% 개선됐다.

영상→동작 변환에선 MPJPE 75.0으로 같은 통합 모델인 유니포즈(81.8)를 8.3% 앞섰다. 전문 모델(TokenHMR 52.4)과는 여전히 격차가 있지만, 7개 작업을 동시 지원하는 모델 중에선 독보적이다. 동작 기반 이미지 편집에선 모션 정확도 67%로 기존 2단계 방식(50~59%)을 압도했다.

AI 동작 이해는 이제 '읽기·쓰기·번역'을 모두 아는 단계

유니모션이 보여준 건 단순히 성능 향상이 아니다. 동작을 '언어'처럼 다루는 패러다임 전환이다. 기존 AI는 영어만, 또는 불어만 구사했다면, 이젠 영·불·독을 넘나들며 통역까지 하는 셈이다. 연속 공간 표현, 시각 정보 증류, 자가 정렬 사전 훈련이라는 세 기둥이 이 전환을 가능하게 했다.

다만 몇 가지는 두고 봐야 한다. 첫째, 훈련 데이터 대부분이 실내 촬영 환경(Human3.6M)이라 야외 복잡한 상황에서 시각 정렬이 얼마나 유지될지 미지수다. 둘째, 15억 파라미터 모델이라 실시간 모바일 구동은 아직 무리다. 셋째, 논문은 단일 프레임→동작 복원을 주로 다뤘는데, 다중 프레임 영상에서 시간 추론을 어떻게 강화할지는 후속 과제로 남았다.

그럼에도 이 연구가 여는 가능성은 크다. 게임 캐릭터가 자연어 지시만으로 즉석 애니메이션을 만들고, 재활 치료사가 환자 동작을 촬영하면 AI가 자동으로 교정 가이드를 텍스트로 출력하는 미래가 구체화되고 있다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 유니모션이 기존 모션GPT와 다른 핵심 차이는 무엇인가요? 모션GPT는 동작을 512개 코드로 쪼개 저장(VQ-VAE)하지만 유니모션은 좌표를 연속값으로 유지(CMA-VAE)합니다. 덕분에 손목 위치 오차가 212.9mm에서 43.8mm로 줄고, 시간 흐름도 끊김 없이 자연스러워집니다.

Q. '듀얼 패스 임베더'는 왜 두 갈래로 나뉘나요? 한쪽(Semantic)은 "앉는다"는 의미를, 다른 쪽(Generation)은 무릎 각도 같은 세부를 담습니다. 동작 편집 시 명령은 이해하되 원본 디테일은 보존해야 하므로 둘 다 필요합니다.

Q. LRA 자가 정렬 단계는 왜 필요한가요? 텍스트 설명은 "걷는다"처럼 추상적이라 학습 신호가 모호합니다. 반면 동작 좌표는 명확한 정답이므로, 먼저 이걸로 뼈대를 다진 뒤 텍스트 학습을 하면 성능이 크게 오릅니다(R@3 0.801→0.841).

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

리포트명: UniMotion: A Unified Framework for Motion-Text-Vision Understanding and Generation

이미지 출처: AI 생성 콘텐츠

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

일론 머스크도 다 못 읽었을 스페이스X 500P 상장 신청서, 10분 만에 끝내기 \| 노트북LM 활용 (1) 동영상 있음	AI matters
게이머들와 친해지기, 마이크로닉스 2026년 라인업 부스 - 플레이엑스포 2026	브레인박스
[정보/루머] 효율 챙기며 가성비 시장 공략 나선 인텔과 AMD, 지포스 놓고 애매한 입장 취하는 엔비디아 등 (1)	다나와
[취재] 포가튼사가, 컬드셉트. 플레이엑스포에서 추억의 게임으로 화제된 대원미디어	게임동아
"현대는 절대 테슬라 못 따라간다?" SDV가 정확히 뭐길래? 동영상 있음	오토기어
대원미디어, 세상에 없던 '버그 없는 포가튼사가' 만든다	게임메카
플레이엑스포에서 만난 SANDISK, “옵티머스로 SSD 시장 다시 리드한다”	다나와
플레이엑스포 한복판에서 KLEVV의 체감 성능 승부!	다나와
플레이엑스포에서 만나볼 수 있었던 엔비디아 지포스 RTX 시리즈 - 이엠텍 부스	브레인박스
[김훈기 칼럼] 'SDV 다음은 AIDV' 완성차 업계, 수익 모델 찾아 총성 없는 전쟁 (1)	오토헤럴드
[EV 트렌드] "유가 폭등이 당겼다" 전기차, '에너지 안보 자산'으로 급부상 (1)	오토헤럴드
[순정남] 경영진이 정신 나간 게임 속 '막장' 기업 TOP 5	게임메카
[취재] 미래를 맛보는 플레이엑스포 ‘XR 센트럴 스테이션’, 애플 비전프로·햅틱 슈트 총출동!	게임동아
벤츠ㆍBMW 산다던 3명 중 1명 기아로... '결정 직전 기묘한 변심'	오토헤럴드
[EV 트렌드] 현대차·기아, 엔트리 EV 공동 개발 '보급형 전기차 확대' (1)	오토헤럴드
차값보다 무서운 기름값 '전기차 vs 가솔린' 격차 3년 새 41.7% 급등	오토헤럴드
김영준 파블로항공 의장·한국항공대 혁신융합대학 사업단 특강 ‘K-드론의 미래’ 제시	IT동아
제미나이 3.5 플래시·자체 반도체로 무장한 구글, AI 주도권 탈환 나선다 (1)	IT동아
[월간자동차] 26년 4월, 테슬라 ‘모델 Y’ 1만대 이상 판매 (1)	IT동아
"손목 위 코치" 서울시청 철인3종팀의 GPS 활용법	IT동아
샌디스크, 독립 경영 출범 이후 첫 신제품 기자간담회 개최... 옵티머스 SSD·FIFA 월드컵 에디션 공개	케이벤치
결국 무너진 애플... 맥미니 기본형 삭제, 맥북 네오까지 위기인 이유 동영상 있음	주연 ZUYONI
밀라노에서 베네치아 기차로 가는 방법, 이딸로&트렌이탈리아 가이드	트래비
한국인들이 아직 잘 모르는 홍콩 사진 스폿 5	트래비
소비자 중심의 철학과 신뢰를 이어간다, 샌디스크 신제품 출시 기자간담회	블루프레임
연인과 함께 가면 좋은 이탈리아 로마 맛집 3	트래비
챗GPT 1위는 그대로인데 클로드 사용자가 1년 새 12배 폭증한 이유	AI matters
[겜ㅊㅊ] 고생 끝에 낙이 온다, 소울라이크 신작 5선	게임메카
일론 머스크 말 믿고 호수에 뛰어든 사이버트럭 운전자 '비극적 결말' (1)	오토헤럴드
[EV 트렌드] 볼보, 미국서 EX30 돌연 철수 '대체할 보급형 전기차 준비'	오토헤럴드
[모빌리티 인사이트] BMW도 현대차도 AI 넣는데 '진짜 돈 되는 건 아직'	오토헤럴드
세계에서 ‘가장 비싼 와인’을 위조한 남자	마시즘
메모리 폭등 시대 더 비싼 삼성 시금치 메모리, 돈 더 주면서 계속 써야할까? 이제는 놓아줄 때가 되었다 동영상 있음	보드나라
IBM, 양자 중심 슈퍼컴퓨팅 시대 예고…“올해 양자 우위 입증할 것”	IT동아
"AI 많이 쓰면 일잘러?" 빅테크 흔드는 '토큰맥싱' 열풍	IT동아
[위클리AI] "성능 경쟁 끝났다" 앤트로픽부터 메타까지 글로벌 빅테크 신뢰 전쟁 돌입	IT동아
유아이패스 "업무 자동화용 에이전틱 AI, 이제는 '진짜 쓸모' 따질 때"	IT동아
[자동차와 法] 소프트웨어 중심 자동차 시대…바퀴 달린 컴퓨터 맞이하는 낡은 법의 한계	IT동아
'치솟는 원가에 무너진 수익 방어선' 글로벌 완성차 가격 딜레마	오토헤럴드
아시아 모터스포츠 카니발 영암 격돌, 시즌 유일 피트스톱 레이스 관심	오토헤럴드
[EV 트렌드] BMW도 결국 엔트리 EV '젊은 고객 잡기 본격화'	오토헤럴드
RX6000 구형 라데온까지 최신 FSR4.1 지원? 역시 AMD 믿고 있었다구! 동영상 있음	민티저
무려 76도까지 치솟는 BYD 12C 충전 "수명? 안전? 이딴 건 상관 없어!" 동영상 있음	오토기어
소니 A7R6·캐논 R6 V로 보는 시장 현황, 가격경쟁력보다 '전문가 눈높이' 맞춰	IT동아
[숨신소] 고전 젤다와 성검전설의 만남, 알라바스터 던 (1)	게임메카
“갤럭시 Z 폴드8 배터리 커진다?” 애플워치·PS5·원플러스까지 이번 주 루머 총정리	다나와
필요한 게 많은 사무용 PC를 위해. 라이젠 5 프로 8500G/8600G	기글하드웨어
지금 S26울트라 사면 후회합니다;; S27 '작트라' 역대급 유출 스펙 총정리 (1) 동영상 있음	주연 ZUYONI
신혼부부와 연인을 위한 베네치아 럭셔리 여행법 (1)	트래비
[판례.zip] 인터넷 방송인에 귓말로 욕해도 모욕죄 성립 가능 (1)	게임메카
서브노티카 2 개발자 "함께 해도 심해 고립감은 여전할 것"	게임메카
자율주행차의 ‘눈’이 바뀐다, 신호등 '色' 읽는 네이티브 컬러 라이다 등장	오토헤럴드
메르세데스 AMG, 뉘르 24시 10년 만의 정상 탈환... 현대차 N 완주	오토헤럴드
현대 N, 뉘르부르크링 24시 완주…TCR 6연패와 신형 엔진 내구성 입증	오토헤럴드
[EV 트렌드] 테슬라 스마트 서먼 성능 개선 '차량 호출 속도 33% 향상'	오토헤럴드
[르포] 크리에이터와 팬, AI가 만난 축제의 장 ‘유튜브 팬페스트 코리아 2026’	IT동아
“’AI 전환’ 생각은 크게, 시작은 작게”…베스핀글로벌 CAIO가 말하는 AX 전략	IT동아
AI 데이터 센터 지출 1천 조 시대 ··· 사회는 AI보다 '공존의 기술'이 필요하다	IT동아
KOBA 2026에서 볼 수 있는 크리에이터의 필수품, KOBA 시놀로지 부스 및 다양한 나스들	브레인박스
[정보/루머] 칼 갈고 레이저 레이크-AX 준비하는 인텔, 조용히 라데온 RX 9050 준비하는 AMD 등	다나와
생활 환경의 밝기가 TV를 결정한다? OLED vs MLED 잘 선택하는 법 (52)	다나와
[김훈기 칼럼] 커넥티드카 시대, 편의성 뒤에 커지는 데이터 활용 논란 (47)	오토헤럴드
[김흥식 칼럼] 中 전기차에 점령당한 英, 우리도 최소한의 방어막 필요	오토헤럴드
무채색 공식 깬 고성능 하이엔드 전기차 목록, ‘감성적 오브제’로 진화	오토헤럴드
[순정남] 이 기업, 곧 떡상합니다! 게임 속 '대세주' TOP 5 (1)	게임메카
하드웨어를 넘어 워크플로우 통합으로, 에이수스 프로아트 에코시스템의 전문가용 디스플레이 솔루션 대거 소개	케이벤치
협업툴 묶고 AI 품다… '넥스트 그룹웨어'의 조건	IT동아
구글, '제미나이 인텔리전스' 앞세워 플랫폼·소프트웨어·하드웨어 통합한다	IT동아
데스크탑 및 AI 가성비의 코어 울트라 200S 플러스와 아크 프로 B70, 2026 인텔 데스크탑 퍼포먼스 워크샵 (1)	블루프레임
보조금 완전히 바꾸겠다더니.. 장관님 강단 있으시네요! 동영상 있음	오토기어
기자님! 어디가 제일 좋았어요? (1)	트래비
[모빌리티 인사이트] GM, 사방팔방 다 보이는 ‘투명 자동차’ 특허 공개	오토헤럴드
지리의 반전, 2026 TCR 월드 투어 데뷔전 첫 우승...모터스포츠 역량 과시	오토헤럴드
[모빌리티 인사이트] '車 안이 곧 콘텐츠 공간' 그랜저가 바꾼 자동차 공식	오토헤럴드
[EV 트렌드] 리비안, AI 음성비서 전면 도입 "헤이 리비안" 부르면 차량 제어	오토헤럴드
갤럭시 AI 글래스란? 진주·해안 유출 정보 정리 동영상 있음	AI matters
로그라이크·시간 정지·RPG 조화롭게 녹여낸 ‘어센드투제로’	게임메카
‘알 턱’ 없던 턱이 생긴 진짜 이유는?	과학향기
‘GPS만 35년’ 가민, 아웃도어·스포츠에 강한 이유	IT동아
[주간보안동향] 숨고, 개인정보 유출 의심 정황 공지…선제적 대응 착수 外	IT동아
중국 전자상가에서 한국 RTX 5090이 밀수되고 있습니다 【선전3】 (1) 동영상 있음	뻘짓연구소
A7R6 풀 적층형 센서, 화질 괜찮을까? 동영상 있음	Hakbong Kwon
가족 모두가 함께 즐기는 MSI 노트북 팝업 in 김포	기글하드웨어
지커 강남 전시장 열다! 국산차 위기 본격화 되나? 동영상 있음	오토기어
AI 시대가 요구하는 노트북의 조건, LG gram Book AI 2026 (1)	다나와
AWS 현직자들이 들려주는 데이터센터 커리어의 모든 것 동영상 있음	조코딩 JoCoding
[위클리AI] 오라클-삼성전자, 앤트로픽-스페이스X 각각 손잡았다 '파트너십 확장'	IT동아
“더 가볍고 빠르게” 노타·모빌린트, NPU 최적화 및 AI 사업 협력에 맞손	IT동아
[정석희의 기후 에너지 인사이트] 10. 햇빛은 공짜, 그물은 누가 만드는가?	IT동아
[모빌리티 인사이트] BYD가 바꾸는 전기차 경쟁 '아토 3에도 5분 충전'	오토헤럴드
[김훈기 칼럼] 트럼프의 투트랙 정책 "미국은 연료비 완화, 유럽차는 관세 압박"	오토헤럴드
[김흥식 칼럼] 세상이 뒤집혔다... ‘안방 프리미엄·애국 소비’ 끝났다	오토헤럴드
고민정 멀티캠퍼스 AX러닝혁신센터장, "AI 교육은 진단과 처방이 우선입니다"	IT동아
방콕의 새로운 환대, 보코 방콕 수라웡	트래비
여행과 쉼이 함께하는 곳, 괌	트래비
윈도우 배경화면 너머의 세계, 미서부 캐년투어	트래비
[성지순례] 신촌 짱오락실 자리에 새로 생긴 ‘와다다 오락실’ (1)	게임메카
[겜ㅊㅊ] 비트를 타며 적을 때려! 액션+리듬게임 5선	게임메카
[숨신소] 체인소 걸의 미러스 엣지 ‘모터슬라이스’ (1)	게임메카
[보드게임] 사이버펑크 해킹 공방전, 안드로이드 넷러너	게임메카

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

AI가 사람 움직임을 '언어'처럼 이해하게 됐다

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

AI가 사람 움직임을 '언어'처럼 이해하게 됐다

공유하기

공감/비공감