비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

AI가 사람 움직임을 '언어'처럼 이해하게 됐다

2026.04.03. 10:50:03
조회 수
50
1

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

북경대와 둥화대, 화난이공대 공동 연구진이 3월 23일 발표한 유니모션(UniMotion) 논문은 AI가 사람의 동작, 이미지, 텍스트를 하나의 '언어'처럼 자유롭게 읽고 쓸 수 있게 만든 첫 사례다. "앉았다 일어나"라는 말을 듣고 3D 동작을 만들고, 반대로 춤추는 영상을 보고 "발을 앞으로 내딛고 팔을 흔든다"는 설명을 자동으로 써내는 일이 같은 시스템 안에서 동시에 가능해졌다는 뜻이다.

기존 AI는 움직임을 '단어'로 쪼갰다가 잃어버렸다

지금까지 AI는 사람의 움직임을 다룰 때 마치 영화 필름을 사진으로 찢어 보관하듯 '단어'로 바꿔 저장했다. 모션GPT 같은 기존 기술은 VQ-VAE라는 방식으로 동작을 512개 코드북의 조합으로 쪼갰다. 문제는 이 과정에서 어깨를 얼마나 들어 올렸는지, 발끝이 정확히 어디를 향했는지 같은 미세한 정보가 증발한다는 점이었다. 연구진 실험 결과 VQ-VAE 방식은 손목 위치 오차가 평균 212.9mm에 달했다. 성인 손바닥 너비를 두 번 벌려놓은 정도다.

유니모션은 이 문제를 '연속 공간'으로 해결했다. 동작을 코드로 자르지 않고 수학적 좌표 그대로 보존하는 CMA-VAE 구조를 만든 것이다. 같은 조건에서 손목 오차는 43.8mm로 떨어졌다. 5분의 1 수준이다. 더 중요한 건 시간 흐름이 자연스럽게 이어진다는 점이다. 기존 방식은 프레임마다 코드가 바뀌면서 움직임이 뚝뚝 끊기는 '지터' 현상이 생겼지만, 유니모션은 실제 사람의 가속도 패턴과 거의 동일한 부드러움을 보였다.

그림 1. 움직임·텍스트·영상 세 가지를 하나의 모델로 처리하는 유니모션(UniMotion)이 기존 모델들이 일부만 지원하던 7가지 과제를 최초로 전부 수행하며 성능도 앞섰다.
그림 1. 움직임·텍스트·영상 세 가지를 하나의 모델로 처리하는 유니모션(UniMotion)이 기존 모델들이 일부만 지원하던 7가지 과제를 최초로 전부 수행하며 성능도 앞섰다.



영상 없이도 '눈으로 본 것처럼' 학습하는 구조

연구진은 여기서 한 발 더 나갔다. 평소엔 동작 데이터만 보지만, 훈련 중에는 영상과 동작을 함께 보는 '이중 인코더' 방식(DPA)을 설계했다. 비유하자면 학생이 교과서(동작)만 보고 공부하지만, 선생님이 옆에서 그림(영상)을 보며 설명해주는 방식이다. 훈련이 끝나면 선생님은 떠나고 학생 혼자 문제를 푸는데, 이미 시각 정보의 핵심이 머릿속에 남아 있다.

실제로 DPA를 제거하자 텍스트→동작 생성 정확도(R@3)가 0.841에서 0.818로, 동작 편집 정확도는 84.94%에서 80.35%로 떨어졌다. 영상 없이도 "몸의 균형은 어때야 하는가" "팔다리 비율은 자연스러운가" 같은 시각적 직관이 내재화됐다는 증거다.

스스로 복습하며 구조를 익히는 '자가 정렬' 단계

연구진은 본격 훈련 전 AI에게 '자가 복습' 시간을 줬다. LRA(잠재 복원 정렬)라는 단계에서 시스템은 자신이 인코딩한 동작 정보를 노이즈에서 다시 복원하는 연습만 8만 스텝 반복한다. 텍스트 설명 같은 애매한 힌트 없이 "이 좌표값이 주어지면 원래 동작은 이거였다"는 명확한 정답만으로 뼈대를 다지는 것이다.

이 단계를 건너뛰면 어떻게 될까. 텍스트→동작 점수는 0.801, 동작 예측 오차는 3.777mm로 치솟았다. 반대로 자가 정렬을 거치면 0.841과 3.172mm로 안정된다. 마치 악보를 읽기 전에 스케일 연습부터 하는 음악가처럼, AI도 구조를 먼저 익혀야 복잡한 과제를 안정적으로 처리한다.

7가지 일을 한 몸으로 처리하는 통합 설계

유니모션의 진짜 강점은 범용성이다. 텍스트→동작, 동작→텍스트, 동작 예측, 동작 편집, 영상→동작, 영상→텍스트, 동작 기반 이미지 편집까지 총 7개 작업을 단일 모델로 처리한다. 기존엔 작업마다 별도 모델이 필요했다. 모션GPT는 텍스트↔동작만, 유니포즈는 정지 자세↔이미지만 다뤘다.

통합의 핵심은 '듀얼 패스 임베더'다. 동작 정보를 두 갈래로 처리하는데, 한쪽은 의미(Semantic)를 추출하고 다른 쪽은 세부 좌표(Generation)를 보존한다. 마치 책을 읽을 때 줄거리와 문장 표현을 동시에 기억하는 것과 같다. 동작 편집 과제에서 이 구조는 결정적이다. "양손을 위로"라는 명령(의미)을 이해하면서도 원본 동작의 걸음 폭이나 어깨 각도(세부)는 그대로 유지해야 하기 때문이다.

전문 모델보다 정확하고, 범용 모델보다 세밀하다

휴먼ML3D 데이터셋 텍스트→동작 생성에서 유니모션은 R@3 점수 0.841로 1위를 기록했다. 단일 과제 전문 모델 MoMask(0.807)를 제쳤다. 동작→텍스트 설명에선 BertScore 41.2로 기존 최고(36.7)를 크게 앞섰다. 동작 예측 오차는 3.172mm로 모션GPT(4.745mm) 대비 33% 개선됐다.

영상→동작 변환에선 MPJPE 75.0으로 같은 통합 모델인 유니포즈(81.8)를 8.3% 앞섰다. 전문 모델(TokenHMR 52.4)과는 여전히 격차가 있지만, 7개 작업을 동시 지원하는 모델 중에선 독보적이다. 동작 기반 이미지 편집에선 모션 정확도 67%로 기존 2단계 방식(50~59%)을 압도했다.

AI 동작 이해는 이제 '읽기·쓰기·번역'을 모두 아는 단계

유니모션이 보여준 건 단순히 성능 향상이 아니다. 동작을 '언어'처럼 다루는 패러다임 전환이다. 기존 AI는 영어만, 또는 불어만 구사했다면, 이젠 영·불·독을 넘나들며 통역까지 하는 셈이다. 연속 공간 표현, 시각 정보 증류, 자가 정렬 사전 훈련이라는 세 기둥이 이 전환을 가능하게 했다.

다만 몇 가지는 두고 봐야 한다. 첫째, 훈련 데이터 대부분이 실내 촬영 환경(Human3.6M)이라 야외 복잡한 상황에서 시각 정렬이 얼마나 유지될지 미지수다. 둘째, 15억 파라미터 모델이라 실시간 모바일 구동은 아직 무리다. 셋째, 논문은 단일 프레임→동작 복원을 주로 다뤘는데, 다중 프레임 영상에서 시간 추론을 어떻게 강화할지는 후속 과제로 남았다.

그럼에도 이 연구가 여는 가능성은 크다. 게임 캐릭터가 자연어 지시만으로 즉석 애니메이션을 만들고, 재활 치료사가 환자 동작을 촬영하면 AI가 자동으로 교정 가이드를 텍스트로 출력하는 미래가 구체화되고 있다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 유니모션이 기존 모션GPT와 다른 핵심 차이는 무엇인가요? 모션GPT는 동작을 512개 코드로 쪼개 저장(VQ-VAE)하지만 유니모션은 좌표를 연속값으로 유지(CMA-VAE)합니다. 덕분에 손목 위치 오차가 212.9mm에서 43.8mm로 줄고, 시간 흐름도 끊김 없이 자연스러워집니다.

Q. '듀얼 패스 임베더'는 왜 두 갈래로 나뉘나요? 한쪽(Semantic)은 "앉는다"는 의미를, 다른 쪽(Generation)은 무릎 각도 같은 세부를 담습니다. 동작 편집 시 명령은 이해하되 원본 디테일은 보존해야 하므로 둘 다 필요합니다.

Q. LRA 자가 정렬 단계는 왜 필요한가요? 텍스트 설명은 "걷는다"처럼 추상적이라 학습 신호가 모호합니다. 반면 동작 좌표는 명확한 정답이므로, 먼저 이걸로 뼈대를 다진 뒤 텍스트 학습을 하면 성능이 크게 오릅니다(R@3 0.801→0.841).

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

리포트명: UniMotion: A Unified Framework for Motion-Text-Vision Understanding and Generation

이미지 출처: AI 생성 콘텐츠

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 기획뉴스 전체 둘러보기
1/1
DDR4용 CPU 구하기 더 힘들어진다? 인텔이 14세대 CPU 공급을 줄이는 이유는? 동영상 있음 보드나라
[정보/루머] 스트릭스 헤일로 잡을 노바 레이크-AX 떡밥 및 RTX 5090 Tiㆍ타이탄 블랙웰 준비설 등 다나와
[김훈기 칼럼] "돈 많은 시장도 멈췄다" 중동발 자동차 산업 경고 오토헤럴드
[모빌리티 인사이트] '리스크가 된 속도전' BYD로 드러난 중국의 한계 오토헤럴드
[EV 트렌드] '이상 징후 시작' 테슬라 1분기 판매 시장 기대치 하회  오토헤럴드
AI가 사람 움직임을 '언어'처럼 이해하게 됐다 AI matters
"의자를 책상 앞에"라는 말만으로 AI가 3D 공간을 완벽하게 재배치한다 AI matters
AI에게 '자신 없으면 나중에 써'라고 했더니, 속도가 10배 빨라졌다 AI matters
[체험기] 윙 건담 제로 3돌 감사합니다! SD 건담 지 제네레이션 이터널 1주년 달려보니 게임동아
[EV 트렌드] '모델 S·X 단종 공식화' 테슬라 플래그십 역사 마침표 오토헤럴드
탐험 없이 배틀에만 집중한 신작, 포켓몬 챔피언스 게임메카
[매장탐방] 스위치 2 품절 일으킨 ‘포코피아’ 열풍 게임메카
포드 블루크루즈 "섣부른 기술에 운전자 과신이 치명적 사고 초래" 오토헤럴드
BMW iX3, 2026 월드카 어워즈 '왕중왕' 등극... 전기차 부문까지 2관왕 오토헤럴드
현대차, '뼛속까지 미국산' 정통 프레임 보디 픽업 '볼더 콘셉트' 공개 (1) 오토헤럴드
'셀토스·EV3 동시 출격' 기아, 뉴욕서 북미 전략 모델 대거 공개 오토헤럴드
오픈월드 액션 어드벤처 속으로!, 펄어비스(Pearlabyss) 붉은사막(Crimson Desert) 블루프레임
이거 보고 빠지면 너도 일주일 밤 샌다... 붉은사막 종결 입문자 가이드 동영상 있음 집마 홀릭TV
BMW는 왜 듣보 배터리로 새 플랫폼에 재를 뿌렸을까? 동영상 있음 오토기어
‘잠에 곯아떨어진다’는 말, 비유가 아니었다? 과학향기
이 시간 HOT 댓글!
1/4