비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

"의자를 책상 앞에"라는 말만으로 AI가 3D 공간을 완벽하게 재배치한다

2026.04.03. 10:30:03
조회 수
126
3

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

엔비디아(NVIDIA)와 메사추세츠대학교(UMass Amherst) 연구진이 자연어 명령만으로 3D 공간 내 물체를 정교하게 재배치할 수 있는 3D-Layout-R1 프레임워크를 공개했다. 이 시스템은 기존 언어 모델이 "의자를 소파와 나란히 놓아라"는 명령을 받으면 물체끼리 겹치거나 허공에 떠 있는 결과를 만들던 문제를 해결했다. 핵심은 각 단계를 투명하게 기록하는 구조화된 추론 방식이다. 마치 레고 조립 설명서처럼 "1단계: 의자를 책상 앞에 배치, 2단계: 침대를 책상 뒤로 이동"처럼 중간 과정을 단계별로 추론하면서 최종 배치에 도달한다.


그림 1. 3D-Layout-R1의 다단계 공간 배치 추론 과정
그림 1. 3D-Layout-R1의 다단계 공간 배치 추론 과정


기존 AI가 공간을 엉망으로 만드는 이유

챗GPT(ChatGPT)나 제미나이(Gemini) 같은 언어 모델에게 "거실 가구를 재배치해줘"라고 요청하면, 그럴듯한 설명은 내놓지만 실제로는 소파가 테이블을 관통하거나 의자가 벽 밖으로 튀어나가는 배치를 제안한다. 이들은 공간 관계를 말로는 이해하지만, 물리 법칙을 따르는 구체적인 좌표 계산에는 약하기 때문이다. 마치 지도를 읽을 줄은 알지만 실제로 그 길을 걸어본 적은 없는 사람처럼, 추상적 이해와 실제 실행 사이에 큰 간극이 존재한다.

기존 방식은 두 가지로 나뉜다. 첫 번째는 AI가 "의자를 옮겨야 할 것 같아요"라고 대략적인 계획만 세우고, 별도의 프로그램이 실제 좌표를 계산하는 방식이다. 문제는 AI의 생각이 너무 모호해서 계산 프로그램이 제대로 된 결과를 만들어내기 어렵다는 점이다. 두 번째는 AI가 한 번에 최종 결과를 예측하는 방식인데, "먼저 상자를 옮기고, 그 다음 책 옆에 램프를 놓아라" 같은 여러 단계가 필요한 작업에서는 중간 과정을 관리하지 못해 실패한다. 결국 기존 시스템은 복잡한 공간 편집 명령을 제대로 수행하지 못했다.

투명한 설계도가 AI를 똑똑하게 만든다

3D-Layout-R1의 핵심은 장면 그래프(Scene Graph)라는 투명한 중간 표현이다. 이는 방 안의 모든 물체를 카드 목록처럼 정리한 것이다. 각 카드에는 물체 이름, 정확한 위치, 크기, 회전 각도가 적혀 있다. 기존 AI가 "의자를 어딘가로 옮겨야 할 것 같은데, 아마도 테이블 근처쯤?"이라고 두루뭉술하게 말하는 대신, 3D-Layout-R1은 JSON과 같은 형태로 좌표를 명시적으로 수정 한다.

이 방식의 장점은 각 단계를 즉시 확인할 수 있다는 점이다. 만약 2단계에서 침대가 의자와 겹친다면, 3단계로 넘어가기 전에 바로 문제를 발견하고 수정할 수 있다. 마치 요리할 때 레시피를 한 단계씩 따라가며 맛을 보는 것과 비슷하다. 기존 방식은 모든 재료를 한꺼번에 냄비에 넣고 나서야 맛이 이상하다는 걸 깨닫는 반면, 새로운 방식은 재료를 하나씩 넣으며 계속 확인한다.

연구진은 DeepSeek-R1을 활용해 추론 트레이스를 생성한 1만 5천 개 데이터셋을 만들었다. 각 데이터에는 처음 상태, 자연어 명령, 단계별 카드 수정 내역, 최종 목표 상태가 포함된다. 세 가지 연습 과제를 준비했다. 첫 번째는 물체를 크기와 모양으로 분류한 뒤 일렬로 정렬하는 '정렬 과제'다. 두 번째는 무작위로 흐트러진 물체를 원래의 깔끔한 격자 구조로 되돌리는 '공간 정렬 과제'다. 세 번째는 "보라색 침대를 책상 뒤에 놓되, 침대는 책상으로부터 정확히 팔 길이만큼 떨어뜨려라" 같은 복잡한 조건을 동시에 만족시키는 '방 편집 과제'다.

게임처럼 점수를 매기며 물리 법칙을 배운다

구조화된 추론만으로는 부족하다. AI가 카드를 올바른 형식으로 작성하더라도, 실제 위치가 부정확하거나 물체끼리 겹칠 수 있다. 이를 해결하기 위해 연구진은 강화학습을 적용했다. 이는 게임 플레이어에게 점수를 주며 학습시키는 방식과 같다. AI가 물체를 배치할 때마다 세 가지 기준으로 점수를 매긴다.

첫 번째 기준은 '목표 일치도'다. AI가 놓은 의자가 정답 위치와 얼마나 겹치는지 측정한다. 마치 다트 게임에서 과녁 중앙에 가까울수록 높은 점수를 주는 것과 같다. 두 번째 기준은 '충돌 방지'다. 의자가 테이블을 관통하거나 벽 안으로 파고들면 감점한다. 세 번째 기준은 '형식 준수'다. AI의 답변이 제대로 된 카드 형식으로 작성됐는지 확인한다.

이 세 가지 점수를 합산해 AI에게 피드백을 준다. 처음에는 서툴지만, 수천 번 반복하며 점점 높은 점수를 받는 배치 방법을 학습한다. 마치 농구 선수가 슛 연습을 반복하며 골대 감각을 익히듯, AI도 어떤 배치가 물리적으로 타당하고 명령을 정확히 따르는지 체득한다. 이 과정을 거친 모델은 기존보다 훨씬 정확한 위치에 물체를 배치하고, 충돌 없는 완벽한 레이아웃을 만들어낸다.

작은 모델이 거대 AI를 이긴 이유

정렬 과제에서 3D-Layout-R1은 최신 모델의 성능을 IoU 기준으로 약 20% 정도 향상된 성능을 보였다. 더 중요한 점은 충돌이 거의 없었다는 것이다. 기존 모델들이 만든 배치에서는 물체 5개 중 1~2개가 다른 물체와 겹쳤지만, 새 모델은 모든 물체가 깔끔하게 분리됐다.

공간 정렬 과제는 더 까다롭다. 무작위로 흩어진 물체를 보고 원래 있어야 할 자리를 추론한 뒤 되돌려놓아야 한다. 제미나이 2.5 프로는 물체 10개 중 7~8개를 대략적인 위치로 복원했다. 3D-Layout-R1은 9개 이상을 정확한 격자 위치에 맞춰 배치했다. 흥미로운 점은 훨씬 작은 모델이 대형 상용 모델을 이긴다는 사실이다. 엔비디아 연구진이 훈련시킨 소형 모델도 경쟁력 있는 성능을 보였다는 것이다. 이는 모델 크기보다 추론 구조가 더 중요하다는 증거다.

방 편집 과제에서는 차이가 더 극명했다. 제미나이나 딥시크는 물체 3개 중 1~2개를 대략적인 위치에 놓는 수준이었다. 3D-Layout-R1은 더 높은 정확도로 물체를 배치했다. 특히 "의자는 책상으로부터 팔 두 뼘 정도 떨어뜨려라" 같은 거리 제약까지 정확히 지켰다. 더 놀라운 점은 단순히 강화학습만 적용하면 오히려 성능이 제한적이라는 발견이다. 구조화된 단계별 추론을 먼저 가르치고, 그 위에서 강화학습으로 미세 조정하는 2단계 전략이 핵심이었다.

그림 6. 실제 로봇을 이용한 테이블 위 물체 재배치 및 집기-놓기 작업
그림 6. 실제 로봇을 이용한 테이블 위 물체 재배치 및 집기-놓기 작업



창고에서 거실까지, 한 번 배우면 어디서나 통한다

연구진은 실제 로봇 팔로도 가능성을 확인했다. 카메라가 테이블 위 물체를 촬영하면, 3D-Layout-R1이 "노란 컵을 노란 그릇에 넣어라"는 명령을 해석해 목표 배치를 생성한다. 그러면 로봇 제어 프로그램이 그 배치를 따라 팔을 움직여 작업을 완수했다. AI는 로봇 동작을 직접 배운 적이 없지만, 명확한 목표를 제시하는 것만으로도 기존 로봇 시스템과 협업할 수 있었다.

더 흥미로운 점은 창고 시뮬레이션 실험이다. 연구진은 창고 데이터로 모델을 재훈련하지 않았다. 그런데도 "상자를 높이 순으로 정렬하고, 팔레트가 가장 적은 구역에 배치하라"는 실무 지시를 정확히 따랐다. 이는 구조화된 추론이 특정 환경에만 맞춰진 것이 아니라, 장면 그래프라는 범용적 표현 덕분에 새로운 상황에도 적응한다는 증거다. 식당 주방에서 일하던 요리사가 카페 주방에서도 레시피만 보면 요리할 수 있는 것과 비슷하다.

다만 한계도 있다. 물체 이름이 없거나 위치 정보가 부정확한 상황에서는 시각 정보를 함께 처리하는 비전-언어 모델이 텍스트만 다루는 모델보다 훨씬 나았다. 이는 불완전한 정보를 이미지로 보완하는 능력이 중요하다는 뜻이다. 또한 대형 비전-언어 모델을 훈련시켰을 때 기대만큼 성능이 오르지 않았는데, 이는 시각 정보를 활용하는 방식 자체를 개선해야 한다는 과제를 남긴다.

중간 단계를 보여주는 AI가 신뢰받는다

3D-Layout-R1이 보여주는 핵심 교훈은 '중간 단계를 투명하게 만들면 AI가 더 똑똑해진다'는 것이다. 기존 방식은 AI의 사고 과정이 블랙박스처럼 감춰져 있어서, 뭔가 잘못됐을 때 어디서부터 고쳐야 할지 알 수 없었다. 새로운 방식은 각 단계를 명확한 카드 수정으로 기록하기 때문에, 2단계에서 실수했다면 2단계만 다시 고치면 된다. 이는 의료 진단이나 법률 자문처럼 추론 과정을 설명해야 하는 분야에도 적용 가능한 원리다.

또 다른 교훈은 '기초 훈련과 실전 최적화를 분리하라'는 것이다. 처음부터 강화학습으로 모든 것을 학습시키려 하면 방향을 잃는다. 먼저 구조화된 추론으로 기본기를 다지고, 그 위에서 점수 기반 학습으로 다듬는 2단계 전략이 효과적이다. 이는 언어 학습에서 문법을 먼저 배우고 대화 연습으로 유창성을 높이는 과정과 비슷하다.

남은 질문은 이 방법이 얼마나 확장될 수 있느냐다. 현재는 가구 배치 같은 정적인 작업에 집중하지만, "공을 굴려서 목표 지점에 맞춰라" 같은 동적 물리 시뮬레이션으로 확장되면 어떻게 될까. 또한 현재 데이터는 1만 5천 개 수준이지만, 수백만 개의 다양한 장면으로 학습하면 AI의 공간 지능은 인간 수준에 근접할 가능성이 있다. 다만 비전 정보를 더 효과적으로 활용하는 방법은 아직 개선의 여지가 크다. 보는 것과 이해하는 것 사이의 간극을 좁히는 일이 다음 과제로 남아 있다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. 3D-Layout-R1이 기존 AI와 다른 점은 무엇인가요?
기존 AI는 "의자를 옮겨라"는 명령에 추상적인 설명만 제공하지만, 3D-Layout-R1은 장면 그래프라는 명확한 카드 목록을 단계별로 수정합니다. 각 단계가 투명하게 기록돼 어디서 실수했는지 즉시 확인하고 수정할 수 있습니다.

Q2. 어떤 작업에 실제로 사용할 수 있나요?
가상 공간 디자인, 로봇 작업 계획, 창고 물류 자동화, 건축 시뮬레이션 등에 활용 가능합니다. "상자를 높이 순으로 정렬하고 팔레트가 적은 구역에 배치하라"는 복잡한 명령도 정확히 수행합니다.

Q3. 일반 사용자도 이 기술을 쓸 수 있나요?
현재는 연구 단계이지만, 향후 3D 게임 에디터, 메타버스 공간 설정, 스마트 홈 가구 배치 앱 등에 통합될 가능성이 있습니다. 자연어만으로 복잡한 공간 재배치가 가능해지는 시점이 올 수 있습니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

리포트명: 3D-Layout-R1: Structured Reasoning for Language-Instructed Spatial Editing

이미지 출처: AI 생성 콘텐츠

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 기획뉴스 전체 둘러보기
4/1
[겜덕연구소] 게임 생태계를 변화시킬 만큼 혁신이었던 레트로 게임들! (3) 게임동아
DDR4용 CPU 구하기 더 힘들어진다? 인텔이 14세대 CPU 공급을 줄이는 이유는? 동영상 있음 보드나라
[정보/루머] 스트릭스 헤일로 잡을 노바 레이크-AX 떡밥 및 RTX 5090 Tiㆍ타이탄 블랙웰 준비설 등 다나와
[김훈기 칼럼] "돈 많은 시장도 멈췄다" 중동발 자동차 산업 경고 (1) 오토헤럴드
[모빌리티 인사이트] '리스크가 된 속도전' BYD로 드러난 중국의 한계 (1) 오토헤럴드
[EV 트렌드] '이상 징후 시작' 테슬라 1분기 판매 시장 기대치 하회  오토헤럴드
AI가 사람 움직임을 '언어'처럼 이해하게 됐다 AI matters
"의자를 책상 앞에"라는 말만으로 AI가 3D 공간을 완벽하게 재배치한다 AI matters
AI에게 '자신 없으면 나중에 써'라고 했더니, 속도가 10배 빨라졌다 AI matters
[체험기] 윙 건담 제로 3돌 감사합니다! SD 건담 지 제네레이션 이터널 1주년 달려보니 게임동아
[EV 트렌드] '모델 S·X 단종 공식화' 테슬라 플래그십 역사 마침표 오토헤럴드
탐험 없이 배틀에만 집중한 신작, 포켓몬 챔피언스 게임메카
[매장탐방] 스위치 2 품절 일으킨 ‘포코피아’ 열풍 (1) 게임메카
포드 블루크루즈 "섣부른 기술에 운전자 과신이 치명적 사고 초래" 오토헤럴드
BMW iX3, 2026 월드카 어워즈 '왕중왕' 등극... 전기차 부문까지 2관왕 오토헤럴드
현대차, '뼛속까지 미국산' 정통 프레임 보디 픽업 '볼더 콘셉트' 공개 (1) 오토헤럴드
'셀토스·EV3 동시 출격' 기아, 뉴욕서 북미 전략 모델 대거 공개 오토헤럴드
오픈월드 액션 어드벤처 속으로!, 펄어비스(Pearlabyss) 붉은사막(Crimson Desert) 블루프레임
이거 보고 빠지면 너도 일주일 밤 샌다... 붉은사막 종결 입문자 가이드 동영상 있음 집마 홀릭TV
BMW는 왜 듣보 배터리로 새 플랫폼에 재를 뿌렸을까? 동영상 있음 오토기어
이 시간 HOT 댓글!
1/4