자율주행 레벨4 차량이 인간처럼 복잡한 도심을 통과하기 위해 필수적인 데이터 수집 방식에 거대한 변화가 일고 있다. 그동안 웨이모와 같은 선두 기업들은 실제 도로에서 수천만 마일의 주행 데이터를 수집하기 위해 수십억 달러를 투입해 왔다. 최근 생성형 AI와 확산 모델(Diffusion Model)을 활용해 물리적 한계를 극복하는 합성 데이터 기술이 새로운 대안으로 급부상하고 있다.
실리콘밸리의 스타트업 디퓨즈드라이브(DiffuseDrive)는 고객이 이미 확보한 기초 데이터를 마이닝하여 공백 영역을 찾아내고, 이를 기반으로 실제와 다름없는 고품질 합성 이미지를 생성하는 기술을 선보였다. 이 방식은 도로 위에서 마주치기 어려운 예외 사례(Edge Case)나 기상 악화 등 특수한 상황을 시나리오 정의만으로 무수히 만들어낼 수 있다는 점이 핵심이다. 특히 거대언어모델(LLM)이 구조화된 프롬프트를 통해 감독 역할을 수행하고 확산 모델이 노이즈를 필터링하며 정교한 이미지를 출력하는 기술적 토대를 갖췄다.
이러한 합성 데이터의 효용성은 이미 실제 산업 현장에서 입증되고 있다. 글로벌 자동차 부품 공급사는 유럽의 개인정보 보호법(GDPR) 규제로 인해 실제 사람이나 번호판이 포함된 영상 데이터를 사용하기 어려운 문제를 합성 데이터 도입으로 해결하고 있다. 방위산업 분야에서도 위성 이미지를 기반으로 전장 상황의 합성 데이터를 생성해 아군과 적군의 자산을 식별하고 자율 이동 임무를 훈련하는 데 적극 활용 중이다.
시장 분석가들은 현재 4억 달러 규모인 합성 시각 데이터 시장이 2030년에는 20억 달러까지 성장할 것으로 내다보고 있다. 디퓨즈드라이브는 최근 500만 달러 규모의 투자를 유치하며 자동차를 넘어 로봇공학, 농업, 항공 등 피지컬 AI가 필요한 전 산업 분야로 보폭을 넓히고 있다. 실제 도로 주행 데이터 수집에 드는 막대한 비용과 시간을 줄이면서도 인식 성능을 대폭 향상할 수 있는 이 기술은, 향후 자율주행 시장의 진입 장벽을 낮추고 기술 반복 주기를 혁신적으로 단축할 전망이다.








