드론 AI, 혼자 날 땐 천재인데 협력은 바보... 최신 모델도 '팀워크' 취약 : 다나와 DPG는 내맘을 디피지

아랍에미리트 연방대학교 연구팀이 자율비행 드론의 판단 능력을 체계적으로 평가할 수 있는 대규모 테스트 자료 'UAVBench'를 공개했다. 이 자료는 AI가 만든 5만 개의 검증된 비행 상황과 5만 개의 객관식 문제로 구성되어 있으며, 드론 AI의 물리 법칙 이해부터 윤리적 판단까지 10가지 영역을 종합적으로 평가한다. GPT-5, ChatGPT 4o, Gemini 2.5 Flash 등 32개 최신 AI 모델을 테스트한 결과, 날씨 인식이나 규칙 이해에서는 강점을 보였지만 여러 드론이 협력하는 상황이나 에너지 관리, 윤리적 의사결정에서는 여전히 한계가 드러났다.

AI가 만든 5만 개 비행 상황... 다단계 검증으로 현실적 상황만 선별된다

UAVBench는 드론 비행 상황을 대규모로 생성하기 위해 임무 종류, 비행 공간, 날씨, 드론 기종, 탑재 장비 등의 분류 체계를 활용해 다양한 시나리오를 자동으로 만들어낸다. 각 시나리오 데이터에는 시뮬레이션 조건, 드론 설정, 환경 요소, 임무 목표, 안전 제약 등이 구조화되어 포함된다.

드론 설정 단계에서는 에너지 소비 계산이 중심 역할을 한다. 공중 정지 시 필요한 전력, 속도에 따른 공기 저항 증가, 조종간 움직임에 필요한 에너지를 모두 합산하고 배터리 용량과 예비 에너지를 고려해 현실적 비행이 가능한지 검증한다. 탑재 장비는 200종 이상의 표준 센서 및 장비(카메라, 열화상, 라이다, 통신 등)가 각기 무게, 전력 소비, 공기 저항 특성을 반영하여 시뮬레이션된다.

모든 자동 생성 시나리오는 ▲필수 정보 누락 ▲임무-기체-환경 논리 불일치 ▲허용된 비행 공간 및 고도 체크 ▲다수 기체의 안전 거리 및 충돌 시간 검증을 포함하는 네 단계 이상의 다층 검증 과정을 거쳐, 구조·운영·물리·안전이 모두 확보된 현실적 비행 상황만 최종 데이터셋에 포함된다. 검증된 상황에는 위험 수준(0~3단계)과 안전 범주 태그(날씨, 항법, 에너지, 충돌 회피 등)가 자동으로 붙는다.

10가지 사고 유형으로 드론 AI 능력 다각도 평가... 윤리 문제는 7지선다

UAVBench_MCQ는 검증된 상황을 10가지 사고 유형의 5만 개 객관식 문제로 변환한 평가 자료다. 사고 유형은 공기역학 및 물리, 경로 계획, 규정 준수, 환경 및 센서 융합, 다수 드론 협력, 사이버 보안, 에너지 및 자원 관리, 윤리 및 안전 의사결정, 시스템 비교, 통합 판단으로 구성된다.

문제 생성 과정에서는 엄격한 제약이 적용된다. 모든 질문은 원본 상황 데이터에 포함된 정보만을 근거로 하며, 질문 길이는 28단어 이하, 선택지 길이는 14단어 이하로 제한된다. 윤리 및 안전 의사결정 평가의 경우 7개 선택지를 사용해 인간 안전을 최우선으로 하는 윤리적 선택을 명시적으로 포함한다. 나머지 사고 유형은 일반적으로 4지선다 형식을 따른다.

데이터 통계를 보면 규정 준수 문제가 6,363개로 가장 많고, 에너지 관리가 5,549개, 환경 및 센서 융합이 5,259개 순이다. 질문 길이는 대부분 15~25단어 사이에 분포하며, 선택지는 '하강', '상승', '증가', '전환', '사용' 등의 동사로 시작하여 드론 비행 조작과 의사결정의 특성을 반영한다.

중국 AI 모델이 종합 1위... 하지만 윤리와 협력은 모든 모델이 어려워해

32개 AI 모델 평가 결과, 중국 알리바바의 Qwen3 235B 모델이 평균 정확도 83.5%, 균형 점수 0.74로 1위를 차지했다. 이어 OpenAI의 ChatGPT 4o(80.3%, 0.68), GPT-5 Chat(80.2%, 0.68), Qwen3 Max(79.8%, 0.68) 순으로 나타났다.

인식 및 물리 세계 판단 부문에서 Qwen3 235B는 공기역학 82.5%, 환경 센서 융합 97.0%로 평균 89.8%를 기록했다. 거의 모든 모델이 환경 및 센서 융합 과제에서 공기역학 과제보다 높은 정확도를 보였는데, 이는 현재 AI가 감각 정보 통합에는 강하지만 동적 물리 법칙 추론에는 상대적으로 약함을 보여준다.

계획 및 자원 판단 부문에서 Qwen3 235B는 경로 계획 81.5%, 다수 드론 협력 76.5%, 에너지 관리 71.5%로 평균 76.5%를 달성했으나, 최고 성능 모델도 다수 드론 협력과 에너지 관리에서는 80%를 넘지 못했다. 이는 여러 드론이 함께 작동하며 에너지를 효율적으로 쓰는 판단이 여전히 어렵다는 것을 보여준다.

규정, 윤리 및 보안 판단 부문에서는 모든 모델이 사이버 보안 과제(95~98%)에서 매우 높은 정확도를 보인 반면, 규정 준수와 윤리 및 안전 의사결정 과제에서는 상대적으로 낮은 성능을 기록했다. Qwen3 235B는 규정 준수 76.0%, 윤리 의사결정 75.5%, 사이버 보안 96.5%로 평균 82.7%를 달성했다. 이는 AI가 기술적 대응은 잘 인식하지만, 법적 규정 준수나 불확실한 상황에서의 윤리적 선택에서는 여전히 어려움을 겪고 있음을 나타낸다.

시스템 비교 및 통합 판단 부문에서 Qwen3 235B는 시스템 비교 95.5%, 통합 판단 83.0%로 평균 89.3%를 기록했으나, 서로 다른 판단 영역을 하나로 통합하는 것은 여전히 어려운 과제로 남아 있다.

FAQ ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. UAVBench는 어떤 종류의 드론 임무를 평가할 수 있나요?

A: UAVBench는 시설물 점검, 배송, 정찰, 수색 구조, 여러 대 협력, 안전 중요 상황, 화재·유해물질 대응, 해양 작전 등 다양한 임무를 포함합니다. 각 상황은 도심, 산악, 사막, 지하 공간 등 다양한 환경과 비, 바람, 안개, 결빙, 번개 등 복잡한 날씨를 반영하며, 회전날개, 고정날개, 하이브리드 드론의 물리적 특성을 모두 고려합니다.

Q2. 왜 대부분의 AI 모델이 다수 드론 협력과 윤리 판단에서 낮은 점수를 받았나요?

A: 여러 대의 드론이 함께 작동할 때는 서로 부딪히지 않으면서 임무를 나눠야 하므로 복잡한 협력 판단이 필요합니다. 윤리 판단은 인간 안전, 법적 규정, 자원 제약 등 여러 가치를 동시에 고려해야 합니다. 현재 AI는 한 대의 드론이 날아가는 물리적 계산에는 강하지만, 복수의 목표를 통합하고 불확실한 상황에서 도덕적 선택을 하는 능력은 아직 부족합니다.

Q3. 균형 점수는 일반 정확도와 무엇이 다른가요?

A: 일반 정확도는 전체 문제 중 몇 개를 맞혔는지만 보여주지만, 균형 점수는 10가지 사고 유형별 정확도를 종합한 후 편차에 따라 감점합니다. 예를 들어 한 모델이 물리 계산에서는 95%를 맞히지만 윤리 판단에서는 50%밖에 못 맞힌다면, 평균은 높아도 균형 점수는 낮게 나옵니다. 안전이 중요한 드론 AI는 특정 영역에 치우치지 않고 모든 상황에서 고르게 잘 판단해야 하므로, 균형 점수가 더 신뢰할 수 있는 지표가 됩니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: UAVBench: An Open Benchmark Dataset for Autonomous and Agentic AI UAV Systems via LLM-Generated Flight Scenarios

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

대원씨티에스, ASRock 라데온 그래픽카드 구매 고객 대상 ‘포토리뷰’ 이벤트	다나와
서린씨앤아이 'KLEVV DDR5 RGB' 메모리 탑재 조립PC 구매 시 마우스 증정	다나와
MSI코리아 'Roamii BE Lite' 고객 대상 프로모션 진행	다나와
마이크로닉스, 그레이트월과 AI·서버 전원 솔루션 협력 MOU 체결	다나와
조텍코리아, 설 명절 맞아 VIP 등급별 감사 선물 이벤트 진행	다나와
MSI, 게이밍기어 구매 고객 대상 2월 이벤트 진행	다나와
EFM네트웍스, 인텔 쿼드코어 CPU 및 NVMe탑재 4베이 NAS ‘ipTIME NAS400plus’ 출시 이벤트	다나와
AMD, 지능형 고성능 시스템을 위한 2세대 킨텍스 울트라스케일+ 발표	다나와
서린씨앤아이, 유통 제품으로 구성된 조립PC 고객에 사은품 증정	다나와
이해찬 회고록, 예스24 2월 1주 종합 베스트셀러 1위…중장년 독자층 중심 ‘역주행’	뉴스탭
KLEVV DDR5 RGB 조립PC 사면 게이밍 마우스 증정…서린씨앤아이 2월 프로모션	뉴스탭
크래프톤, ‘PUBG: 블라인드스팟’ 얼리 액세스 글로벌 오픈…무료 플레이로 첫선	뉴스탭
펄어비스 ‘붉은사막’, 전투와 성장의 정수 공개…두 번째 프리뷰 영상 화제 (1)	뉴스탭
후지필름 코리아, 파티클서 이슬로 개인전 개최…‘캐릭터’로 감정의 구조를 묻다	뉴스탭
홍콩반점0410, 2월 10일 하루 짜장면 3,900원…‘국민응원 캠페인’ 진행	뉴스탭
시들지 않는 고백…레고, 성수에서 발렌타인데이 팝업 연다	뉴스탭
봄맞이 PC 업그레이드 기회…서린씨앤아이, HYTE X50 구매 시 쿨링팬 4팩 증정	뉴스탭
삼성전자, ‘찾아가는 바로 서비스’ 운영…주거지 인근서 점검·수리·상담 원스톱 제공	뉴스탭
홈카페 수요 확산에 쿠쿠 끓인물 정수기·커피머신 판매 증가세	뉴스탭
UAE 소버린 블록체인 실증에 한국 기업 합류…H2O, 디르함 스테이블코인 결제 맡는다	뉴스탭
크록스, 10년 만의 새 글로벌 메시지 공개… ‘유쾌하게 나답게’ 선언	뉴스탭
코딩 넘어 ‘일하는 AI’로… OpenAI, GPT-5.3-코덱스 전격 공개	뉴스탭
세계 최고 티 마스터를 향한 도전…공차코리아, 2026 공차 게임즈 한국 대표 확정	뉴스탭
공효진과 만난 드파운드, 봄을 입다…2026 스프링 컬렉션 공개	뉴스탭
밸런타인데이 술 공식이 바뀌었다…로제·하이볼·콤부차주가 뜬다	뉴스탭
새해 건강 트렌드에 러닝화 매출 ‘껑충’…고어텍스·레이싱화가 이끌었다	뉴스탭
영화 속 사랑을 하룻밤으로…에어비앤비, ‘폭풍의 언덕’ 캐시의 침실 공개	뉴스탭
부부 수면도 분리 시대, 트윈·모션 침대가 뜬다	뉴스탭
영하권 한파에 난방가전 ‘불티’, 신일전자 겨울가전 매출 179% 급증	뉴스탭
K팝 세계관이 레고 브릭으로…넷플릭스 ‘케이팝 데몬 헌터스’ 협업	뉴스탭
에어프랑스, 프랑스 전역 기차로 연결된다…‘트레인+에어’ 대폭 확대	뉴스탭
RTX 5090은 망고, RTX 5080은 황남빵…조텍 VIP 이벤트 진행	뉴스탭
AMD, 중급형 FPGA 성능 판 다시 쓴다… 2세대 킨텍스 울트라스케일+ 공개	뉴스탭
일상부터 장거리 여행까지, 파타고니아 ‘리퓨지오 데이팩’ 강화 라인업 공개	뉴스탭
디월트, 코리아빌드위크 참가…현장 맞춤 솔루션과 체험형 전시로 존재감 확대	뉴스탭
설 선물로 건강기능식품 인기…구매 전 꼭 확인해야 할 4가지	뉴스탭
안성재 셰프가 완성한 ‘쾌락적 미식’, 푸라닭 ‘마요피뇨’ 공개	뉴스탭
설 명절 주방의 공식, 작을수록 손해다…대용량 가전이 뜬다 (1)	뉴스탭
배틀그라운드 40.1 업데이트, 에란겔 맵 원형 복귀와 전투 편의성 강화	뉴스탭
벤틀리, 680마력 하이브리드 ‘컨티넨탈 GT·GTC S’ 공개…퍼포먼스 라인업 확장	뉴스탭
지포스 RTX 50 구매 후기 남기면 굿즈 증정…조텍코리아, 2월 이벤트 진행	뉴스탭
설날에 5만원 미니 PC 찬스…조텍코리아 ZBOX 래플 이벤트 진행	뉴스탭
드론 예술의 정점, 스카이픽셀 공모전에 전 세계 4만5천 작품 몰렸다	뉴스탭
AI 서버 전원 시장 공략…마이크로닉스·그레이트월 전략적 동맹	뉴스탭
서린씨앤아이, 새 학기 맞아 ‘UPGRADE YOUR LIFE’ 조립PC 구매 프로모션 진행	뉴스탭
신학기 PC·노트북 고민 끝, MSI G마켓 라이브 한정 혜택 공개	뉴스탭
에이수스, 대원씨티에스와 손잡고 ROG·TUF 게이밍 기어 국내 유통 확대	뉴스탭
씰리침대, 하이엔드 매트리스 ‘크라운쥬얼’ 전국 주요 매장으로 판매 확대	뉴스탭
폭스바겐, 테슬라 꺾고 유럽 전기차 판매 1위 탈환 (1)	글로벌오토뉴스
제프 베이조스가 선택한 '슬레이트 오토', 2만 달러대 조립식 전기 픽업 내년 양산	글로벌오토뉴스
메르세데스-AMG, 4기통 버리고 6기통·V8 귀환… 브랜드 전략 전면 수정 (2)	글로벌오토뉴스
BMW M 드라이빙 익스피리언스, 'AREA M'으로 새 단장	글로벌오토뉴스
포드, 3,000만 원대 '가성비' 전기 픽업 공개… 중국 공세에 맞불	글로벌오토뉴스
현대자동차, 유럽시장에 '아이오닉 3' 필두로 신차 5종 투입	글로벌오토뉴스
아우디, '홀수 내연기관·짝수 전기차' 명명법 폐기… 다시 A4 이름 되찾나	글로벌오토뉴스
아우디·벤츠 도입한 '어댑티브 브레이크' 7월부터 신차 의무화	글로벌오토뉴스
자연스러운 조작감, 빠른 차보다 편한 차가 필요한 시대	글로벌오토뉴스
볼보 S90 T8, ‘2026 대한민국 올해의 차’ 하이브리드 세단 부문 수상	글로벌오토뉴스
AI 코딩 에이전트의 치명적 DB 실수 막는다... 슈퍼베이스 가이드 공개	AI matters
"AI가 코드 짜고 오류 고친다"… 애플, 개발 도구에 클로드·코덱스 탑재	AI matters
AI 발전시킨다던 오라클, 정작 데이터센터 설립 자금 마련하려 3만 명 해고 추진 (1)	AI matters
[공수전환] '달라지는 소형 SUV 선택 기준' 셀토스 vs 트레일블레이저	오토헤럴드
[EV 트렌드] 테슬라, 한국·유럽 동반 부진…한국 54%, 영국 57% 급감	오토헤럴드
기아, 영국 신차 시장 No.2 '스포티지' 베스트셀링카 탑 모델 등극	오토헤럴드
신문ㆍTV 광고는 헛 돈, 신차 살 때 '유튜브ㆍOTT' 영향력 3배 높아 (1)	오토헤럴드
한국타이어, 美 고난도 오프로드 레이스 ‘킹 오브 더 해머스 2026’ 참여	오토헤럴드
'해치백은 잊어라' 현대차, 차세대 바이욘에서 소형 SUV 정체성 강화	오토헤럴드
현대차그룹, 美 3대 유력 매체 간택 받아 연속 수상...팰리세이드 2관왕	오토헤럴드
폭스바겐 아틀라스, 자동차전문기자협회 선정 '올해의 내연기관 SUV’ 수상	오토헤럴드
롤스로이스, 최초 순수 전기차 '스펙터' 라인업에서 확고한 존재감 구축	오토헤럴드
'스텔란티스 문제 제기' 유럽 공략 가속하던 BYD, 이탈리아 광고 규제에 발목	오토헤럴드
[EV 트렌드] '전기차 대신 로봇' 패러데이 퓨처, 최대 5100만 원 라인업 3종 공개	오토헤럴드
현대차 전기차 라인업의 가장 작은 조각 '아이오닉 3'	오토헤럴드
외국인 국내 운전면허증 취득 부정행위 차단, 운전면허 학과시험 관리 강화	오토헤럴드
[영상] BYD 돌핀 국내형 상세 스펙 & 국산 경쟁모델 비교 총정리	글로벌오토뉴스
포드-지리, 유럽서 적과의 동침 가속화… 관세 장벽 넘고 자율주행 기술 결합	글로벌오토뉴스
현대모비스, 유럽 3사와 쿼드 얼라이언스 결성… 2029년 홀로그램 글래스 양산	글로벌오토뉴스
토요타 bZ, 미국 시장서 현대 아이오닉 5 제치고 급부상	글로벌오토뉴스
테슬라, 영국과 유럽 시장서 판매 급락… 중국 BYD는 무서운 추격세	글로벌오토뉴스
BMW, 노이어 클라쎄 i3 프리시리즈 생산 돌입… 1회 충전 800km 시대 연다	글로벌오토뉴스
중국 S볼트, 화재·전기 완전 분리한 드래곤 아머 3.0 배터리 공개 (1)	글로벌오토뉴스
토요타, 2028년 하이브리드 전기차 30% 많은 670만 대 생산 계획	글로벌오토뉴스
독일, 2025년 전기차 생산 122만 대 돌파… 중국 이어 세계 2위	글로벌오토뉴스
폴스타, 테슬라 슈퍼차저 통합 완료… 유럽 전역 100만 개 충전 거점 확보	글로벌오토뉴스
오토노머스에이투지, 일본 도쿠시마현서 자율주행 택시 실증 착수	글로벌오토뉴스
BMW 코리아, 2월 온라인 한정 ‘베스트셀러 에디션’ 3종 출시	글로벌오토뉴스
롤스로이스 스펙터, 10만km 주행 후에도 배터리 성능 99% 유지	글로벌오토뉴스
폭스바겐 아틀라스, ‘2026 대한민국 올해의 내연기관 SUV’ 수상	글로벌오토뉴스
르노코리아 필랑트, 한국자동차기자협회 선정 ‘2월의 차’ 등극	글로벌오토뉴스
한국자동차모빌리티안전학회, UNECE WP.29 AI 전문가 회의 참여	글로벌오토뉴스
아우디 코리아, ‘2025 아우디 딜러 어워즈’ 개최… 태안모터스 대상 영예	글로벌오토뉴스
현대차그룹, 美 주요 자동차 어워즈 싹쓸이… 글로벌 시장 경쟁력 입증	글로벌오토뉴스
한국타이어, 美 극한 오프로드 ‘킹 오브 더 해머스’ 출격	글로벌오토뉴스
애스턴마틴-브라이틀링, 공식 시계 파트너십 체결	글로벌오토뉴스
BYD 공식 딜러 DT네트웍스, 스타필드서 ‘전 라인업’ 시승 행사 개최	글로벌오토뉴스
[컨슈머인사이트] 자동차 살 때 정보 어디서? ‘넷플릭스·유튜브’가 ‘신문·TV’ 압도	글로벌오토뉴스
대원씨티에스, ASRock X870 · B850 메인보드 고객 대상 ‘포토리뷰’ 이벤트	다나와
MSI코리아 'Roamii BE Lite' 후기 이벤트 진행	다나와
조텍코리아, RTX 50 시리즈 구매자 대상 굿즈 증정 2월 구매 후기 이벤트	다나와
벤큐, 새학기 맞이 모니터 / 마우스 고객 대상 ‘포토후기 이벤트’ 진행	다나와

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

드론 AI, 혼자 날 땐 천재인데 협력은 바보... 최신 모델도 '팀워크' 취약

관련 카테고리

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

드론 AI, 혼자 날 땐 천재인데 협력은 바보... 최신 모델도 '팀워크' 취약

공유하기

공감/비공감

관련 카테고리