AI는 시각장애인의 눈이 될 수 있을까? 세계 최초 1인칭 시점 AI 비디오 기술 등장 : 다나와 DPG는 내맘을 디피지

EgoBlind: Towards Egocentric Visual Assistance for the Blind People

전 세계 22억 명 시각장애인을 위한 최초의 1인칭 시점 비디오 데이터셋 'EgoBlind'

현재 전 세계에는 약 22억 명의 시각장애인이 살고 있다. 이들이 일상생활을 더 독립적으로 영위할 수 있도록 돕는 기술은 계속해서 발전하고 있으며, 최근 다중 모달 대규모 언어 모델(MLLM)의 발전으로 시각적 질의응답(VQA) 기술이 크게 향상되었다. 그러나 지금까지 대부분의 VQA 데이터셋은 제3자 시점이나 일반적인 이미지와 비디오 이해에 초점을 맞추고 있어, 실제 시각장애인의 관점에서 필요한 실시간 지원에는 한계가 있었다.

싱가포르 국립대학교, 중국 커뮤니케이션 대학교, 중국 과학기술대학교, 허페이 공과대학교 연구팀이 공동으로 개발한 'EgoBlind'는 시각장애인의 1인칭 시점에서 촬영된 비디오를 기반으로 한 최초의 VideoQA 데이터셋이다. 이 데이터셋은 시각장애인이 직접 착용한 카메라로 촬영된 1,210개의 비디오와 4,927개의 질문을 포함하고 있으며, 이 질문들은 시각장애인이 직접 제기하거나 검증한 것들로 구성되어 있다.

"길이 앞에 있나요?" - 시각장애인이 실제 일상에서 가장 필요로 하는 6가지 정보 유형

EgoBlind 데이터셋은 시각장애인이 일상생활에서 필요로 하는 지원 유형을 여섯 가지 주요 카테고리로 분류했다.

정보 판독(Information Reading): 시각장애인이 알고 싶어하는 특정 정보 획득. 예: "이 메뉴에는 무엇이 있나요?", "지금 엘리베이터는 몇 층인가요?"
안전 경고(Safety Warning): 주변 환경의 물리적 안전 위험이나 인적 요소 관련 위험 판단. 예: "길을 건널 때 차가 지나가고 있나요?", "에스컬레이터의 방향은 어떻게 되나요?"
길 안내(Navigation): 실내외 이동 시 필요한 방향과 위치 정보. 예: "화장실은 어디에 있나요?", "지금 내가 출구를 향해 서 있나요?"
사회적 소통(Social Communication): 주변 사람들과의 상호작용 및 다중 활동을 위한 상태 정보 파악. 예: "지금 누가 나에게 말하고 있나요?", "안내견이 엘리베이터에 안전하게 탔나요?"
도구 사용(Tool Use): 각종 도구나 기기 사용 방법. 예: "전자레인지는 어떻게 사용하나요?", "이 문은 어떻게 여나요?"
기타 자원(Other Resources): 주변의 서비스 시설이나 활동 정보. 예: "근처에 시각장애인용 보행로가 있나요?", "특정 브랜드 상점이 있나요?"

이 분류는 시각장애인의 실제 필요에 기반하여 만들어진 것으로, 연구팀은 시각장애인 참가자들을 대상으로 광범위한 설문조사를 실시해 각 질문 유형의 실질적 유용성을 검증했다.

GPT-4o도 인간보다 30%p 뒤처진다 - 15개 최신 AI 모델의 성능 실험 결과

연구팀은 EgoBlind 데이터셋을 활용해 현재 최고 수준의 MLLM 15개(GPT-4o, Gemini 2.0 등의 상용 모델 3개와 InternVL2, LLaVA-OV 등의 오픈소스 모델 12개)의 성능을 종합적으로 평가했다. 그 결과, 모든 모델이 시각장애인을 위한 실시간 지원에 상당한 한계를 보였다.

주요 발견 사항:

가장 성능이 좋은 모델(Gemini 2.0)도 정확도가 56.6%에 그쳐, 인간 성능(87.4%)에 비해 약 30%p 낮았다.
상용 모델과 최고 성능의 오픈소스 모델 간 성능 차이가 크지 않았다.
일반적인 자기 중심적 VQA나 시각장애인용 이미지 QA에서 좋은 성능을 보이는 모델이 반드시 EgoBlind에서도 좋은 성능을 보이지는 않았다.
특히 '길 안내', '안전 경고', '도구 사용' 질문에서 모델들의 성능이 현저히 떨어졌다.

"이 차가 움직이고 있나요?" - AI가 시각장애인의 가장 중요한 질문에 답하지 못하는 5가지 이유

연구팀은 다양한 질문 유형과 실패 사례를 분석하여 다음과 같은 주요 문제점을 식별했다.

사용자 의도 이해 부족: AI는 시각 콘텐츠에 대해 객관적으로 정확한 답변을 제공할 수 있지만, 동적인 자기 중심적 시각 맥락 내에서 시각장애인의 의도를 추론하는 데 한계를 보였다. 예를 들어, "앞에 길이 있나요?"라는 질문에 장애물이 있음에도 단순히 "네"라고 대답하는 경우가 많았다.
실시간 공간 인식 문제: 모델들은 시각장애인 사용자가 움직일 때 사용자 기준의 공간 방향(예: "내 오른쪽에 있는 제품은 무엇인가요?")을 효과적으로 업데이트하지 못했다.
시간적 맥락 추론 한계: 모델들은 비디오의 시간적 맥락을 추론하고 사용자의 실시간 위치에 상대적인 객체를 파악하는 데 어려움을 겪었다.
장애물 식별 부족: '안전 경고' 질문에서 모델들은 실제 장애물을 정확히 식별하고 경고하는 데 한계를 보였다.
비현실적 답변(Sycophancy): 모델들, 특히 오픈소스 모델들은 시각장애인이 실제로 존재하지 않는 대상에 대해 질문할 때 잘못되거나 잠재적으로 해로운 답변을 제공하는 경향이 있었다.

이 연구는 시각장애인을 위한 AI 지원 기술 개발의 중요한 방향을 제시하고 있다. 연구팀은 향후 개선을 위해 사용자 의도에 대한 더 나은 이해, 연속적인 비디오 프레임의 미묘한 차이에 민감한 모델 개발, 장기 기억 기술 적용, 시각장애인의 실제 필요에 초점을 맞춘 훈련 데이터 합성 등을 제안했다.

87.4%의 인간 성능 VS 56.6%의 AI 성능 - 실질적인 시각장애인 지원 기술의 미래 전망

EgoBlind 연구는 시각장애인의 실제 필요에 부합하는 AI 시각 지원 기술 개발에 중요한 기반을 마련했다. 이 데이터셋은 현재 MLLM 모델들의 한계를 분명히 보여주는 동시에, 향후 연구 방향에 대한 통찰력을 제공한다.

특히, 시각장애인의 1인칭 시점에서의 동적 장면 이해, 실시간 맥락 인식 사용자 의도 추론, 지원 중심의 답변 생성 등 세 가지 핵심 과제를 해결하는 데 초점을 맞추어야 한다는 점이 강조되었다. 이 연구는 단순한 객체 인식이나 설명을 넘어, 시각장애인의 구체적인 필요와 맥락에 맞춘 실질적인 AI 지원 시스템 개발의 중요성을 환기시킨다.

EgoBlind 데이터셋과 연구 결과는 앞으로의 AI 시각 지원 기술이 더욱 정확하고 유용한 방향으로 발전하는 데 중요한 역할을 할 것으로 기대된다.

FAQ

Q: 시각장애인을 위한 AI 시각 지원 기술은 기존 기술과 어떤 점이 다른가요?

A: 기존 기술이 일반적인 객체 인식이나 장면 설명에 초점을 맞췄다면, EgoBlind 연구를 통해 개발 중인 AI 시각 지원 기술은 시각장애인의 1인칭 시점에서 실시간으로 필요한 정보(안전 위험, 길 안내, 도구 사용법 등)를 맥락에 맞게 제공하는 데 중점을 둡니다.

Q: 현재 AI 모델들이 시각장애인 지원에 있어 가장 어려워하는 부분은 무엇인가요?

A: 현재 AI 모델들은 시각장애인의 실제 의도 파악, 사용자 중심의 공간 방향 인식, 시간적 맥락 추론, 안전 관련 장애물 식별에 가장 큰 어려움을 겪고 있습니다. 특히 실시간으로 변화하는 환경에서 사용자 관점의 정보를 제공하는 데 한계가 있습니다.

Q: EgoBlind 연구가 일반 사용자에게도 의미가 있을까요?

A: 네, EgoBlind 연구는 AI가 인간의 관점에서 세상을 이해하고 맥락에 맞는 지원을 제공하는 능력을 향상시키는 데 기여합니다. 이러한 발전은 자율주행 차량, 증강현실, 로봇 보조 등 다양한 분야에도 적용될 수 있어 장기적으로는 모든 사용자에게 혜택을 줄 수 있습니다.

해당 기사에서 인용한 논문 원문은 링크에서 확인할 수 있다.

이미지 출처: EgoBlind: Towards Egocentric Visual Assistance for the Blind People

기사는 클로드와 챗GPT를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

[매장탐방] 바하 신작과 설 특수, 오랜만에 풍족했던 매장 (1)	게임메카
하운드13 "웹젠으로부터 MG 잔금 수령, 논의 이어가겠다"	게임메카
관건은 귀여움, 오버워치 '제트팩 캣' 개발 비화 공개	게임메카
표정이 살아있네, 블루 아카이브 카톡 이모티콘 출시	게임메카
배틀에 초집중, 포켓몬 챔피언스 4월에 스위치로 발매	게임메카
넷마블 '세븐나이츠 리버스', 3월 대형 컬래버 시작으로 상반기 공략	게임동아
바하 레퀴엠에 선적용, PS5 업스케일링 신 버전 3월 배포	게임메카
시리즈 중 1위, 바이오하자드 레퀴엠 스팀 동접 '32만 명'	게임메카
갓 오브 워 실사 드라마 첫 스틸컷, 팬들 반응 엇갈려 (1)	게임메카
컴투스, 야구 게임팬들과 소통하다.. 뜨겁게 달아오른 '컴프야V 페스타'	게임동아
월드 오브 워크래프트 확장팩 '한밤' 3월 3일 출시..얼리 액세스 오늘 시작	게임동아
붉은사막·포코피아 온다, 대작 가득한 3월	게임메카
[인디言] 스팀 ‘압긍’ 사이버펑크 퍼즐게임, 다이얼로그	게임메카
스타팅 포켓몬도 공개, 포켓몬 10세대 신작 내년 출시된다	게임메카
[겜덕연구소] 라스베가스 레트로 게임매장은 어떨까? '위 유 플레이'에 가다 (1)	게임동아
[한주의게임소식] "나호하와 디아루가&펄기아 등장! 글로벌 석권한 포켓몬	게임동아
[리뷰] 퍼즐은 거들뿐. 팬심 담은 아이돌 게임 ‘슴미니즈’	게임동아
[오늘의 스팀] 테스트 동접 14만 돌파, 마라톤 흥행할까?	게임메카
1TB 모델 100만 원 돌파, 스팀 덱도 가격 인상 발표	게임메카
부품값 폭등에도 1위…퍼플랩, 설 빅세일서 경쟁사 매출 2배 압도	뉴스탭
초록과 벚꽃이 차린 봄의 성찬…파라다이스, 제철 식재료로 완성한 미식 향연	뉴스탭
로고를 지우고 예술을 들다…아르주엘 ‘아트백 컬렉션’ 신세계 타임스퀘어서 공개	뉴스탭
악어를 닮은 집요함…라코스테, 엑소 카이 전격 발탁	뉴스탭
AI 96TOPS에 RTX 50까지…HP 오멘 16, ‘월간 십일절’서 역대급 혜택	뉴스탭
싸이버거 5,200원 된다…맘스터치, 43개 품목 평균 2.8% 인상	뉴스탭
메모리 가격 130% 급등…2026년 PC·스마트폰 출하 급감, 보급형 시장 붕괴 우려	뉴스탭
고물가 속 ‘역주행 선언’…에이스침대, 4년 연속 가격 동결 승부수	뉴스탭
커피 대신 차…카페인 부담 줄이자 RTD ‘라이트 드링크’ 급성장	뉴스탭
“니아 감성에 QD-OLED까지”…MSI, 한정판 MLG 에디션 구매 시 모니터 파격 할인	뉴스탭
MSI MAG Codex, 단 3일 19% 할인…붉은 사막·바이오하자드 신작 코드까지 쏜다	뉴스탭
ASUS 아이티블루, 3월 ‘지락페’서 TUF A18·ExpertBook 전면 배치…신학기 노트북 수요 정조준	뉴스탭
풀 알루미늄 감성에 QMK까지…SPM ‘조약돌87’ 예약 판매 돌입	뉴스탭
샤오미 17 시리즈 공개…Leica 협업 ‘전략적 공동 개발’로 확장, 한국은 3월 첫째 주 출격	뉴스탭
전동 킥보드 6 울트라부터 ‘태그’까지…샤오미, 일상 전반을 ‘연결’로 묶었다	뉴스탭
“2월은 비수기라더니”…중고차값 되레 올랐다, 지금 사야 할 차는?	뉴스탭
2026년 3월 국산차 판매조건/출고대기 정리	다나와자동차
[이구동성] 쇠더룬드 회장이 이끄는 넥슨 '7조' 원정대	게임메카
김태곤 신작 MMO, 타이틀명 '임진왜란: 조선의 반격' 확정 (1)	게임메카
100% 전기차 르노 세닉 E-테크, ‘2026 올해의 차' 주요 자동차 시상식 2관왕	오토헤럴드
'6년은 타야 본전' 기아 텔루라이드 하이브리드 연비·가격 공개	오토헤럴드
BMW 올리버 집세 회장, ‘2026 월드 카 어워즈 올해의 인물' 선정	오토헤럴드
값 내리자 일주일 만에 1000대…볼보 EX30 계약 급증	오토헤럴드
푸조 올 뉴 3008 스마트 하이브리드, ‘2026 올해의 차 디자인’ 2관왕	오토헤럴드
포르쉐 K1 전기차 계획 철회 'V6·V8 내연기관으로 2028년' 출시	오토헤럴드
사이버캡 양산 직후 총괄 매니저 퇴사 '테슬라 리더십 공백 확대'	오토헤럴드
'AI 수소 시티' 본격화, 현대차그룹 새만금 미래기술 기지 건설	오토헤럴드
대한항공-영국 스카이포츠, 상용 eVTOL 운영 플랫폼 개발 파트너십 체결	글로벌오토뉴스
애스톤 마틴, 실적 부진에 인력 20% 감축 및 EV 투자 축소	글로벌오토뉴스
현대차그룹 대학생 교육봉사단 ‘현대점프스쿨’ 13기 발대식 개최	글로벌오토뉴스
푸조, 2026 WEC 출격할 ‘9X8’ 신규 리버리 공개	글로벌오토뉴스
익숙한 차가 지루해진 시대…’르노 필랑트’가 던진 변화의 신호	글로벌오토뉴스
엔드게임 확 바뀐다, 패스 오브 엑자일 '허상' 3월 7일 시작	게임메카
데브시스터즈, 삼성전자와 협업해 ‘갤럭시 S26 시리즈’ 스페셜 테마 선보인다	게임동아
위메이드의 글로벌 e스포츠 토너먼트 ‘이미르컵 월드 챔피언십’, 오는 28일 개최!	게임동아
PvP 대전, 위메이드 이미르컵 월드 챔피언십 28일 개최	게임메카
10주년 맞은 스타듀 밸리, 새 로맨스 대상 2인 공개	게임메카
저커버그, 프라다 패션쇼 전면 착석…메타 AI 안경 명품 버전 나오나	AI matters
잭 도시, 직원 절반 잘랐다…"당신 회사도 곧 같은 길 걷게 될 것"	AI matters
AI 데이터센터의 '친환경' 선언, 전력망을 들여다보면 허상이다	AI matters
현대차 아이오닉 9, 2026 대한민국 올해의 차(K-COTY) 선정	글로벌오토뉴스
현대차, 2028년 바디 온 프레임 중형 픽업 출시… 아이오닉 T7 명명 유력	글로벌오토뉴스
볼보 EX30, 3만 유로대 엔트리 트림 추가… 가성비로 전기차 시장 정조준	글로벌오토뉴스
BYD, 파격 프로모션... 중국 내 판매 부진으로 다시 가격인하 불지펴	글로벌오토뉴스
토요타, 미국에서 트리하우스와 손잡고 홈 충전 원스톱 서비스 도입... 2026년형 전기차 공세	글로벌오토뉴스
중국, 자율주행 의무 안전 기준 초안 발표… 레벨3 차량 독자 위험 회피 의무화	글로벌오토뉴스
세계 최초 전기차 전용 포르쉐 클럽 탄생… 이탈리아서 73대 타이칸·마칸 집결	글로벌오토뉴스
폭스바겐그룹코리아, 폭스바겐 부문 신임 사장에 마이클 안트 임명	글로벌오토뉴스
한성자동차, 강릉 서비스센터 확장... 강원 영동 지역 정비 역량 2배 강화	글로벌오토뉴스
한국쉘석유, 남해고속도로서 ‘쉘 리무라’ 졸음운전 방지 캠페인 성료	글로벌오토뉴스
BMW 그룹 코리아, 봄맞이 '스프링업 위크 2026' 캠페인 실시	글로벌오토뉴스
푸조 ‘올 뉴 3008 스마트 하이브리드’, 2026 올해의 차 디자인 부문 2관왕 석권	글로벌오토뉴스
KGM, 독일서 대규모 딜러 콘퍼런스 개최	글로벌오토뉴스
BMW 모토라드, 전국 공식 딜러서 ‘2026 시즌 오프닝 행사’ 개최	글로벌오토뉴스
볼보그룹코리아-한국해비타트, ‘볼보 뉴홈 프로젝트 4호’ 성료	글로벌오토뉴스
볼보자동차 EX30, 가격 인하 1주일 만에 신규 계약 1,000대 돌파 (2)	글로벌오토뉴스
한국앤컴퍼니그룹, 2026년 첫 ‘지식나눔회’ 개최	글로벌오토뉴스
스카니아코리아, 누적판매 3만5천 대 돌파	글로벌오토뉴스
디즈니·포뮬러1®, 글로벌 캠페인 ‘퓨얼 더 매직’으로 레이싱 문화 혁신	글로벌오토뉴스
르노 세닉 E-Tech, ‘올해의 수입차’ 선정… 비독일 브랜드 최초 기록	글로벌오토뉴스
올리버 집세 BMW 회장, 2026 세계 올해의 자동차 인물 선정… 기술 개방성 전략의 승리	글로벌오토뉴스
일런 머스크는 축복이자 재앙이다.	글로벌오토뉴스
두카티, 오프로드 성능 강화한 ‘2세대 데저트X’ 공개	글로벌오토뉴스
현대차그룹, 새만금에 9조 원 투입… ‘로봇·AI·수소’ 혁신거점 조성	글로벌오토뉴스
MS에 인수되더니 싹 바뀌었네.. 초심으로 돌아온 블리자드 '게임할 맛 나네'	게임동아
NHN, 스퀘어에닉스의 ‘DISSIDIA DUELLUM FINAL FANTASY’ 사전 등록 시작	게임동아
다시 달려보자! 웹젠 ‘R2’ 오리지널 리부트 서버 리부팅 기념 이벤트 진행	게임동아
호요버스 ‘원신’이 내 사적인 채팅 데이터 수집한다? 개인정보 처리방침 개정 논란	게임동아
갤럭시S26 시리즈 출시 기념 '원신' 스페셜 테마 공개	게임동아
빌리빌리 게임, 중국에서 흥행 검증된 전략 게임 '삼국지 천하결전' CBT 참가자 모집	게임동아
모바일 차트에서 한국 게임이 사라지고 있다?	게임동아
L&K ‘붉은보석’ 2026년 첫 업데이트, 신규 필드 ‘영예의 제전’ 추가	게임동아
조이시티 '프로젝트 임진' 타이틀 명 ‘임진왜란: 조선의 반격’으로 확정	게임동아
Xbox 신임 CEO, 콘솔 하드웨어 투자 지속 선언	게임메카
[생활 속 IT] "이제 스마트폰으로 로또 산다" 동행복권, 20년 만에 달라진 이유 (1)	IT동아
'넥슨 드림 멤버스(NDM)' 게임 제작발표회 진행	게임동아
그냥 배틀로얄로는 못 이긴다! 새로운 킥 첨가하는 신작들	게임동아
넷마블 '블레이드&소울 레볼루션', 환상의 '백몽' 키우기 이벤트 진행	게임동아
‘에오스 블랙’, 과금 제한 ‘삼백 IV’ 서버 업데이트	게임동아
[오늘의 스팀] 한 주 동안 판매 1위, '바하 레퀴엠' 출시 코앞	게임메카
2026 VCT 첫 국제전, 마스터스 산티아고 3월 1일 열린다	게임메카

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

AI는 시각장애인의 눈이 될 수 있을까? 세계 최초 1인칭 시점 AI 비디오 기술 등장

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

AI는 시각장애인의 눈이 될 수 있을까? 세계 최초 1인칭 시점 AI 비디오 기술 등장

공유하기

공감/비공감