
EgoBlind: Towards Egocentric Visual Assistance for the Blind People
전 세계 22억 명 시각장애인을 위한 최초의 1인칭 시점 비디오 데이터셋 'EgoBlind'
현재 전 세계에는 약 22억 명의 시각장애인이 살고 있다. 이들이 일상생활을 더 독립적으로 영위할 수 있도록 돕는 기술은 계속해서 발전하고 있으며, 최근 다중 모달 대규모 언어 모델(MLLM)의 발전으로 시각적 질의응답(VQA) 기술이 크게 향상되었다. 그러나 지금까지 대부분의 VQA 데이터셋은 제3자 시점이나 일반적인 이미지와 비디오 이해에 초점을 맞추고 있어, 실제 시각장애인의 관점에서 필요한 실시간 지원에는 한계가 있었다.
싱가포르 국립대학교, 중국 커뮤니케이션 대학교, 중국 과학기술대학교, 허페이 공과대학교 연구팀이 공동으로 개발한 'EgoBlind'는 시각장애인의 1인칭 시점에서 촬영된 비디오를 기반으로 한 최초의 VideoQA 데이터셋이다. 이 데이터셋은 시각장애인이 직접 착용한 카메라로 촬영된 1,210개의 비디오와 4,927개의 질문을 포함하고 있으며, 이 질문들은 시각장애인이 직접 제기하거나 검증한 것들로 구성되어 있다.
"길이 앞에 있나요?" - 시각장애인이 실제 일상에서 가장 필요로 하는 6가지 정보 유형
EgoBlind 데이터셋은 시각장애인이 일상생활에서 필요로 하는 지원 유형을 여섯 가지 주요 카테고리로 분류했다.
- 정보 판독(Information Reading): 시각장애인이 알고 싶어하는 특정 정보 획득. 예: "이 메뉴에는 무엇이 있나요?", "지금 엘리베이터는 몇 층인가요?"
- 안전 경고(Safety Warning): 주변 환경의 물리적 안전 위험이나 인적 요소 관련 위험 판단. 예: "길을 건널 때 차가 지나가고 있나요?", "에스컬레이터의 방향은 어떻게 되나요?"
- 길 안내(Navigation): 실내외 이동 시 필요한 방향과 위치 정보. 예: "화장실은 어디에 있나요?", "지금 내가 출구를 향해 서 있나요?"
- 사회적 소통(Social Communication): 주변 사람들과의 상호작용 및 다중 활동을 위한 상태 정보 파악. 예: "지금 누가 나에게 말하고 있나요?", "안내견이 엘리베이터에 안전하게 탔나요?"
- 도구 사용(Tool Use): 각종 도구나 기기 사용 방법. 예: "전자레인지는 어떻게 사용하나요?", "이 문은 어떻게 여나요?"
- 기타 자원(Other Resources): 주변의 서비스 시설이나 활동 정보. 예: "근처에 시각장애인용 보행로가 있나요?", "특정 브랜드 상점이 있나요?"
이 분류는 시각장애인의 실제 필요에 기반하여 만들어진 것으로, 연구팀은 시각장애인 참가자들을 대상으로 광범위한 설문조사를 실시해 각 질문 유형의 실질적 유용성을 검증했다.
GPT-4o도 인간보다 30%p 뒤처진다 - 15개 최신 AI 모델의 성능 실험 결과
연구팀은 EgoBlind 데이터셋을 활용해 현재 최고 수준의 MLLM 15개(GPT-4o, Gemini 2.0 등의 상용 모델 3개와 InternVL2, LLaVA-OV 등의 오픈소스 모델 12개)의 성능을 종합적으로 평가했다. 그 결과, 모든 모델이 시각장애인을 위한 실시간 지원에 상당한 한계를 보였다.
주요 발견 사항:
- 가장 성능이 좋은 모델(Gemini 2.0)도 정확도가 56.6%에 그쳐, 인간 성능(87.4%)에 비해 약 30%p 낮았다.
- 상용 모델과 최고 성능의 오픈소스 모델 간 성능 차이가 크지 않았다.
- 일반적인 자기 중심적 VQA나 시각장애인용 이미지 QA에서 좋은 성능을 보이는 모델이 반드시 EgoBlind에서도 좋은 성능을 보이지는 않았다.
- 특히 '길 안내', '안전 경고', '도구 사용' 질문에서 모델들의 성능이 현저히 떨어졌다.
"이 차가 움직이고 있나요?" - AI가 시각장애인의 가장 중요한 질문에 답하지 못하는 5가지 이유
연구팀은 다양한 질문 유형과 실패 사례를 분석하여 다음과 같은 주요 문제점을 식별했다.
- 사용자 의도 이해 부족: AI는 시각 콘텐츠에 대해 객관적으로 정확한 답변을 제공할 수 있지만, 동적인 자기 중심적 시각 맥락 내에서 시각장애인의 의도를 추론하는 데 한계를 보였다. 예를 들어, "앞에 길이 있나요?"라는 질문에 장애물이 있음에도 단순히 "네"라고 대답하는 경우가 많았다.
- 실시간 공간 인식 문제: 모델들은 시각장애인 사용자가 움직일 때 사용자 기준의 공간 방향(예: "내 오른쪽에 있는 제품은 무엇인가요?")을 효과적으로 업데이트하지 못했다.
- 시간적 맥락 추론 한계: 모델들은 비디오의 시간적 맥락을 추론하고 사용자의 실시간 위치에 상대적인 객체를 파악하는 데 어려움을 겪었다.
- 장애물 식별 부족: '안전 경고' 질문에서 모델들은 실제 장애물을 정확히 식별하고 경고하는 데 한계를 보였다.
- 비현실적 답변(Sycophancy): 모델들, 특히 오픈소스 모델들은 시각장애인이 실제로 존재하지 않는 대상에 대해 질문할 때 잘못되거나 잠재적으로 해로운 답변을 제공하는 경향이 있었다.
이 연구는 시각장애인을 위한 AI 지원 기술 개발의 중요한 방향을 제시하고 있다. 연구팀은 향후 개선을 위해 사용자 의도에 대한 더 나은 이해, 연속적인 비디오 프레임의 미묘한 차이에 민감한 모델 개발, 장기 기억 기술 적용, 시각장애인의 실제 필요에 초점을 맞춘 훈련 데이터 합성 등을 제안했다.
87.4%의 인간 성능 VS 56.6%의 AI 성능 - 실질적인 시각장애인 지원 기술의 미래 전망
EgoBlind 연구는 시각장애인의 실제 필요에 부합하는 AI 시각 지원 기술 개발에 중요한 기반을 마련했다. 이 데이터셋은 현재 MLLM 모델들의 한계를 분명히 보여주는 동시에, 향후 연구 방향에 대한 통찰력을 제공한다.
특히, 시각장애인의 1인칭 시점에서의 동적 장면 이해, 실시간 맥락 인식 사용자 의도 추론, 지원 중심의 답변 생성 등 세 가지 핵심 과제를 해결하는 데 초점을 맞추어야 한다는 점이 강조되었다. 이 연구는 단순한 객체 인식이나 설명을 넘어, 시각장애인의 구체적인 필요와 맥락에 맞춘 실질적인 AI 지원 시스템 개발의 중요성을 환기시킨다.
EgoBlind 데이터셋과 연구 결과는 앞으로의 AI 시각 지원 기술이 더욱 정확하고 유용한 방향으로 발전하는 데 중요한 역할을 할 것으로 기대된다.
FAQ
Q: 시각장애인을 위한 AI 시각 지원 기술은 기존 기술과 어떤 점이 다른가요?
A: 기존 기술이 일반적인 객체 인식이나 장면 설명에 초점을 맞췄다면, EgoBlind 연구를 통해 개발 중인 AI 시각 지원 기술은 시각장애인의 1인칭 시점에서 실시간으로 필요한 정보(안전 위험, 길 안내, 도구 사용법 등)를 맥락에 맞게 제공하는 데 중점을 둡니다.
Q: 현재 AI 모델들이 시각장애인 지원에 있어 가장 어려워하는 부분은 무엇인가요?
A: 현재 AI 모델들은 시각장애인의 실제 의도 파악, 사용자 중심의 공간 방향 인식, 시간적 맥락 추론, 안전 관련 장애물 식별에 가장 큰 어려움을 겪고 있습니다. 특히 실시간으로 변화하는 환경에서 사용자 관점의 정보를 제공하는 데 한계가 있습니다.
Q: EgoBlind 연구가 일반 사용자에게도 의미가 있을까요?
A: 네, EgoBlind 연구는 AI가 인간의 관점에서 세상을 이해하고 맥락에 맞는 지원을 제공하는 능력을 향상시키는 데 기여합니다. 이러한 발전은 자율주행 차량, 증강현실, 로봇 보조 등 다양한 분야에도 적용될 수 있어 장기적으로는 모든 사용자에게 혜택을 줄 수 있습니다.
해당 기사에서 인용한 논문 원문은 링크에서 확인할 수 있다.
이미지 출처: EgoBlind: Towards Egocentric Visual Assistance for the Blind People
기사는 클로드와 챗GPT를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기