비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

AI는 시각장애인의 눈이 될 수 있을까? 세계 최초 1인칭 시점 AI 비디오 기술 등장

2025.03.19. 10:12:34
조회 수
75
1

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

EgoBlind: Towards Egocentric Visual Assistance for the Blind People



전 세계 22억 명 시각장애인을 위한 최초의 1인칭 시점 비디오 데이터셋 'EgoBlind'

현재 전 세계에는 약 22억 명의 시각장애인이 살고 있다. 이들이 일상생활을 더 독립적으로 영위할 수 있도록 돕는 기술은 계속해서 발전하고 있으며, 최근 다중 모달 대규모 언어 모델(MLLM)의 발전으로 시각적 질의응답(VQA) 기술이 크게 향상되었다. 그러나 지금까지 대부분의 VQA 데이터셋은 제3자 시점이나 일반적인 이미지와 비디오 이해에 초점을 맞추고 있어, 실제 시각장애인의 관점에서 필요한 실시간 지원에는 한계가 있었다.

싱가포르 국립대학교, 중국 커뮤니케이션 대학교, 중국 과학기술대학교, 허페이 공과대학교 연구팀이 공동으로 개발한 'EgoBlind'는 시각장애인의 1인칭 시점에서 촬영된 비디오를 기반으로 한 최초의 VideoQA 데이터셋이다. 이 데이터셋은 시각장애인이 직접 착용한 카메라로 촬영된 1,210개의 비디오와 4,927개의 질문을 포함하고 있으며, 이 질문들은 시각장애인이 직접 제기하거나 검증한 것들로 구성되어 있다.



"길이 앞에 있나요?" - 시각장애인이 실제 일상에서 가장 필요로 하는 6가지 정보 유형

EgoBlind 데이터셋은 시각장애인이 일상생활에서 필요로 하는 지원 유형을 여섯 가지 주요 카테고리로 분류했다.

  1. 정보 판독(Information Reading): 시각장애인이 알고 싶어하는 특정 정보 획득. 예: "이 메뉴에는 무엇이 있나요?", "지금 엘리베이터는 몇 층인가요?"
  2. 안전 경고(Safety Warning): 주변 환경의 물리적 안전 위험이나 인적 요소 관련 위험 판단. 예: "길을 건널 때 차가 지나가고 있나요?", "에스컬레이터의 방향은 어떻게 되나요?"
  3. 길 안내(Navigation): 실내외 이동 시 필요한 방향과 위치 정보. 예: "화장실은 어디에 있나요?", "지금 내가 출구를 향해 서 있나요?"
  4. 사회적 소통(Social Communication): 주변 사람들과의 상호작용 및 다중 활동을 위한 상태 정보 파악. 예: "지금 누가 나에게 말하고 있나요?", "안내견이 엘리베이터에 안전하게 탔나요?"
  5. 도구 사용(Tool Use): 각종 도구나 기기 사용 방법. 예: "전자레인지는 어떻게 사용하나요?", "이 문은 어떻게 여나요?"
  6. 기타 자원(Other Resources): 주변의 서비스 시설이나 활동 정보. 예: "근처에 시각장애인용 보행로가 있나요?", "특정 브랜드 상점이 있나요?"

이 분류는 시각장애인의 실제 필요에 기반하여 만들어진 것으로, 연구팀은 시각장애인 참가자들을 대상으로 광범위한 설문조사를 실시해 각 질문 유형의 실질적 유용성을 검증했다.

GPT-4o도 인간보다 30%p 뒤처진다 - 15개 최신 AI 모델의 성능 실험 결과

연구팀은 EgoBlind 데이터셋을 활용해 현재 최고 수준의 MLLM 15개(GPT-4o, Gemini 2.0 등의 상용 모델 3개와 InternVL2, LLaVA-OV 등의 오픈소스 모델 12개)의 성능을 종합적으로 평가했다. 그 결과, 모든 모델이 시각장애인을 위한 실시간 지원에 상당한 한계를 보였다.

주요 발견 사항:

  1. 가장 성능이 좋은 모델(Gemini 2.0)도 정확도가 56.6%에 그쳐, 인간 성능(87.4%)에 비해 약 30%p 낮았다.
  2. 상용 모델과 최고 성능의 오픈소스 모델 간 성능 차이가 크지 않았다.
  3. 일반적인 자기 중심적 VQA나 시각장애인용 이미지 QA에서 좋은 성능을 보이는 모델이 반드시 EgoBlind에서도 좋은 성능을 보이지는 않았다.
  4. 특히 '길 안내', '안전 경고', '도구 사용' 질문에서 모델들의 성능이 현저히 떨어졌다.

"이 차가 움직이고 있나요?" - AI가 시각장애인의 가장 중요한 질문에 답하지 못하는 5가지 이유

연구팀은 다양한 질문 유형과 실패 사례를 분석하여 다음과 같은 주요 문제점을 식별했다.

  1. 사용자 의도 이해 부족: AI는 시각 콘텐츠에 대해 객관적으로 정확한 답변을 제공할 수 있지만, 동적인 자기 중심적 시각 맥락 내에서 시각장애인의 의도를 추론하는 데 한계를 보였다. 예를 들어, "앞에 길이 있나요?"라는 질문에 장애물이 있음에도 단순히 "네"라고 대답하는 경우가 많았다.
  2. 실시간 공간 인식 문제: 모델들은 시각장애인 사용자가 움직일 때 사용자 기준의 공간 방향(예: "내 오른쪽에 있는 제품은 무엇인가요?")을 효과적으로 업데이트하지 못했다.
  3. 시간적 맥락 추론 한계: 모델들은 비디오의 시간적 맥락을 추론하고 사용자의 실시간 위치에 상대적인 객체를 파악하는 데 어려움을 겪었다.
  4. 장애물 식별 부족: '안전 경고' 질문에서 모델들은 실제 장애물을 정확히 식별하고 경고하는 데 한계를 보였다.
  5. 비현실적 답변(Sycophancy): 모델들, 특히 오픈소스 모델들은 시각장애인이 실제로 존재하지 않는 대상에 대해 질문할 때 잘못되거나 잠재적으로 해로운 답변을 제공하는 경향이 있었다.


이 연구는 시각장애인을 위한 AI 지원 기술 개발의 중요한 방향을 제시하고 있다. 연구팀은 향후 개선을 위해 사용자 의도에 대한 더 나은 이해, 연속적인 비디오 프레임의 미묘한 차이에 민감한 모델 개발, 장기 기억 기술 적용, 시각장애인의 실제 필요에 초점을 맞춘 훈련 데이터 합성 등을 제안했다.

87.4%의 인간 성능 VS 56.6%의 AI 성능 - 실질적인 시각장애인 지원 기술의 미래 전망

EgoBlind 연구는 시각장애인의 실제 필요에 부합하는 AI 시각 지원 기술 개발에 중요한 기반을 마련했다. 이 데이터셋은 현재 MLLM 모델들의 한계를 분명히 보여주는 동시에, 향후 연구 방향에 대한 통찰력을 제공한다.

특히, 시각장애인의 1인칭 시점에서의 동적 장면 이해, 실시간 맥락 인식 사용자 의도 추론, 지원 중심의 답변 생성 등 세 가지 핵심 과제를 해결하는 데 초점을 맞추어야 한다는 점이 강조되었다. 이 연구는 단순한 객체 인식이나 설명을 넘어, 시각장애인의 구체적인 필요와 맥락에 맞춘 실질적인 AI 지원 시스템 개발의 중요성을 환기시킨다.

EgoBlind 데이터셋과 연구 결과는 앞으로의 AI 시각 지원 기술이 더욱 정확하고 유용한 방향으로 발전하는 데 중요한 역할을 할 것으로 기대된다.


FAQ

Q: 시각장애인을 위한 AI 시각 지원 기술은 기존 기술과 어떤 점이 다른가요?

A: 기존 기술이 일반적인 객체 인식이나 장면 설명에 초점을 맞췄다면, EgoBlind 연구를 통해 개발 중인 AI 시각 지원 기술은 시각장애인의 1인칭 시점에서 실시간으로 필요한 정보(안전 위험, 길 안내, 도구 사용법 등)를 맥락에 맞게 제공하는 데 중점을 둡니다.

Q: 현재 AI 모델들이 시각장애인 지원에 있어 가장 어려워하는 부분은 무엇인가요?

A: 현재 AI 모델들은 시각장애인의 실제 의도 파악, 사용자 중심의 공간 방향 인식, 시간적 맥락 추론, 안전 관련 장애물 식별에 가장 큰 어려움을 겪고 있습니다. 특히 실시간으로 변화하는 환경에서 사용자 관점의 정보를 제공하는 데 한계가 있습니다.

Q: EgoBlind 연구가 일반 사용자에게도 의미가 있을까요?

A: 네, EgoBlind 연구는 AI가 인간의 관점에서 세상을 이해하고 맥락에 맞는 지원을 제공하는 능력을 향상시키는 데 기여합니다. 이러한 발전은 자율주행 차량, 증강현실, 로봇 보조 등 다양한 분야에도 적용될 수 있어 장기적으로는 모든 사용자에게 혜택을 줄 수 있습니다.

해당 기사에서 인용한 논문 원문은 링크에서 확인할 수 있다.

이미지 출처: EgoBlind: Towards Egocentric Visual Assistance for the Blind People

기사는 클로드와 챗GPT를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
2/1
클릭 한 번으로 매출 51% 증가? AI 맞춤형 경험이 만드는 비즈니스 혁명 AI matters
예술용 AI는 편향되고, 기본 모델은 개선된다… 103개 모델 2년간 분석 결과 공개 AI matters
구글 딥마인드 CEO, “인간 수준 AI 5~10년 내 등장할 것” AI matters
딥시크, 국내 AI 앱 사용량 5위 등극… 이용 제한 조치에도 전달 대비 19% 증가 AI matters
실리콘벨리 트렌드는 '바이브 코딩'... "AI가 코드 95% 작성하는 스타트업 급증" AI matters
오픈AI, 구글 드라이브와 슬랙 연동 챗GPT 커넥터 테스트 예정 AI matters
AI는 시각장애인의 눈이 될 수 있을까? 세계 최초 1인칭 시점 AI 비디오 기술 등장 AI matters
스노우, 'AI 헤어컨설팅 서비스' 오픈… 딥러닝 얼굴형 분석으로 헤어스타일 추천한다 AI matters
하이트진로, 2023년 KLPGA 신인왕 김민별과 후원 재계약 연합뉴스
카이스트, LLM 학습 시간 예측하는 시뮬레이션 개발… AI 모델 훈련 비용 5% 절감한다 AI matters
라이엇의 첫 e스포츠 대회 ‘퍼스트 스탠드’ “무엇을 남겼나?” 게임동아
크래프톤, 배틀그라운드 2025년 개발 로드맵 발표 게임동아
위메이드 '레전드 오브 이미르', 첫 시즌 '성장의 시즌' 사전 등록 게임동아
‘창세기전 모바일’, 신규 캐릭터 ‘에스테 도데’ 업데이트 게임동아
심판의 만찬을 현실에서 맛볼 수 있다? 원신 요리책 공개! 게임동아
마이크로소프트가 제시하는 AI 앱 혁신 트렌드 4가지 AI matters
컴투스 신작 '프로야구 라이징', 日서 3월 26일 출시 확정.. '인기 장외홈런 예고' 게임동아
그라나도 에스파다M, 신규 콘텐츠 '대전' 출시 게임동아
그라비티, HTML5 게임 '라그나로크: 여명' 中 위챗 미니게임 매출 8위 달성 게임동아
2025년, 당신의 직장 동료는 AI... 글로벌 기업 90%가 도입 예정 AI matters
이 시간 HOT 댓글!
1/4