비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

AI는 시각장애인의 눈이 될 수 있을까? 세계 최초 1인칭 시점 AI 비디오 기술 등장

2025.03.19. 10:12:34
조회 수
262
4

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

EgoBlind: Towards Egocentric Visual Assistance for the Blind People



전 세계 22억 명 시각장애인을 위한 최초의 1인칭 시점 비디오 데이터셋 'EgoBlind'

현재 전 세계에는 약 22억 명의 시각장애인이 살고 있다. 이들이 일상생활을 더 독립적으로 영위할 수 있도록 돕는 기술은 계속해서 발전하고 있으며, 최근 다중 모달 대규모 언어 모델(MLLM)의 발전으로 시각적 질의응답(VQA) 기술이 크게 향상되었다. 그러나 지금까지 대부분의 VQA 데이터셋은 제3자 시점이나 일반적인 이미지와 비디오 이해에 초점을 맞추고 있어, 실제 시각장애인의 관점에서 필요한 실시간 지원에는 한계가 있었다.

싱가포르 국립대학교, 중국 커뮤니케이션 대학교, 중국 과학기술대학교, 허페이 공과대학교 연구팀이 공동으로 개발한 'EgoBlind'는 시각장애인의 1인칭 시점에서 촬영된 비디오를 기반으로 한 최초의 VideoQA 데이터셋이다. 이 데이터셋은 시각장애인이 직접 착용한 카메라로 촬영된 1,210개의 비디오와 4,927개의 질문을 포함하고 있으며, 이 질문들은 시각장애인이 직접 제기하거나 검증한 것들로 구성되어 있다.



"길이 앞에 있나요?" - 시각장애인이 실제 일상에서 가장 필요로 하는 6가지 정보 유형

EgoBlind 데이터셋은 시각장애인이 일상생활에서 필요로 하는 지원 유형을 여섯 가지 주요 카테고리로 분류했다.

  1. 정보 판독(Information Reading): 시각장애인이 알고 싶어하는 특정 정보 획득. 예: "이 메뉴에는 무엇이 있나요?", "지금 엘리베이터는 몇 층인가요?"
  2. 안전 경고(Safety Warning): 주변 환경의 물리적 안전 위험이나 인적 요소 관련 위험 판단. 예: "길을 건널 때 차가 지나가고 있나요?", "에스컬레이터의 방향은 어떻게 되나요?"
  3. 길 안내(Navigation): 실내외 이동 시 필요한 방향과 위치 정보. 예: "화장실은 어디에 있나요?", "지금 내가 출구를 향해 서 있나요?"
  4. 사회적 소통(Social Communication): 주변 사람들과의 상호작용 및 다중 활동을 위한 상태 정보 파악. 예: "지금 누가 나에게 말하고 있나요?", "안내견이 엘리베이터에 안전하게 탔나요?"
  5. 도구 사용(Tool Use): 각종 도구나 기기 사용 방법. 예: "전자레인지는 어떻게 사용하나요?", "이 문은 어떻게 여나요?"
  6. 기타 자원(Other Resources): 주변의 서비스 시설이나 활동 정보. 예: "근처에 시각장애인용 보행로가 있나요?", "특정 브랜드 상점이 있나요?"

이 분류는 시각장애인의 실제 필요에 기반하여 만들어진 것으로, 연구팀은 시각장애인 참가자들을 대상으로 광범위한 설문조사를 실시해 각 질문 유형의 실질적 유용성을 검증했다.

GPT-4o도 인간보다 30%p 뒤처진다 - 15개 최신 AI 모델의 성능 실험 결과

연구팀은 EgoBlind 데이터셋을 활용해 현재 최고 수준의 MLLM 15개(GPT-4o, Gemini 2.0 등의 상용 모델 3개와 InternVL2, LLaVA-OV 등의 오픈소스 모델 12개)의 성능을 종합적으로 평가했다. 그 결과, 모든 모델이 시각장애인을 위한 실시간 지원에 상당한 한계를 보였다.

주요 발견 사항:

  1. 가장 성능이 좋은 모델(Gemini 2.0)도 정확도가 56.6%에 그쳐, 인간 성능(87.4%)에 비해 약 30%p 낮았다.
  2. 상용 모델과 최고 성능의 오픈소스 모델 간 성능 차이가 크지 않았다.
  3. 일반적인 자기 중심적 VQA나 시각장애인용 이미지 QA에서 좋은 성능을 보이는 모델이 반드시 EgoBlind에서도 좋은 성능을 보이지는 않았다.
  4. 특히 '길 안내', '안전 경고', '도구 사용' 질문에서 모델들의 성능이 현저히 떨어졌다.

"이 차가 움직이고 있나요?" - AI가 시각장애인의 가장 중요한 질문에 답하지 못하는 5가지 이유

연구팀은 다양한 질문 유형과 실패 사례를 분석하여 다음과 같은 주요 문제점을 식별했다.

  1. 사용자 의도 이해 부족: AI는 시각 콘텐츠에 대해 객관적으로 정확한 답변을 제공할 수 있지만, 동적인 자기 중심적 시각 맥락 내에서 시각장애인의 의도를 추론하는 데 한계를 보였다. 예를 들어, "앞에 길이 있나요?"라는 질문에 장애물이 있음에도 단순히 "네"라고 대답하는 경우가 많았다.
  2. 실시간 공간 인식 문제: 모델들은 시각장애인 사용자가 움직일 때 사용자 기준의 공간 방향(예: "내 오른쪽에 있는 제품은 무엇인가요?")을 효과적으로 업데이트하지 못했다.
  3. 시간적 맥락 추론 한계: 모델들은 비디오의 시간적 맥락을 추론하고 사용자의 실시간 위치에 상대적인 객체를 파악하는 데 어려움을 겪었다.
  4. 장애물 식별 부족: '안전 경고' 질문에서 모델들은 실제 장애물을 정확히 식별하고 경고하는 데 한계를 보였다.
  5. 비현실적 답변(Sycophancy): 모델들, 특히 오픈소스 모델들은 시각장애인이 실제로 존재하지 않는 대상에 대해 질문할 때 잘못되거나 잠재적으로 해로운 답변을 제공하는 경향이 있었다.


이 연구는 시각장애인을 위한 AI 지원 기술 개발의 중요한 방향을 제시하고 있다. 연구팀은 향후 개선을 위해 사용자 의도에 대한 더 나은 이해, 연속적인 비디오 프레임의 미묘한 차이에 민감한 모델 개발, 장기 기억 기술 적용, 시각장애인의 실제 필요에 초점을 맞춘 훈련 데이터 합성 등을 제안했다.

87.4%의 인간 성능 VS 56.6%의 AI 성능 - 실질적인 시각장애인 지원 기술의 미래 전망

EgoBlind 연구는 시각장애인의 실제 필요에 부합하는 AI 시각 지원 기술 개발에 중요한 기반을 마련했다. 이 데이터셋은 현재 MLLM 모델들의 한계를 분명히 보여주는 동시에, 향후 연구 방향에 대한 통찰력을 제공한다.

특히, 시각장애인의 1인칭 시점에서의 동적 장면 이해, 실시간 맥락 인식 사용자 의도 추론, 지원 중심의 답변 생성 등 세 가지 핵심 과제를 해결하는 데 초점을 맞추어야 한다는 점이 강조되었다. 이 연구는 단순한 객체 인식이나 설명을 넘어, 시각장애인의 구체적인 필요와 맥락에 맞춘 실질적인 AI 지원 시스템 개발의 중요성을 환기시킨다.

EgoBlind 데이터셋과 연구 결과는 앞으로의 AI 시각 지원 기술이 더욱 정확하고 유용한 방향으로 발전하는 데 중요한 역할을 할 것으로 기대된다.


FAQ

Q: 시각장애인을 위한 AI 시각 지원 기술은 기존 기술과 어떤 점이 다른가요?

A: 기존 기술이 일반적인 객체 인식이나 장면 설명에 초점을 맞췄다면, EgoBlind 연구를 통해 개발 중인 AI 시각 지원 기술은 시각장애인의 1인칭 시점에서 실시간으로 필요한 정보(안전 위험, 길 안내, 도구 사용법 등)를 맥락에 맞게 제공하는 데 중점을 둡니다.

Q: 현재 AI 모델들이 시각장애인 지원에 있어 가장 어려워하는 부분은 무엇인가요?

A: 현재 AI 모델들은 시각장애인의 실제 의도 파악, 사용자 중심의 공간 방향 인식, 시간적 맥락 추론, 안전 관련 장애물 식별에 가장 큰 어려움을 겪고 있습니다. 특히 실시간으로 변화하는 환경에서 사용자 관점의 정보를 제공하는 데 한계가 있습니다.

Q: EgoBlind 연구가 일반 사용자에게도 의미가 있을까요?

A: 네, EgoBlind 연구는 AI가 인간의 관점에서 세상을 이해하고 맥락에 맞는 지원을 제공하는 능력을 향상시키는 데 기여합니다. 이러한 발전은 자율주행 차량, 증강현실, 로봇 보조 등 다양한 분야에도 적용될 수 있어 장기적으로는 모든 사용자에게 혜택을 줄 수 있습니다.

해당 기사에서 인용한 논문 원문은 링크에서 확인할 수 있다.

이미지 출처: EgoBlind: Towards Egocentric Visual Assistance for the Blind People

기사는 클로드와 챗GPT를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
골프존그룹, 창립 25주년 사회공헌 활동 '스윙 유어 드림' 개최 연합뉴스
'수원CC는 내 땅' 7언더파 이예원, 타이틀 방어 '파란불' 연합뉴스
레저산업연구소, 레저백서 2025 발간…골프 산업 전망 등 수록 연합뉴스
SK텔레콤 채리티오픈 14일 개최…최경주·이경규·이대호 참가 연합뉴스
브리지스톤 골프, 연철 단조 아이언 242CB+ 출시 연합뉴스
뷰소닉, 홈앤빔 구매자 대상 후기 프로모션 진행 다나와
단종됐던 볼보 간판급 왜건 XC70, 플러그인 하이브리드 SUV로 부활 오토헤럴드
폴스타코리아, 국내 최대 규모 ‘스페이스 수원’ 오픈…고객 접점 확대 속도 오토헤럴드
기아, 인도 전략형 3열 미니밴 '카렌스 클라비스' 완전 공개 오토헤럴드
'불안정한 대외 환경 속에도' 람보르기니 1분기 판매 역대 최고 오토헤럴드
폴스타, '2025 브랜드 고객충성도 대상' 전기차 부문 3년 연속 1위 수상 오토헤럴드
마세라티, 그란투리스모 · 그란카브리오 엔트리 출시 '프리마 에디치오네' 한정 제공 오토헤럴드
'세련된 컬러감으로 다시' 쉐보레, 2026년형 트레일블레이저 출시 오토헤럴드
기아 오토랜드 광주의 첫 전용 전기차 EV5… 글로벌 판매로 기대감 고조 오토헤럴드
트럼프 관세 위협에 미국산 부품 비중 50% 넘어야… 자동차 업계 '촉각' 글로벌오토뉴스
솔라엣지, 상업용 태양광 연동 스마트 EV 충전기로 친환경·저비용 충전 혁신 글로벌오토뉴스
람보르기니, 2025년 1분기 판매 2,967대, 매출 10억 달러 돌파 글로벌오토뉴스
중국 자동차 시장, 정부 정책 및 모터쇼 효과로 3월 판매 급증 글로벌오토뉴스
미쓰비시 자동차, 혼하이·닛산으로부터 전기차 OEM 공급… 일본 시장 및 EV 전략 강화 글로벌오토뉴스
중국 자동차 시장 판도 변화: 폭스바겐 밀리고 BYD 질주 글로벌오토뉴스
이 시간 HOT 댓글!
1/4