비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

AI는 점자를 읽을 수 있을까? 시각장애인을 위한 언어 모델의 가능성과 한계

2025.04.02. 13:28:18
조회 수
296
4

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

Evaluating Multimodal Language Models as Visual Assistants for Visually Impaired Users


87%가 원하는 AI 시각 도우미: 부정확성이 가장 큰 걸림돌

다자간 대규모 언어 모델(Multimodal Large Language Models, MLLMs)은 시각 장애인을 지원하는 유망한 기술로 주목받고 있다. 코펜하겐 대학교와 헤리엇 와트 대학교 연구팀은 이러한 기술이 시각장애인을 위한 보조 도구로서 얼마나 효과적인지 체계적으로 평가했다. 연구진은 사용자 설문조사를 통해 시각장애인들이 이러한 기술을 사용할 때 직면하는 주요 문제점을 파악하고, 이를 바탕으로 MLLMs의 성능을 평가하는 다섯 가지 중요 분야를 설정했다.

설문조사 결과, 대부분의 시각장애인들(87%)이 인공지능을 시각 보조 도구로 사용하거나 사용할 의향이 있었지만, 부정확성과 맥락 이해 부족, 문화적 감수성 결여, 복잡한 장면 이해의 어려움 등의 문제점들이 크게 우려되는 것으로 나타났다. 특히 부정확한 인식, 환각(hallucination)과 같은 문제가 가장 큰 우려사항으로 지적되었다.


문화적 맥락에 취약한 AI: 이미지 설명 성능 최대 25점 하락

연구팀은 총 12개의 다자간 언어 모델을 대상으로 다섯 가지 분야에서 성능을 평가했다. 이미지 캡셔닝, 다언어 이미지 질의응답, 광학 점자 인식, 비디오 객체 인식, 비디오 질의응답 등의 과제를 수행하며 각 모델의 강점과 약점을 분석했다. 이미지 캡셔닝 테스트에서 대부분의 모델들은 기본적인 설명은 잘 제공했으나, 문화적 맥락을 포함한 이미지에서는 성능이 크게 저하되는 문제를 보였다. 특히 75-81점 사이의 RefCLIPScore를 보인 기본 테스트와 달리, 문화적 요소가 포함된 이미지에서는 일부 모델의 점수가 20-25점까지 하락했다. 심지어 최고 성능의 모델들도 문화적 맥락을 완전히 포착하지 못하는 한계를 보였다.

다언어 이미지 질의응답 평가에서는 영어 외 34개 언어에 대한 지원이 매우 부족한 것으로 나타났다. PaliGemma와 MiniCPM-V-2.6와 같이 영어에서 높은 성능(75.6%, 72.2%)을 보인 모델들도 다언어 환경에서는 큰 폭으로 성능이 하락했다. 이는 비영어권 시각장애인들에게 적합한 지원이 부족함을 의미한다.


점자는 단 하나의 모델만 읽을 수 있어: 비디오 객체 인식 정확도 최대 69.8%

광학 점자 인식 테스트에서는 대부분의 모델들이 점자를 읽는 능력이 없는 것으로 드러났다. 흥미롭게도 12개 모델 중 Qwen2-VL-Instruct만이 점자 인식을 수행할 수 있었다. 연구팀은 추가로 Llama-3.2-Vision-Instruct 모델을 점자 인식이 가능하도록 미세 조정했으며, 적은 양의 훈련 데이터로도 효과적으로 점자 인식 능력을 습득할 수 있음을 증명했다.

비디오 객체 인식 테스트에서 모델들은 일반 객체는 비교적 잘 인식했지만(52-69.8% 정확도), 시각장애인용 보조 기기와 같은 특수 객체 인식에서는 현저히 낮은 성능(23-41% 정확도)을 보였다. 이는 현재 MLLMs가 일상적이지 않은 객체에 대한 인식 능력이 부족함을 보여준다.

비디오 질의응답 테스트에서는 모델들이 설명적 질문과 공간적 질문에 대해서는 어느 정도 답변할 수 있었으나, 비디오에 없는 정보를 묻는 적대적 질문에 대해서는 불확실성을 인정하지 않고 잘못된 답변을 생성하는 경향을 보였다. 이러한 환각(hallucination) 현상은 시각장애인에게 잘못된 정보를 제공할 위험이 있어 안전성 측면에서 큰 우려사항이다.

사용자 중심 개발이 필요: 시각장애인용 보조 기기 인식률 최저 23%

연구 결과는 MLLMs가 시각장애인을 위한 보조 도구로서 가능성을 보이지만, 여전히 상당한 개선이 필요함을 보여준다. 문화적 맥락 이해, 다국어 지원, 점자 인식, 특수 객체 인식, 환각 현상 극복 등 다양한 분야에서 개선이 필요하다.

연구팀은 사용자 중심의 접근 방식으로 데이터셋과 모델을 개발하고, 시각장애인들의 실제 요구를 반영한 평가 방법론을 도입할 것을 제안한다. 또한 다양한 문화적 환경과 언어에 대한 고려, 시각장애인용 보조 기기에 대한 인식 능력 향상, 불확실성을 적절히 표현하는 능력 개발 등이 필요하다.

이러한 다양한 도전과제를 해결함으로써, 미래의 MLLMs는 시각장애인에게 더욱 신뢰할 수 있고 포용적인 시각적 지원을 제공할 수 있을 것이다.


FAQ

Q: 다자간 대규모 언어 모델(MLLMs)은 어떻게 시각장애인을 도울 수 있나요?

A: MLLMs는 이미지나 비디오의 내용을 설명하고, 질문에 답변하며, 점자를 인식하는 등의 기능을 통해 시각장애인이 시각적 정보를 이해하는 데 도움을 줄 수 있습니다. 예를 들어, 상품 라벨을 읽거나 주변 환경을 설명하는 데 활용될 수 있습니다.

Q: 현재 MLLMs의 가장 큰 한계점은 무엇인가요?

A: 현재 MLLMs의 가장 큰 한계점은 부정확성과 환각(hallucination) 현상입니다. 문화적 맥락 이해 부족, 다국어 지원 미흡, 특수 객체 인식 능력 부족, 그리고 불확실성을 인정하지 않고 잘못된 정보를 제공하는 문제가 있습니다.

Q: 시각장애인을 위한 인공지능 기술은 앞으로 어떻게 발전해야 할까요?

A: 시각장애인을 위한 인공지능 기술은 사용자 중심의 접근 방식으로 개발되어야 합니다. 다양한 문화와 언어에 대한 지원 강화, 시각장애인용 보조 기기 인식 능력 향상, 불확실성을 적절히 표현하는 능력, 그리고 사용자의 실제 피드백을 반영한 지속적인 개선이 필요합니다.

해당 기사에서 인용한 논문 원문은 링크에서 확인할 수 있다.

이미지 출처: 이디오그램 생성

기사는 클로드와 챗GPT를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
4인 협동 지원, '슬더스 2' 3월 6일 앞서 해보기 게임메카
드래곤소드 전액환불 조치, 하운드13 vs 웹젠 갈등 심화 게임메카
틱톡에 치이고 이용률은 떨어지고, 글로벌 게임업계 이중고 (1) 게임메카
메이저나인 '아우터플레인' 오사카, 도쿄 투어. 일본 이용자들과 직접 소통 게임동아
웹젠 R2, 오리지널 리부트 서버 캐릭터명 선점 이벤트 진행 게임동아
[동아게임백과사전]출시 연기한 게임치고 제대로 된 게임 없다고? 아닐걸? (1) 게임동아
넵튠 님블뉴런 '이터널리턴', '페르소나5 더 로열'과 컬래버레이션 진행 게임동아
드림에이지 ‘알케론’, 신규 영상 2종 공개. 스팀 체험판 다운로드 시작 게임동아
명조 X 컴포즈커피 세미팝업 정식 오픈 게임동아
크릿벤처스USA, 웹3 기반 팬이코노미 플랫폼 ‘밋48’에 투자 게임동아
[겜덕연구소] 패미콤, 메가드라이브, PC엔진.. 게임기 어댑터 극성 총정리! (1) 게임동아
워게이밍, 스팀 배급사 할인 실시 "최대 90% 혜택 제공" 게임동아
블리자드, '오버워치' 1시즌 '정복' 특별 이벤트 진행 게임동아
최대 80% 저렴하게! 스토브, 2P 게임즈 특별 할인행사 진행 게임동아
‘초월의 소환서’ 받을 기회! 컴투스 ‘서머너즈 워’ 미션 이벤트 실시 게임동아
엠게임, 2025년 매출 917억원. 영업이익 176억으로 마무리 게임동아
[한주의게임소식] 2주 연속 상승한 ‘니케’와 벌써 흥행작 대열에 오른 '바하: 레퀴엠' 게임동아
넥슨, 패트릭 쇠더룬드 '회장' 선임 전격 발표 게임동아
엔씨, 타임 서바이벌 슈터 ‘타임 테이커즈’ CBT 일정 공개 게임동아
8천여 명 몰렸다... 네오위즈 ‘피망 뉴맞고’ 오프라인 팝업 성료 (1) 게임동아
이 시간 HOT 댓글!
1/4