AI는 점자를 읽을 수 있을까? 시각장애인을 위한 언어 모델의 가능성과 한계 : 다나와 DPG는 내맘을 디피지

Evaluating Multimodal Language Models as Visual Assistants for Visually Impaired Users

87%가 원하는 AI 시각 도우미: 부정확성이 가장 큰 걸림돌

다자간 대규모 언어 모델(Multimodal Large Language Models, MLLMs)은 시각 장애인을 지원하는 유망한 기술로 주목받고 있다. 코펜하겐 대학교와 헤리엇 와트 대학교 연구팀은 이러한 기술이 시각장애인을 위한 보조 도구로서 얼마나 효과적인지 체계적으로 평가했다. 연구진은 사용자 설문조사를 통해 시각장애인들이 이러한 기술을 사용할 때 직면하는 주요 문제점을 파악하고, 이를 바탕으로 MLLMs의 성능을 평가하는 다섯 가지 중요 분야를 설정했다.

설문조사 결과, 대부분의 시각장애인들(87%)이 인공지능을 시각 보조 도구로 사용하거나 사용할 의향이 있었지만, 부정확성과 맥락 이해 부족, 문화적 감수성 결여, 복잡한 장면 이해의 어려움 등의 문제점들이 크게 우려되는 것으로 나타났다. 특히 부정확한 인식, 환각(hallucination)과 같은 문제가 가장 큰 우려사항으로 지적되었다.

문화적 맥락에 취약한 AI: 이미지 설명 성능 최대 25점 하락

연구팀은 총 12개의 다자간 언어 모델을 대상으로 다섯 가지 분야에서 성능을 평가했다. 이미지 캡셔닝, 다언어 이미지 질의응답, 광학 점자 인식, 비디오 객체 인식, 비디오 질의응답 등의 과제를 수행하며 각 모델의 강점과 약점을 분석했다. 이미지 캡셔닝 테스트에서 대부분의 모델들은 기본적인 설명은 잘 제공했으나, 문화적 맥락을 포함한 이미지에서는 성능이 크게 저하되는 문제를 보였다. 특히 75-81점 사이의 RefCLIPScore를 보인 기본 테스트와 달리, 문화적 요소가 포함된 이미지에서는 일부 모델의 점수가 20-25점까지 하락했다. 심지어 최고 성능의 모델들도 문화적 맥락을 완전히 포착하지 못하는 한계를 보였다.

다언어 이미지 질의응답 평가에서는 영어 외 34개 언어에 대한 지원이 매우 부족한 것으로 나타났다. PaliGemma와 MiniCPM-V-2.6와 같이 영어에서 높은 성능(75.6%, 72.2%)을 보인 모델들도 다언어 환경에서는 큰 폭으로 성능이 하락했다. 이는 비영어권 시각장애인들에게 적합한 지원이 부족함을 의미한다.

점자는 단 하나의 모델만 읽을 수 있어: 비디오 객체 인식 정확도 최대 69.8%

광학 점자 인식 테스트에서는 대부분의 모델들이 점자를 읽는 능력이 없는 것으로 드러났다. 흥미롭게도 12개 모델 중 Qwen2-VL-Instruct만이 점자 인식을 수행할 수 있었다. 연구팀은 추가로 Llama-3.2-Vision-Instruct 모델을 점자 인식이 가능하도록 미세 조정했으며, 적은 양의 훈련 데이터로도 효과적으로 점자 인식 능력을 습득할 수 있음을 증명했다.

비디오 객체 인식 테스트에서 모델들은 일반 객체는 비교적 잘 인식했지만(52-69.8% 정확도), 시각장애인용 보조 기기와 같은 특수 객체 인식에서는 현저히 낮은 성능(23-41% 정확도)을 보였다. 이는 현재 MLLMs가 일상적이지 않은 객체에 대한 인식 능력이 부족함을 보여준다.

비디오 질의응답 테스트에서는 모델들이 설명적 질문과 공간적 질문에 대해서는 어느 정도 답변할 수 있었으나, 비디오에 없는 정보를 묻는 적대적 질문에 대해서는 불확실성을 인정하지 않고 잘못된 답변을 생성하는 경향을 보였다. 이러한 환각(hallucination) 현상은 시각장애인에게 잘못된 정보를 제공할 위험이 있어 안전성 측면에서 큰 우려사항이다.

사용자 중심 개발이 필요: 시각장애인용 보조 기기 인식률 최저 23%

연구 결과는 MLLMs가 시각장애인을 위한 보조 도구로서 가능성을 보이지만, 여전히 상당한 개선이 필요함을 보여준다. 문화적 맥락 이해, 다국어 지원, 점자 인식, 특수 객체 인식, 환각 현상 극복 등 다양한 분야에서 개선이 필요하다.

연구팀은 사용자 중심의 접근 방식으로 데이터셋과 모델을 개발하고, 시각장애인들의 실제 요구를 반영한 평가 방법론을 도입할 것을 제안한다. 또한 다양한 문화적 환경과 언어에 대한 고려, 시각장애인용 보조 기기에 대한 인식 능력 향상, 불확실성을 적절히 표현하는 능력 개발 등이 필요하다.

이러한 다양한 도전과제를 해결함으로써, 미래의 MLLMs는 시각장애인에게 더욱 신뢰할 수 있고 포용적인 시각적 지원을 제공할 수 있을 것이다.

FAQ

Q: 다자간 대규모 언어 모델(MLLMs)은 어떻게 시각장애인을 도울 수 있나요?

A: MLLMs는 이미지나 비디오의 내용을 설명하고, 질문에 답변하며, 점자를 인식하는 등의 기능을 통해 시각장애인이 시각적 정보를 이해하는 데 도움을 줄 수 있습니다. 예를 들어, 상품 라벨을 읽거나 주변 환경을 설명하는 데 활용될 수 있습니다.

Q: 현재 MLLMs의 가장 큰 한계점은 무엇인가요?

A: 현재 MLLMs의 가장 큰 한계점은 부정확성과 환각(hallucination) 현상입니다. 문화적 맥락 이해 부족, 다국어 지원 미흡, 특수 객체 인식 능력 부족, 그리고 불확실성을 인정하지 않고 잘못된 정보를 제공하는 문제가 있습니다.

Q: 시각장애인을 위한 인공지능 기술은 앞으로 어떻게 발전해야 할까요?

A: 시각장애인을 위한 인공지능 기술은 사용자 중심의 접근 방식으로 개발되어야 합니다. 다양한 문화와 언어에 대한 지원 강화, 시각장애인용 보조 기기 인식 능력 향상, 불확실성을 적절히 표현하는 능력, 그리고 사용자의 실제 피드백을 반영한 지속적인 개선이 필요합니다.

해당 기사에서 인용한 논문 원문은 링크에서 확인할 수 있다.

이미지 출처: 이디오그램 생성

기사는 클로드와 챗GPT를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

기아, 2025년 1분기 매출 역대 최고치 경신… 전기차·하이브리드 확대	글로벌오토뉴스
트럼프 행정부, 자율주행차 규제 완화 발표… 테슬라 로보택시 상용화에 탄력	글로벌오토뉴스
현대차, 美 관세 대응 전담조직 신설… 투싼 일부 생산 미국으로 이전	글로벌오토뉴스
닛산, 상하이 모터쇼에서 첫 PHEV 픽업 '프론티어 프로' 공개	글로벌오토뉴스
민인숙, KLPGA 시니어 개막전 우승…통산 6승	연합뉴스
김민수·정민서, 대만 아마추어골프선수권 남녀부 우승	연합뉴스
"백암선생이 이끄신다!" ‘FC 온라인’ 서비스 7주년 기념 프로모션 진행	게임동아
“글로벌 챔피언십도 열린다”, 위메이드커넥트 ‘프리프 유니버스’ 국내 정식 서비스 시작	게임동아
‘V4’, 신규 시즌 ‘REBIRTH’ 업데이트	게임동아
포켓몬코리아, ‘포켓몬 타운 2025 with LOTTE’에서 ‘포켓피스 존’ 운영	게임동아
블소 레볼루션, 신규 던전 '천유궁' 업데이트	게임동아
넷마블, 서비스 1주년 기념 사전 등록 진행 "특급 보상 제공"	게임동아
웹젠 ‘뮤 모나크2’, 다양한 혜택 담은 이벤트 진행	게임동아
"솔가레오, 루나아라 등장!" 포켓몬 카드 게임 Pocket, 신규 확장팩 2종 30일 공개	게임동아
캐논크래커 ‘초전박살 스매시히어로’, 귀여운 펫 시스템과 신규 S급 장비/히어로 업데이트	게임동아
발달 장애 프로 골퍼 이승민, 우리금융 챔피언십 2R 4위 '선전'	연합뉴스
AI답변 퀄리티가 다르다? 무료vs유료 버전 답변의 차이점은? (1)	다나와
캠핑 초보도 쉽게 따라 하는 실전 스타일링 팁	뉴스탭
오픈AI, '구글 크롬(Crome) 인수하기 원한다'	다나와
이른 무더위에 여름가전 조기전쟁… 설치 필요 없는 프리 스탠딩 제품 ‘각광’	뉴스탭
커버써먼, 中·日·대만·동남아 잇단 진출…B2B2C 전략으로 글로벌 확장 가속	뉴스탭
엔카닷컴, ‘엔카믿고’로 내 차 팔기 전면 리뉴얼… 중고차 거래 브랜드 일원화	뉴스탭
쌍용C&B, 환경표지 인증 제품 23개 돌파…친환경 위생용품 시장 선도	뉴스탭
[포토] 구서울역 100주년 맞아 전국 생활문화 브랜드 한자리에 모았다	뉴스탭
5월 황금연휴 국내 여행 수요 작년 대비 189% 급증…호텔 예약은 354% 폭증	뉴스탭
2030년 1인 가구 4명 중 1명 시대…모나리자, 위생용품 ‘미니 사이즈’ 확대	뉴스탭
유우프, 2025 핫썸머 컬렉션 공개…‘Color Movement’로 여름 스타일 제안	뉴스탭
하우스오브신세계에 사케 최초 입점…나라셀라, 프리미엄 사케 ‘이와5’ 국내 시장 확대 신호탄	뉴스탭
고객 목소리에서 답을 찾다…만트럭, 현장 경청 리더십으로 반전 드라이브	뉴스탭
스윔웨어 브랜드 코랄리크, 권은비와 함께한 25SS ‘Glow & Flow’ 컬렉션 공개	뉴스탭
오프로드, 25SS 캠페인 공개… 아웃도어 본질에 개성 더한 스타일 제안	뉴스탭
타이거 우즈 스크린 골프 리그, LPGA 투어 선수들 영입 검토	연합뉴스
하이브IM '별이 되어라2'에 신규 캐릭터 도로테아 등장!	게임동아
세가, 유니버설 픽쳐스와 함께 레이싱 게임 '아웃런'의 영화 제작 발표	게임동아
그라비티, 중남미 지역 'RAGNAROK THE ORCHESTRA CONCERT' 개최 예고	게임동아
종합 서브컬처 축제 '일러스타 페스 7', 일산 킨텍스 서 5월 3~4일 개최	게임동아
렉서스, 8세대 ES 깜짝 공개 '패스트백 차체에 두 가지 파워트레인'	오토헤럴드
하이킹 코스에 핀 데이지 군락에서 영감, 롤스로이스 '컬리넌 데이지' 공개	오토헤럴드
폭스바겐, 쿠페형 전기 SUV 'ID.5' 국내 인도 개시… 복합 434km 긴 주행거리	오토헤럴드
기아 ‘그린라이트 프로젝트’ 코트디부아르 지역 청년 대상 IT 교육센터 개소	오토헤럴드
현대차·기아, 협력사 채용 지원 동반성장 프로그램 '2025 Here We GO!' 실시	오토헤럴드
KGM, 드라이브 페스타 '토레스 하이브리드' 120시간 스페셜 시승 실시	오토헤럴드
푸조 '308 스마트 하이브리드' 안심 가격 보장제 실시...위탁판매 및 가격 정찰제	오토헤럴드
[EV 트렌드] '18분이면 충전 끝' 스텔란티스, 고체 배터리 탑재 전기차 예고	오토헤럴드
제네시스 전시장 중 최대 규모 '제네시스 청주’ 개관...카 컬쳐 허브로 조성	오토헤럴드
만트럭, 피터 안데르손 사장의 ’경청ㆍ소통' 중심 경영 조직문화 변화 주도	오토헤럴드
[질의응답] 벤츠 CTO 마르쿠스 쉐퍼, 레벨3 자율주행 상용화 자신감의 근거는?	글로벌오토뉴스
2025 상하이오토쇼 - 전기차-자율주행-4D사운드까지, 현대모비스가 준비한 미래	글로벌오토뉴스
[영상] 전기차 대중화의 정점에 선 합리적 선택, 기아 EV4	글로벌오토뉴스
메르세데스-벤츠, 첫 롱휠베이스 전기차 ‘CLA L’ 중국서 최초 공개	글로벌오토뉴스
토요타, 5m 대형 전기 세단 ‘bZ7’ 공개… 화웨이 OS 첫 탑재	글로벌오토뉴스
렉서스 ES: 전기차와 하이브리드로 거듭나다	글로벌오토뉴스
르노-지리 합작사 호스 파워트레인, BEV 플랫폼 기반 하이브리드 파워트레인 공개	글로벌오토뉴스
베바스토, 기아 EV3 핵심 부품 공급… 한국 생산으로 협력 강화	글로벌오토뉴스
샤오미, 독일 뮌헨에 전기차 R&D 기지 건설 추진… 유럽 시장 공략 박차	글로벌오토뉴스
미국, 재생에너지 발전 용량 급증…태양광·풍력이 성장 주도	글로벌오토뉴스
NHN, '2025 한게임포커 챔피언십(HPC) 시즌2' PC방 대회 참가자 모집	게임동아
혼다코리아, ‘ST125(닥스)’ 출시 기념 더현대 서울 전시 이벤트 진행	글로벌오토뉴스
현대모비스, 2025년 1분기 영업이익 43% 증가	글로벌오토뉴스
벤틀리모터스, 오토 상하이 2025서 하이브리드 ‘아주르’ 라인업 세계 최초 공개	글로벌오토뉴스
KGM, 토레스 하이브리드 ‘120시간 스페셜 시승’ 실시	글로벌오토뉴스
푸조, 308 스마트 하이브리드에 ‘안심 가격 보장제’ 첫 적용	글로벌오토뉴스
로터스, 인제스피디움서 트랙 시승 프로그램 ‘For the Track’ 성료	글로벌오토뉴스
폭스바겐파이낸셜서비스코리아, 그룹 전 브랜드 신차 전략 지원	글로벌오토뉴스
폭스바겐코리아, 쿠페형 전기 SUV ‘ID.5’ 고객 인도 개시	글로벌오토뉴스
롤스로이스, 단 한 대의 비스포크 SUV ‘컬리넌 데이지’ 공개	글로벌오토뉴스
현대차·기아, 협력사 인재 매칭 프로그램 ‘2025 Here We Go!’ 확대 시행	글로벌오토뉴스
기아, 그린라이트 프로젝트로 코트디부아르에 IT 교육센터 개소	글로벌오토뉴스
제네시스, 국내 다섯 번째 전용 전시관 ‘제네시스 청주’ 공식 개관	글로벌오토뉴스
르노코리아, 코스트코 일산점서 ‘그랑 콜레오스’ 특별 전시	글로벌오토뉴스
넷마블 ‘칠대죄: 그랜드 크로스’와 ‘어둠의 실력자가 되고 싶어서’ 컬래버 진행!	게임동아
바디프랜드, KLPGA '2025 덕신 EPC 챔피언십' 후원	연합뉴스
2025년, 美 AI 스타트업 19곳 ‘1조 3천억 이상’ 대규모 투자 유치	AI matters
익숙함 속에 반전의 재미. ‘심플래’ 만든 레모라	게임동아
한국골프장경영협회, 이사회 통해 협회 감사 등 선임	연합뉴스
구글, AI 챗봇 '제미나이' 월간 사용자 3억5천만 명 돌파	AI matters
유해란, 시즌 첫 메이저 대회 셰브론 챔피언십 1R 공동 선두	연합뉴스
애플, AI 마케팅 '과장 논란'... 광고 감시기관 제동	AI matters
김시우·배상문, PGA 투어 팀 경기 첫날 공동 72위	연합뉴스
LIV 골프 행사 나갔다가 징계받는 PGA 선수, 재심 요구	연합뉴스
'샷 난조' 임성재, 우리은행 챔피언십 3연패 먹구름…1R 4오버파	연합뉴스
한진선·정소이·홍진영, KLPGA 덕신EPC 1R서 3언더파 공동 1위	연합뉴스
하이브IM '퍼즐 세븐틴' GS25와 컬래버레이션 디저트 6종 출시	게임동아
롬, '에피소드Ⅲ : 공성전' 업데이트 선보여	게임동아
‘에오스 블랙’ 신 서버 알드리 오픈 업데이트	게임동아
익숙하면서도 새롭다. 모든 장르로 확산되고 있는 포스트 아포칼립스의 매력 (1)	게임동아
'바람의나라’ 가정의 달 맞이 운동회 이벤트 실시	게임동아
전기차부터 레인지 익스텐더까지…폭스바겐, 중국서 신에너지차 드라이브	뉴스탭
데이비드 베컴, 보스와 손잡고 첫 디자인 컬렉션 BECKHAM x BOSS 론칭	뉴스탭
'승리의 여신: 니케', 2.5주년 대규모 업데이트…신규 니케·이벤트 대거 공개	뉴스탭
YOSTAR, 명일방주 ‘막을 여는 자들’ 이벤트 개최…신규 오퍼레이터 6인 추가	뉴스탭
현대차 1분기, 매출 44조원으로 역대 최대 '영업익 3조 6336억원 달성'	오토헤럴드
기아 EV4 '전동화 시대 교과서 같은 세단'	오토헤럴드
KGM, 1분기 영업이익 106억 원 흑자 달성...순수 영업실적으로 이익 실현 의미	오토헤럴드
현대차, 2025년 1분기 역대 최대 분기 매출 달성... 하이브리드 판매 호조	글로벌오토뉴스
중국 FAW 그룹, 홍치 브랜드 첫 비행 자동차 공개… 미래 모빌리티 시대 개척	글로벌오토뉴스
포니.ai, 세계 최초 차량용 칩 기반 레벨 4 로보택시 공개… 양산 원년 선언	글로벌오토뉴스
아우디, 중국 전용 전기차 브랜드 첫 모델 ‘E5 Sportback’ 공개	글로벌오토뉴스
지커 009 그랜드 컬렉터 에디션 공개, 순금으로 치장된 럭셔리 밴	글로벌오토뉴스
돌비, 오토 상하이 2025서 차량용 ‘돌비 비전·애트모스’ 기술 대거 공개	글로벌오토뉴스

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

AI는 점자를 읽을 수 있을까? 시각장애인을 위한 언어 모델의 가능성과 한계

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

AI는 점자를 읽을 수 있을까? 시각장애인을 위한 언어 모델의 가능성과 한계

공유하기

공감/비공감