"챗GPT도 속았다"... AI에게 '답 없는 질문'하자 60% 이상 틀려 : 다나와 DPG는 내맘을 디피지

문서를 읽고 질문에 답하는 AI가 크게 발전했지만, 정작 "이 질문은 답할 수 없다"는 사실을 알아채는 능력은 형편없는 것으로 드러났다. 이탈리아 토리노 공대 연구팀이 GPT-4를 포함한 최신 AI 모델 12종을 테스트한 결과, 문법도 맞고 내용도 그럴듯해 보이지만 실제로는 답이 없는 질문 앞에서 대부분 헷갈려 했다. 가장 성적이 좋은 AI도 정확도가 60%에 불과했고, 최악의 경우 7%에 그쳤다. 이는 AI가 틀린 정보를 마치 맞는 것처럼 자신 있게 말할 위험이 크다는 뜻이다.

최고 성적 60점, 모델 크기보다 학습 방식이 중요

연구팀은 Qwen, GPT-4.1-mini, Gemma, LLaMA 등 12종의 AI를 두 종류의 문서 데이터로 시험했다. '문서 정확도'라는 기준으로 보면 점수가 7%에서 60% 사이였다. 이는 100개 질문 중 7~60개만 제대로 "답할 수 없다"고 판단했다는 의미다. 가장 잘한 건 중국 알리바바가 만든 Qwen 2.5 VL 72B 모델로, DUDE라는 테스트에서 59.9%, MPDocVQA 테스트에서 58.1%를 받았다. 흥미로운 점은 같은 회사의 작은 모델(7B)도 각각 46%, 49%를 받으며 선전했다는 것이다. 연구팀은 이를 통해 AI 크기를 키우는 것보다 어떻게 학습시키느냐가 더 중요하다고 분석했다.

'페이지 정확도'로 보면 점수가 더 높았다. Qwen 7B는 83.5%와 88.1%를 기록했다. 하지만 이건 페이지 하나씩 볼 때 얘기고, 문서 전체를 일관되게 판단하는 능력은 훨씬 떨어졌다. 특히 8페이지가 넘는 긴 문서에서는 모든 AI의 성적이 뚝 떨어졌다.

"그림이에요, 표에요?" 질문에 AI 혼란...구조 정보 바꾸면 속아 넘어가

연구팀은 질문 속 단어를 다섯 종류로 나눠 각각 바꿔치기했다. 숫자, 시간, 기타 정보, 위치, 문서 구조가 그것이다. AI들은 위치나 숫자를 바꾼 질문은 비교적 잘 알아챘다.

하지만 문서 구조 관련 단어를 바꾸면 쉽게 속았다. 예를 들어 원래 질문이 "그림에서 바다 수위 전망은?"이었는데, 이걸 "표에서 바다 수위 전망은?"으로 바꾸면 AI가 헷갈렸다. 문서에 바다 수위 그림은 있지만 표는 없는 상황에서도 AI는 "답이 없다"고 제대로 판단하지 못했다.

문서 요소별로 보면, 머리글·꼬리글·각주 같은 부가 정보에 대한 질문은 AI가 잘 처리했다. Qwen 72B는 DUDE 테스트에서 67.5%, MPDocVQA에서 83.3%를 받았다. 반면 표에 대한 질문에서는 성적이 떨어졌고, 특히 제목 관련 질문은 더 어려워했다.

같은 페이지 안에서 단어를 바꾼 경우가 다른 페이지의 단어로 바꾼 것보다 더 어려웠다. Qwen 7B의 경우 같은 페이지 변조는 75.3%, 다른 페이지 변조는 87.3%의 정확도를 보였다. 비슷한 정보가 가까이 있으면 AI가 더 헷갈린다는 뜻이다. 또 페이지 수가 8장을 넘어가면 모든 AI의 성적이 떨어졌다.

"답 모를 수도 있다"고 미리 알려주니 성적 껑충

연구팀은 AI에게 힌트를 줬을 때 어떻게 달라지는지 실험했다. 프롬프트(AI에게 주는 지시문)에 "이 질문은 답이 없을 수도 있습니다"라고 미리 알려주거나, 문서의 텍스트를 글자로 풀어서 함께 제공하는 방식이다. 결과는 놀라웠다. 힌트만 줘도 성적이 올랐고, 텍스트 정보를 더하면 더욱 좋아졌다. 두 가지를 다 쓰면 가장 효과가 컸다. DUDE 테스트에서 Qwen 72B는 기본 상태보다 이 두 방법을 합쳤을 때 성적이 크게 올랐다. 텍스트 정보는 특히 글이 많은 문서에서 효과적이었지만, 그림이나 표가 많은 문서에서는 도움이 덜했다.

재미있는 건 한 번에 보는 페이지 수를 늘리면 오히려 성적이 떨어진다는 점이다. 1페이지씩 볼 때보다 3페이지를 한꺼번에 보면 대부분 AI의 정확도가 낮아졌다. 정보가 많으면 오히려 헷갈린다는 뜻이다.

연구팀이 만든 '가짜 질문' 생성 시스템

VRD-UQA라는 이름의 이 평가 시스템은 진짜 같은 가짜 질문을 자동으로 만든다. 과정은 4단계다. 먼저 문서를 분석하고, 질문 속 단어를 교묘하게 바꾸고, 정말 답이 없는지 확인하고, 마지막으로 AI를 평가한다.

첫 단계에서는 DocLayout-YOLO라는 도구로 문서 구조를 분석하고, Qwen AI로 그림 설명을 만들고, GOT-OCR 2로 글자를 읽는다. 두 번째 단계에서는 GliNER라는 도구가 질문에서 핵심 단어를 찾아내고, 같은 종류의 다른 단어로 바꾼 뒤, Qwen AI가 자연스러운 문장으로 다듬는다. 세 번째 단계에서는 구글의 Gemini 2.5 Flash AI가 판사처럼 "이 질문이 정말 답이 없나?"를 검증한다.

연구팀은 DUDE와 MPDocVQA라는 두 데이터셋에서 각각 300개 질문을 뽑아 총 2,176개의 가짜 질문 후보를 만들었다. 검증 과정을 거쳐 593개의 진짜 답 없는 질문을 확정했다. 이 중 단순한 것(1개 단어 변조)이 318개, 중간 난이도(2개 단어 변조)가 201개, 어려운 것(3개 단어 변조)이 74개였다. 사람 전문가가 검토한 결과 96.97%가 정확하게 답 없는 질문이었다.

AI에게도 "모른다"고 말할 용기가 필요해

이번 연구는 요즘 AI가 답을 잘 찾는 건 뛰어나지만, 정작 답이 없는 상황을 알아채는 건 서툴다는 점을 보여준다. 실제 상황에서 사람들은 오타를 치거나, 잘못 기억하거나, 문서 내용을 착각해서 답 없는 질문을 자주 한다. 이럴 때 AI가 틀린 답을 자신있게 말하는 것보다는 "모르겠습니다"라고 솔직하게 말하는 게 훨씬 안전하다.

연구 결과를 보면 AI를 크게 만드는 것만으로는 이 문제를 해결할 수 없다. 대신 학습 방법과 설계 방식이 더 중요하다. 특히 문서 구조를 이해하는 능력과 공간 정보를 처리하는 능력을 키워야 한다. 실무에서는 AI에게 질문할 때 "답이 없을 수도 있다"고 미리 말해주고, 문서 텍스트를 함께 제공하면 성능이 올라간다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q: VRD-UQA가 기존 AI 평가와 다른 점은 뭔가요?

A: 기존 평가는 AI가 질문에 정확히 답하는지만 봤습니다. VRD-UQA는 "이 질문은 답이 없다"는 걸 AI가 알아채는지 평가합니다. 문법도 맞고 내용도 그럴듯하지만 실제로는 답이 없는 질문을 만들어서, AI가 속는지 안 속는지 테스트하는 겁니다.

Q: AI 정확도를 높이려면 어떻게 해야 하나요?

A: 질문할 때 "답이 없을 수도 있어"라고 미리 알려주고, 문서 내용을 글자로 풀어서 함께 제공하면 좋습니다. 연구 결과 이 두 방법을 함께 쓰면 AI 성적이 가장 많이 올랐습니다. 또 한 번에 너무 많은 페이지를 주지 말고 적당히 나눠서 주는 것도 도움이 됩니다.

Q: AI가 가장 어려워하는 질문 유형은 뭔가요?

A: "그림"을 "표"로 바꾸는 등 문서 구조 관련 단어를 바꾼 질문이 가장 어렵습니다. 또 같은 페이지 안에서 단어를 바꾼 경우, 표에 대한 질문, 그리고 8페이지 넘는 긴 문서의 질문을 특히 어려워합니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: Benchmarking Visual LLMs Resilience to Unanswerable Questions on Visually Rich Documents

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

[오늘의 스팀] 아캄식 전투, 레고 배트맨 신작 평가 ‘압긍’ (1)	게임메카
반말·존댓말 오락가락, 007 퍼스트 라이트 번역 품질 논란 (1)	게임메카
그랩이 5배, 롤 ‘증바람’ 업데이트 정보 공개	게임메카
아우디 코리아, 전국 주요 거점서 ‘더 뉴 아우디 A6’ 시승 행사 개최	글로벌오토뉴스
기아 EV3, 독일 <아우토 자이퉁> 전기차 비교 평가 종합 1위 등극	글로벌오토뉴스
지엠한마음재단, 인천 취약계층 주거 개선 봉사활동 전개	글로벌오토뉴스
포르쉐코리아, 세브란스 어린이병원서 환아 지원 행사 개최	글로벌오토뉴스
앤트로픽,1,240조 원 평가로 42조 원 펀딩 마감…오픈AI 제치고 세계 최고가 AI 기업 등극	AI matters
여름 식단도 ‘성분 확인’ 시대…식품업계, 함량·저당 제품 경쟁	뉴스탭
윈저글로벌, 대학생 서포터즈 ‘위너스 크루’로 개편…젊은 위스키 소비자 접점 확대	뉴스탭
파파존스, ‘토이 스토리 5’ 개봉 앞두고 성수동에 피자 플래닛 연다	뉴스탭
정품 등록하면 3년 무상 A/S…인텔 CPU 여름 프로모션 실시	뉴스탭
다크플래쉬, COMPUTEX 2026서 ‘통합 하드웨어 브랜드’ 비전 공개	뉴스탭
“팬 각도를 직접 조절한다”... Formula V Line, 컴퓨텍스서 Air Power G10 공개 예고	뉴스탭
때 이른 무더위에 에어컨 수요 급증…오텍캐리어 ‘디오퍼스+’ 판매 187% 증가	뉴스탭
마이크로닉스, COMPUTEX 2026서 3000W 파워·게이밍 AIO 공개	뉴스탭
외식비 부담에 집밥·홈카페 확산…주방가전이 바꾸는 ‘멀티 홈라이프’	뉴스탭
마이크로닉스, 플레이엑스포서 인디게임 부스 후원…게이머 접점 확대	뉴스탭
성능 넘어 취향까지…‘나만의 IT 셋업’ 완성하는 맞춤형 기기 3선	뉴스탭
씰리침대, 현대백화점 천호점서 ‘슈퍼 프라이스’ 행사 진행	뉴스탭
중국으로 진출한 ‘카오스 제로 나이트메어’, 앱스토어 무료 1위	게임동아
L&K ‘붉은보석’, 한국 서비스 23주년 기념 이벤트 실시	게임동아
넷마블 '세븐나이츠 리버스'에 각성과 첫 각성 영웅 '실베스타' 등장	게임동아
AI 게임 제작 플랫폼에서 프롬프트 한 줄로 게임이 뚝딱	게임동아
넷마블 '킹 오브 파이터 AFK'에 신규 파이터 '나코루루' 등장	게임동아
스퀘어에닉스 대표 IP ‘드퀘’ 9700만장·‘파판’ 2억900만장... 누적 판매량 공개	게임동아
스팀덱 OLED 가격 인상... “반도체 공급난 등으로 40% 이상 상승” (1)	게임동아
슈퍼캣 ‘돌 키우기 온라인’, 2.9.0 업데이트… ‘쇼미더스톤 핀볼’ 이벤트 실시	게임동아
온라인삼국지2 ‘밸런스 환장 대파티’ 업데이트 실시	게임동아
서든어택, 신규 생존전 모드 ‘로데오 솔로’ 추가	게임동아
크래프톤 배틀그라운드 모바일, 마운틴듀와 2026 공식 파트너십	게임동아
마이크로소프트, 액티비전 블리자드 인수 소송 2억 5,000만 달러에 합의	게임동아
김택성·이민희, 래디컬 컵 코리아 2라운드 극적 우승	글로벌오토뉴스
HTWO 광저우, 중국 광저우시 수소분야 산업체인 선도기업 선정	글로벌오토뉴스
한성자동차, 메르세데스-벤츠 코리아 ‘2025 딜러 어워드’ 대거 수상	글로벌오토뉴스
KAIA, 보호무역과 중국 공세 속 K-모빌리티 생태계 사수방안 논의	글로벌오토뉴스
현대모비스, 오픈소스 도입으로 SDV 표준 플랫폼 선점 나선다	글로벌오토뉴스
마세라티 코리아, 20대 한정 ‘그레칼레 폴고레’ 맞춤형 사전 예약 돌입	글로벌오토뉴스
브리지스톤 코리아, 소형트럭용 타이어 ‘6개월 무상교환’ 보증 프로그램 전개	글로벌오토뉴스
KGM, 차량 판매·정비·부품 한곳에 모은 ‘3S 복합 대리점’ 개소	글로벌오토뉴스
페라리 대표단, 교황 레오 14세 예방…‘페라리 루체’ 스티어링 휠 헌정	글로벌오토뉴스
BMW 코리아, 고객 맞춤형 문화 공간 ‘BMW 엑설런스 라운지 2026’ 성료	글로벌오토뉴스
한국앤컴퍼니, 임직원 참여 정기 봉사 ‘볼런티어 투게더 데이’ 전개	글로벌오토뉴스
신규 캐릭터 3종 출격, 포트리스3 블루 PC·모바일 출시	게임메카
해외 스팀 덱 가격 43~46% 인상, 국내 적용도?	게임메카
페라리 경영진, 교황 레오 14세 예방…‘페라리 루체’ 스티어링 휠 헌정	오토헤럴드
마세라티, 럭셔리 패키지 장착한 20대 한정 ‘그레칼레 폴고레’ 사전 예약	오토헤럴드
“GPT-5.5-사이버로 AI 보안 구축” 대한민국 정부ㆍ기관과 손잡은 오픈AI	IT동아
위쳐 3 신규 확장팩 '송즈 오브 더 패스트' 깜짝 발표	게임메카
[순위분석] 아이온2 이어, 아이온도 리메이크 달고 날았다	게임메카
아이피타임 BE19000QCA 유무선공유기 [써보니] 플래그십의 기준 상항평준화!	위클리포스트
‘블루 아카’, 서비스 4.5주년 기념 업데이트 진행.. "신규 캐릭터 3종 등장"	게임동아
CDPR, '더 위쳐 3' 11년 만에 세 번째 확장팩 '송즈 오브 더 패스트' 2027년 출시	게임동아
롬', '에피소드Ⅴ : 다크 렐름' 사전예약 진행	게임동아
넷마블 '레이븐2', 특화 서버 'ZERO' 오픈	게임동아
PS, 'Days of Play 2026' 프로모션 진행 "특별 할인 선보인다"	게임동아
히트2’, 신규 최상위 던전 ‘태초의 숲’ 업데이트	게임동아
차보다 집이 먼저, '포르자 호라이즌 6' 초보자를 위한 게임 팁	게임동아
"전쟁에 멈춘 공장" 토요타 감산이 보여준 자동차 산업의 불안한 현실	오토헤럴드
BYD, 글로벌 시장 겨냥 첫 PHEV 공개 '1회 충전·주유 기준 1000km'	오토헤럴드
기아, 완성도 높은 전기 SUV 'EV3' 독일 전문지 비교평가 ‘종합 1위’	오토헤럴드
한국타이어, 호주 신규 내구 레이스 ‘APCES’에 컨트롤 타이어 독점 공급	글로벌오토뉴스
현대모비스, 자회사형 장애인 표준사업장 ‘모아빛’ 본격 출범	글로벌오토뉴스
메르세데스-벤츠 코리아, 여름철 안전 운행 위한 ‘2026 세이프티 케어 캠페인’ 진행	글로벌오토뉴스
GM, ‘2025 올해의 우수 협력사’ 선정…국내 기업 20개사 수상	글로벌오토뉴스
414. 중국화된 자동차로 관세장벽과 프렌차이즈법의 미국시장도 뚫는다.	글로벌오토뉴스
유럽연합 4월 전기차 등록 37.7% 증가, 시장 점유율 19.7%	글로벌오토뉴스
중국 광저우 그룹, 럭키 모터와 협력 파키스탄 시장 전격 진출	글로벌오토뉴스
BMW 중국 진출 20주년 맞아 문화유산 보존 프로그램에 AI·디지털 기술 전격 도입	글로벌오토뉴스
중국 샤오미오토, 1분기 영업손실 31억 위안	글로벌오토뉴스
스텔란티스와 JLR 북미 시장 겨냥 제품 및 기술 개발 협력 위한 MOU 체결	글로벌오토뉴스
히어 테크놀로지스 공간 추론 인공지능 솔루션 히어 위치 추론 공개	글로벌오토뉴스
시트로엥 전설적 명차 2CV 전기차로 부활 파리 모터쇼서 세부 계획 공개	글로벌오토뉴스
웨이모, 폭우·고속도로 공사 구간서 기술적 한계… 미국 주요 도시 운행 일시 중단	글로벌오토뉴스
테슬라 안전성 검증 문제로 무감독 로보택시 20대로 감소	글로벌오토뉴스
바이두 아폴로 고, 우한 대규모 마비 사태로 로보택시 확장 제동	글로벌오토뉴스
정원엔시스 'HP HyperX OMEN 15' 고객 대상 '007 First Light' 번들 프로모션	다나와
OWC, 컴퓨텍스 2026에서 Thunderbolt 5 AI 및 스토리지 허브 ‘OWC Stack AI’ 발표	다나와
마이크로닉스, 2026 플레이엑스포 ‘오! 로봇’ 부스 후원 성료	다나와
OWC, 컴퓨텍스2026서 Thunderbolt 5 기반 ‘로컬 AI 허브’ 공개 (1)	뉴스탭
마이크로닉스, 플레이엑스포서 KEL 이터널 리턴 오프라인 일정 성료	뉴스탭
캐논 풀프레임 유저들이 포착한 ‘한국의 아름다움’ 한자리에 (1)	뉴스탭
AI 시대 K-콘텐츠 새 화두 ‘콘텐츠 엔지니어링’ 논의 열린다 (1)	뉴스탭
오픈AI “한국에 AI 사이버 방어 역량 확대”…‘코리아 사이버 액션 플랜’ 발표	뉴스탭
“다리가 떠 불편했는데…” 신현준 딸이 말한 툴레 카시트 ‘팜’의 차이	뉴스탭
시그니파이 식물생육 LED, LG CNS 수직농장에 적용…에너지 효율 25% 향상 (1)	뉴스탭
엔씨 '리니지 클래식', '잔혹한 눈의 마을, 오렌' 사전예약 진행	게임동아
카카오게임즈 ‘오딘’, 신규 길드 콘텐츠 업데이트	게임동아
하이브로 ‘드래곤빌리지3’, 글로벌 정식 출시… 12년 만의 넘버링 신작	게임동아
친구와 함께 하는 유적 탐사! 협동 파티 호러 게임 '초자연 작전팀' 출시	게임동아
아예 비싸거나, 낮은 가격으로 박리다매. 게임 가격 중간이 없어진다 (1)	게임동아
넷마블 'RF 온라인 넥스트', 신규 클래스 '데몰리션' 등장	게임동아
스마일게이트 ‘카제나’, 시즌3 신규 스토리 ‘한 소녀의 악몽’ 업데이트	게임동아
아스트라에 오라티오, ‘고양이 주임’과 ‘기모노 청장’ 공개	게임메카
넷마블 '왕좌의 게임: 킹스로드', 28일 오후 7시 개발자 라이브 방송	게임동아
中 게임사 ‘유주게임즈’ 창업자 독살범, 사형 집행	게임동아
14년째 개발 중인 ‘스타 시티즌’, 펀딩액 1조 3천억 돌파	게임동아
비피엠지, 게임 IP 기반 사업 강화..'포트리스와 에오스' 웹3화 추진	게임동아
펄어비스 검은사막, ‘왜곡의 흔적’ 인장 3차 이벤트 개최	게임동아
‘어린이들의 위대한 응원’ 현대차, 월드컵 대표팀 버스 디자인 공개	오토헤럴드

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

"챗GPT도 속았다"... AI에게 '답 없는 질문'하자 60% 이상 틀려

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

"챗GPT도 속았다"... AI에게 '답 없는 질문'하자 60% 이상 틀려

공유하기

공감/비공감