비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

"챗GPT도 속았다"... AI에게 '답 없는 질문'하자 60% 이상 틀려

2025.11.19. 11:36:51
조회 수
282
5

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

문서를 읽고 질문에 답하는 AI가 크게 발전했지만, 정작 "이 질문은 답할 수 없다"는 사실을 알아채는 능력은 형편없는 것으로 드러났다. 이탈리아 토리노 공대 연구팀이 GPT-4를 포함한 최신 AI 모델 12종을 테스트한 결과, 문법도 맞고 내용도 그럴듯해 보이지만 실제로는 답이 없는 질문 앞에서 대부분 헷갈려 했다. 가장 성적이 좋은 AI도 정확도가 60%에 불과했고, 최악의 경우 7%에 그쳤다. 이는 AI가 틀린 정보를 마치 맞는 것처럼 자신 있게 말할 위험이 크다는 뜻이다.

최고 성적 60점, 모델 크기보다 학습 방식이 중요

연구팀은 Qwen, GPT-4.1-mini, Gemma, LLaMA 등 12종의 AI를 두 종류의 문서 데이터로 시험했다. '문서 정확도'라는 기준으로 보면 점수가 7%에서 60% 사이였다. 이는 100개 질문 중 7~60개만 제대로 "답할 수 없다"고 판단했다는 의미다. 가장 잘한 건 중국 알리바바가 만든 Qwen 2.5 VL 72B 모델로, DUDE라는 테스트에서 59.9%, MPDocVQA 테스트에서 58.1%를 받았다. 흥미로운 점은 같은 회사의 작은 모델(7B)도 각각 46%, 49%를 받으며 선전했다는 것이다. 연구팀은 이를 통해 AI 크기를 키우는 것보다 어떻게 학습시키느냐가 더 중요하다고 분석했다.

'페이지 정확도'로 보면 점수가 더 높았다. Qwen 7B는 83.5%와 88.1%를 기록했다. 하지만 이건 페이지 하나씩 볼 때 얘기고, 문서 전체를 일관되게 판단하는 능력은 훨씬 떨어졌다. 특히 8페이지가 넘는 긴 문서에서는 모든 AI의 성적이 뚝 떨어졌다.

"그림이에요, 표에요?" 질문에 AI 혼란...구조 정보 바꾸면 속아 넘어가

연구팀은 질문 속 단어를 다섯 종류로 나눠 각각 바꿔치기했다. 숫자, 시간, 기타 정보, 위치, 문서 구조가 그것이다. AI들은 위치나 숫자를 바꾼 질문은 비교적 잘 알아챘다.

하지만 문서 구조 관련 단어를 바꾸면 쉽게 속았다. 예를 들어 원래 질문이 "그림에서 바다 수위 전망은?"이었는데, 이걸 "표에서 바다 수위 전망은?"으로 바꾸면 AI가 헷갈렸다. 문서에 바다 수위 그림은 있지만 표는 없는 상황에서도 AI는 "답이 없다"고 제대로 판단하지 못했다.

문서 요소별로 보면, 머리글·꼬리글·각주 같은 부가 정보에 대한 질문은 AI가 잘 처리했다. Qwen 72B는 DUDE 테스트에서 67.5%, MPDocVQA에서 83.3%를 받았다. 반면 표에 대한 질문에서는 성적이 떨어졌고, 특히 제목 관련 질문은 더 어려워했다.

같은 페이지 안에서 단어를 바꾼 경우가 다른 페이지의 단어로 바꾼 것보다 더 어려웠다. Qwen 7B의 경우 같은 페이지 변조는 75.3%, 다른 페이지 변조는 87.3%의 정확도를 보였다. 비슷한 정보가 가까이 있으면 AI가 더 헷갈린다는 뜻이다. 또 페이지 수가 8장을 넘어가면 모든 AI의 성적이 떨어졌다.

"답 모를 수도 있다"고 미리 알려주니 성적 껑충

연구팀은 AI에게 힌트를 줬을 때 어떻게 달라지는지 실험했다. 프롬프트(AI에게 주는 지시문)에 "이 질문은 답이 없을 수도 있습니다"라고 미리 알려주거나, 문서의 텍스트를 글자로 풀어서 함께 제공하는 방식이다. 결과는 놀라웠다. 힌트만 줘도 성적이 올랐고, 텍스트 정보를 더하면 더욱 좋아졌다. 두 가지를 다 쓰면 가장 효과가 컸다. DUDE 테스트에서 Qwen 72B는 기본 상태보다 이 두 방법을 합쳤을 때 성적이 크게 올랐다. 텍스트 정보는 특히 글이 많은 문서에서 효과적이었지만, 그림이나 표가 많은 문서에서는 도움이 덜했다.

재미있는 건 한 번에 보는 페이지 수를 늘리면 오히려 성적이 떨어진다는 점이다. 1페이지씩 볼 때보다 3페이지를 한꺼번에 보면 대부분 AI의 정확도가 낮아졌다. 정보가 많으면 오히려 헷갈린다는 뜻이다.

연구팀이 만든 '가짜 질문' 생성 시스템

VRD-UQA라는 이름의 이 평가 시스템은 진짜 같은 가짜 질문을 자동으로 만든다. 과정은 4단계다. 먼저 문서를 분석하고, 질문 속 단어를 교묘하게 바꾸고, 정말 답이 없는지 확인하고, 마지막으로 AI를 평가한다.

첫 단계에서는 DocLayout-YOLO라는 도구로 문서 구조를 분석하고, Qwen AI로 그림 설명을 만들고, GOT-OCR 2로 글자를 읽는다. 두 번째 단계에서는 GliNER라는 도구가 질문에서 핵심 단어를 찾아내고, 같은 종류의 다른 단어로 바꾼 뒤, Qwen AI가 자연스러운 문장으로 다듬는다. 세 번째 단계에서는 구글의 Gemini 2.5 Flash AI가 판사처럼 "이 질문이 정말 답이 없나?"를 검증한다.

연구팀은 DUDE와 MPDocVQA라는 두 데이터셋에서 각각 300개 질문을 뽑아 총 2,176개의 가짜 질문 후보를 만들었다. 검증 과정을 거쳐 593개의 진짜 답 없는 질문을 확정했다. 이 중 단순한 것(1개 단어 변조)이 318개, 중간 난이도(2개 단어 변조)가 201개, 어려운 것(3개 단어 변조)이 74개였다. 사람 전문가가 검토한 결과 96.97%가 정확하게 답 없는 질문이었다.


AI에게도 "모른다"고 말할 용기가 필요해

이번 연구는 요즘 AI가 답을 잘 찾는 건 뛰어나지만, 정작 답이 없는 상황을 알아채는 건 서툴다는 점을 보여준다. 실제 상황에서 사람들은 오타를 치거나, 잘못 기억하거나, 문서 내용을 착각해서 답 없는 질문을 자주 한다. 이럴 때 AI가 틀린 답을 자신있게 말하는 것보다는 "모르겠습니다"라고 솔직하게 말하는 게 훨씬 안전하다.

연구 결과를 보면 AI를 크게 만드는 것만으로는 이 문제를 해결할 수 없다. 대신 학습 방법과 설계 방식이 더 중요하다. 특히 문서 구조를 이해하는 능력과 공간 정보를 처리하는 능력을 키워야 한다. 실무에서는 AI에게 질문할 때 "답이 없을 수도 있다"고 미리 말해주고, 문서 텍스트를 함께 제공하면 성능이 올라간다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q: VRD-UQA가 기존 AI 평가와 다른 점은 뭔가요?

A: 기존 평가는 AI가 질문에 정확히 답하는지만 봤습니다. VRD-UQA는 "이 질문은 답이 없다"는 걸 AI가 알아채는지 평가합니다. 문법도 맞고 내용도 그럴듯하지만 실제로는 답이 없는 질문을 만들어서, AI가 속는지 안 속는지 테스트하는 겁니다.

Q: AI 정확도를 높이려면 어떻게 해야 하나요?

A: 질문할 때 "답이 없을 수도 있어"라고 미리 알려주고, 문서 내용을 글자로 풀어서 함께 제공하면 좋습니다. 연구 결과 이 두 방법을 함께 쓰면 AI 성적이 가장 많이 올랐습니다. 또 한 번에 너무 많은 페이지를 주지 말고 적당히 나눠서 주는 것도 도움이 됩니다.

Q: AI가 가장 어려워하는 질문 유형은 뭔가요?

A: "그림"을 "표"로 바꾸는 등 문서 구조 관련 단어를 바꾼 질문이 가장 어렵습니다. 또 같은 페이지 안에서 단어를 바꾼 경우, 표에 대한 질문, 그리고 8페이지 넘는 긴 문서의 질문을 특히 어려워합니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: Benchmarking Visual LLMs Resilience to Unanswerable Questions on Visually Rich Documents

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
[오늘의 스팀] 아캄식 전투, 레고 배트맨 신작 평가 ‘압긍’ (1) 게임메카
반말·존댓말 오락가락, 007 퍼스트 라이트 번역 품질 논란 (1) 게임메카
그랩이 5배, 롤 ‘증바람’ 업데이트 정보 공개 게임메카
아우디 코리아, 전국 주요 거점서 ‘더 뉴 아우디 A6’ 시승 행사 개최 글로벌오토뉴스
기아 EV3, 독일 <아우토 자이퉁> 전기차 비교 평가 종합 1위 등극 글로벌오토뉴스
지엠한마음재단, 인천 취약계층 주거 개선 봉사활동 전개 글로벌오토뉴스
포르쉐코리아, 세브란스 어린이병원서 환아 지원 행사 개최 글로벌오토뉴스
앤트로픽,1,240조 원 평가로 42조 원 펀딩 마감…오픈AI 제치고 세계 최고가 AI 기업 등극 AI matters
여름 식단도 ‘성분 확인’ 시대…식품업계, 함량·저당 제품 경쟁 뉴스탭
윈저글로벌, 대학생 서포터즈 ‘위너스 크루’로 개편…젊은 위스키 소비자 접점 확대 뉴스탭
파파존스, ‘토이 스토리 5’ 개봉 앞두고 성수동에 피자 플래닛 연다 뉴스탭
정품 등록하면 3년 무상 A/S…인텔 CPU 여름 프로모션 실시 뉴스탭
다크플래쉬, COMPUTEX 2026서 ‘통합 하드웨어 브랜드’ 비전 공개 뉴스탭
“팬 각도를 직접 조절한다”... Formula V Line, 컴퓨텍스서 Air Power G10 공개 예고 뉴스탭
때 이른 무더위에 에어컨 수요 급증…오텍캐리어 ‘디오퍼스+’ 판매 187% 증가 뉴스탭
마이크로닉스, COMPUTEX 2026서 3000W 파워·게이밍 AIO 공개 뉴스탭
외식비 부담에 집밥·홈카페 확산…주방가전이 바꾸는 ‘멀티 홈라이프’ 뉴스탭
마이크로닉스, 플레이엑스포서 인디게임 부스 후원…게이머 접점 확대 뉴스탭
성능 넘어 취향까지…‘나만의 IT 셋업’ 완성하는 맞춤형 기기 3선 뉴스탭
씰리침대, 현대백화점 천호점서 ‘슈퍼 프라이스’ 행사 진행 뉴스탭
이 시간 HOT 댓글!
1/4