“챗GPT도 속는다” AI가 정확한 정보를 줘도 14% 확률로 거짓말하는 이유 : 다나와 DPG는 내맘을 디피지

Sufficient Context: A New Lens on Retrieval Augmented Generation Systems

표준 데이터셋의 55.4%가 불완전한 정보: '충분한 맥락' 개념으로 드러난 AI 한계

검색 증강 생성(RAG) 시스템이 대형 언어모델의 정확성을 높이는 핵심 기술로 주목받고 있지만, 충분한 맥락 정보가 제공되어도 모델이 잘못된 답변을 생성하는 심각한 문제가 발견됐다. UC 샌디에이고와 듀크 대학교, 구글(Google)의 공동 연구팀이 발표한 새로운 연구에 따르면, 젬마이(Gemini) 1.5 프로, GPT-4o, 클로드(Claude) 3.5 등 최신 대형 모델들도 충분한 맥락이 주어진 상황에서 14-16%의 오답률을 보이는 것으로 나타났다.

연구팀은 기존 RAG 연구의 한계를 지적하며 '충분한 맥락(sufficient context)'이라는 새로운 개념을 도입했다. 충분한 맥락이란 질문에 답하기 위해 필요한 모든 정보가 포함된 맥락을 의미한다. 연구팀은 이 개념을 통해 RAG 시스템의 성능을 분석한 결과, 기존에 알려지지 않은 여러 문제점을 발견했다.

FreshQA, HotpotQA, Musique 등 3개 벤치마크 데이터셋을 분석한 결과, 표준 데이터셋의 44.6-55.4%가 불충분한 맥락을 포함하고 있는 것으로 드러났다. 특히 FreshQA는 77.4%의 충분한 맥락 비율을 보인 반면, HotpotQA와 Musique는 각각 46.2%, 44.6%에 그쳤다. 이는 현재 RAG 시스템의 검색 품질이 생각보다 낮다는 것을 시사한다.

GPT-4o vs 젬마 27B: 모델 크기가 클수록 '확신에 찬 거짓말' 더 자주

연구에서 가장 충격적인 발견은 모델 크기가 클수록 환각(hallucination) 현상이 더 심하다는 점이다. 젬마이 1.5 프로, GPT-4o, 클로드 3.5 소넷 등 대형 모델들은 충분한 맥락이 주어졌을 때 높은 정확도를 보이지만, 불충분한 맥락 상황에서는 답변을 회피하는 대신 잘못된 답변을 생성하는 경향이 강했다.

반면 미스트랄(Mistral) 3, 젬마(Gemma) 2 등 상대적으로 작은 모델들은 충분한 맥락이 주어져도 환각이나 답변 회피 현상을 자주 보였다. 이는 모델 크기에 따른 성능 차이가 단순히 정확도뿐만 아니라 환각 패턴에서도 나타난다는 것을 의미한다.

정보 부족해도 62% 정답: AI가 '추측'으로 맞히는 8가지 방법

연구팀은 또 다른 흥미로운 발견을 했다. 모든 모델이 불충분한 맥락 상황에서도 35-62%의 정답률을 기록했다는 점이다. 이는 모델들이 사전 훈련된 지식을 활용하거나, 부분적인 정보를 바탕으로 추론 능력을 발휘하기 때문으로 분석된다. 연구팀은 이러한 현상을 8가지 유형으로 분류했다. 예/아니오 질문에서의 50% 확률적 정답, 제한된 선택지에서의 우연한 정답, 다중 홉 추론에서의 부분적 정보 활용, 모호한 질문에서의 올바른 해석 등이 주요 원인으로 꼽혔다. 이는 RAG 시스템의 성능 향상이 단순히 검색 품질 개선만으로는 해결될 수 없음을 시사한다.

구글 연구진이 개발한 '선택적 답변' 기술: 젬마이 정확도 10% 향상

연구팀은 이러한 문제를 해결하기 위해 '선택적 생성(selective generation)' 기법을 개발했다. 이 방법은 충분한 맥락 정보와 모델의 자신감 점수를 결합해 답변 생성 여부를 결정하는 방식이다. 실험 결과, 젬마이, GPT, 젬마 모델에서 정답률을 2-10% 향상시키는 효과를 보였다.

특히 HotpotQA 데이터셋에서 젬마 27B 모델의 경우 최고 정확도 구간에서 10% 이상의 성능 향상을 달성했다. 젬마이 1.5 프로는 70% 커버리지 영역에서 5% 이상의 향상을 보였다. 이는 기존의 모델 신뢰도만을 활용한 방법보다 우수한 결과다.

FAQ

Q: RAG 시스템에서 충분한 맥락이란 무엇인가요?

A: 충분한 맥락은 주어진 질문에 답하기 위해 필요한 모든 정보가 포함된 맥락을 의미합니다. 예를 들어 "Lya L.의 배우자는 누구인가?"라는 질문에 "Lya L.은 2020년 폴과 결혼했다"는 정보가 포함되면 충분한 맥락으로 분류됩니다.

Q: 왜 대형 모델일수록 환각 현상이 더 심각한가요?

A: 대형 모델들은 충분한 맥락이 주어졌을 때는 높은 정확도를 보이지만, 불충분한 맥락 상황에서는 "모르겠다"고 답변하기보다는 잘못된 답변을 생성하는 경향이 강합니다. 이는 모델이 맥락 정보가 있을 때 과도한 자신감을 보이기 때문으로 분석됩니다.

Q: 선택적 생성 기법은 어떻게 작동하나요?

A: 선택적 생성 기법은 충분한 맥락 정보의 유무와 모델의 자신감 점수를 결합하여 답변 생성 여부를 결정합니다. 두 신호를 선형 회귀 모델로 결합해 환각 가능성을 예측하고, 임계값 이하일 때는 답변을 회피하도록 설계되었습니다.

AI Matters 뉴스레터 구독하기

KLPGA 시즌 4승 도전 이예원 "좋아하는 코스서 실수 없이"	연합뉴스
체인지샷 구현! 넥슨 '카스온라인' 좀비 히어로 클래식 모드 추가	게임동아
요스타, 서브컬처 신작 ‘스텔라 소라’ 국내 첫 CBT 시작	게임동아
카카오게임즈 '오딘' 4주년 기념 전야제 이벤트 실시	게임동아
넥슨, '카트라이더: 드리프트'에 실력 경쟁 '랭크 모드' 추가	게임동아
톰 무디 다이슨 홈 총괄 “소비자가 시작점, 경량화 넘어 성능으로 승부”	IT동아
[Q&AI] 이준석 발언 논란… AI가 경고한 사회적 파장은?	AI matters
뮤지컬로 즐기는 헬로카봇 시즌9, 미스터리 티켓팅 시작	게임동아
“AI가 답해주니까 클릭 안 해도 돼” 제로클릭 검색이 웹사이트 트래픽에 미치는 영향	AI matters
“팀원과의 대화, AI가 코치해드립니다” 직장 내 어려운 대화를 AI와 연습한다면 생기는 변화들	AI matters
AI는 아픈 아이를 살리기 위해 거짓말을 할까? AI가 도덕적 딜레마에 대처하는 방식	AI matters
메이플스토리 유니버스 이강석 실장, 제4회 NFT/블록체인 게임 컨퍼런스 강연 나선다	게임동아
넥슨, '마비노기 모바일' 6월 업데이트 '황야의 섬광' 사전등록	게임동아
넥슨 ‘FC 모바일’, 5주년 쇼케이스 영상과 업데이트 계획 공개!	게임동아
르노코리아 '자율주행ㆍADAS'도 속도... KIAPI와 공동 개발 협약	오토헤럴드
지난해 교통사고 사망자 역대 최저…고령 보행자 사망은 ‘빨간불’	오토헤럴드
"부품만 파는 게 아니네" 현대모비스, 차량 용품 체험 팝업스토어 오픈	오토헤럴드
현대모비스, 온라인 중심 차량 용품 현장 체험 팝업스토어 '모비로드' 개최	오토헤럴드
현대차, 대형 전동화 SUV 아이오닉 9 주한네덜란드대사관 공식 관용차 선정	오토헤럴드
BMW 그룹 코리아, SK 스피드메이트와 오리지널 부품 공식 공급 협약 체결	오토헤럴드
애스턴마틴 발할라, 페르난도 알론소의 모나코 스트리트 서킷 주행 퍼포먼스	오토헤럴드
BMW 그룹 코리아 30주년 기념 페스티벌 입장권 등 온라인 판매	오토헤럴드
'성공적 개명' KGM 브랜드 호감도 및 관심도 쌍용차 시절 대비 증가	오토헤럴드
"그게 다 밀어내기?" 중국에서 주행거리 '0' 중고차가 쏟아져 나온 이유	오토헤럴드
[기자 수첩] 올해 115% 성장한 최대 시장, 수입차에 다 빼앗긴 국산차	오토헤럴드
이네오스 그레나디어 방문 차량 점검 서비스 실시	오토헤럴드
스텔란티스, '25년 자동차 베테랑' 신임 CEO 안토니오 필로사 선임	오토헤럴드
GM, 한국사업장 구조조정…부평 유휴 자산 매각·직영 서비스 정리	오토헤럴드
제네시스 GV70, 북미 미디어 테스트 ‘최고의 프리미엄 SUV’ 찬사	오토헤럴드
BYD코리아, 아토 3 출고 두 달 만에 1,000대 인도 달성	글로벌오토뉴스
골프존 남녀 G투어 4차 대회, 31∼6월 1일 개최	연합뉴스
AI가 프리랜서로 활동해 20억 벌었다? 모델 별 수입, 신뢰도, 성공률 분석 결과 충격	AI matters
오픈AI, ‘챗GPT로 로그인’ 기능 도입 추진… 타사 앱 진출 본격화	AI matters
메타, AI 조직 두 개 팀으로 분할… 제품 개발 속도 높인다	AI matters
煎 메타 임원 "AI 모델 훈련에 모든 예술가 허가 받아야 하면 AI 산업은 바로 죽을 것"	AI matters
카카오, 생성형 AI 안전성 검증 '카나나 세이프가드' 국내 첫 오픈소스 공개	AI matters
메타, '라마 AI’ 개발팀 집단 이탈… “14명 중 11명이 이직”	AI matters
웹젠 '썬 클래식', 2025 토너먼트 최강자전 연다	게임동아
넷마블 '세븐나이츠 리버스', 첫 업데이트로 '(구)사황 태오'·'나이트 크로우 타카' 등장	게임동아
위메이드 '레전드 오브 이미르', 서비스 100일 기념 이벤트 돌입	게임동아
[겜덕연구소] 태풍이나 지진.. 절체절명 자연 재해는 게임 속에 어떻게 표현됐을까	게임동아
컴투스 '서머너즈 워', 출시 11주년 기념해 스페셜 룬 1+1 이벤트	게임동아
넷마블 '킹 아서: 레전드 라이즈', 신규 업데이트와 0.5주년 이벤트 진행	게임동아
그라비티, '라그나로크 온라인' 중남미 지역 정식 론칭!	게임동아
넥슨 던파 팝업스토어, ‘SNOWMAGE in 롯데월드타워·몰’ 6월 13일 오픈!	게임동아
“마크 칼 만드는데 필요한 재료가 뭐야?” MS, AI 게임 도우미 코파일럿 베타 공개	게임동아
“또 개발 취소”... EA, ‘블랙 팬서’ 게임 개발 중단 및 클리프행어 게임즈 폐쇄	게임동아
‘위쳐 3: 와일드 헌트’, 전 세계 6,000만 장 판매 돌파	게임동아
컴투스 ‘아이모’, 다양한 코스튬 아이템 추가 등 이벤트 ‘풍성’	게임동아
개막 앞둔 서머 게임 페스트2025. 한국 게임사 다수 출격	게임동아
“우승 팀에게는 4억 8,000만 원!”, 라이엇 게임즈 ‘발로란트 마스터스 토론토’ 6월 7일 개막	게임동아
[영상] 마세라티 그레칼레 폴고레 vs 트로페오, 최선의 선택은?	글로벌오토뉴스
[프리뷰] 토요타 RAV4	글로벌오토뉴스
중국 BYD, 호주 시장 직접 장악 나서… 글로벌 시장 확대 '속도'	글로벌오토뉴스
미국 재생에너지 발전량 급증… 2025년 1분기 전체 발전량의 4분의 1 넘어	글로벌오토뉴스
전기차, 배기가스 외 오염 감소 효과 입증… 대중교통·자전거·도보가 ‘최고’ 대안	글로벌오토뉴스
중국 CATL 초고속 교체형 EV 배터리 탑재 차량 인도 시작… '100초 주유' 시대 개막	글로벌오토뉴스
유럽서 테슬라 판매 '반토막'… 전기차 시장 성장에도 '나홀로 뒷걸음'	글로벌오토뉴스
중국 신차 시장 판도 변화… 폭스바겐, BYD에 밀려 '왕좌' 내줘	글로벌오토뉴스
EU, 2025년 CO2 배출 목표 완화 최종 승인… 자동차 업계 숨통 트이나	글로벌오토뉴스
GM, 뉴욕 엔진 공장에 1조 2천억 원 투자… 전기차 전환 속도 조절 및 미 정부 정책 변화 대응	글로벌오토뉴스
올 뉴 디펜더 OCTA 국내 공식 출시	글로벌오토뉴스
콘티넨탈, 에코바디스 지속가능성 평가 ‘플래티넘’ 등급 획득	글로벌오토뉴스
한국타이어, NBCI 타이어 부문 17년 연속 1위	글로벌오토뉴스
아우디 코리아, 6월 한 달간 ‘2025 여름철 서비스 캠페인’ 실시	글로벌오토뉴스
제네시스 GV70, 북미 주요 매체 시승평 호평…“고급감·정숙성 강화”	글로벌오토뉴스
‘EV 트렌드 코리아 2025’ 6월 3일 코엑스 개막	글로벌오토뉴스
람보르기니 서울, 남산에서 브랜드 철학 담은 ‘우루스 SE’ 팝업 쇼케이스	글로벌오토뉴스
포르쉐코리아, 국가무형유산전수교육관서 전통공예 전시·공연 개최	글로벌오토뉴스
보그워너, 북미 OEM과 EGR 시스템 공급 계약 4건 연장	글로벌오토뉴스
KG 모빌리티, 임직원 가족 초청 행사 진행	글로벌오토뉴스
두카티, 브랜드 최초의 모토크로스 머신 ‘데스모450 MX’ 양산 개시	글로벌오토뉴스
스텔란티스, 신임 CEO에 안토니오 필로사 선임	글로벌오토뉴스
자동차시민연합, 10년 이상 노후차 대상 ‘차를 오래 타는 법’ 캠페인 전개	글로벌오토뉴스
US여자오픈 앞둔 김효주 "좋은 흐름 이어지길…모든 것 쏟겠다"	연합뉴스
AI가 만든 '가짜 책 목록', 시카고 선타임스 부록 논란	다나와
KIOXIA EXCERIA PLUS G2, 레드닷 디자인 어워드 2025 수상…세련된 기능미로 세계 인정받아	뉴스탭
K-POP 제대 러시·대형 콘서트 겹쳐…6월 한국 찾는 외국인 팬 '폭증'	뉴스탭
대명소노그룹, 여름휴가객 위한 ‘미리보는 여름일지’ 기획전 진행	뉴스탭
일상 속 위생, 바쁜 현대인을 위한 실속 아이템 다섯 가지	뉴스탭
후지필름 코리아, 신진 사진작가 발굴 나선다…‘씨드 컬렉션’ 첫 수상자 발표	뉴스탭
포켓몬고, 신규 시즌 ‘즐거운 날들’ 시작…볼케니온·거다이맥스 포켓몬 출현	뉴스탭
2012년 우승자 최나연, US여자오픈 개막 맞아 MLB 경기 시구	연합뉴스
홍진표 마브렉스 대표, 제4회 NFT/블록체인 게임 컨퍼런스 기조연설 맡는다	게임동아
2K, ‘문명: 연맹의 시대’ 6월 19일 출시 예고	게임동아
위기의 순간 디렉터의 힘으로 되살아난 게임들	게임동아
넷마블, '일곱 개의 대죄: 오리진'으로 글로벌 게임쇼 연속 노크	게임동아
전기차 폐배터리 재사용 활성화의 전제 조건 ‘배터리 진단 기술’	IT동아
구글플레이 창구 7기 100개사 선정…올해 AI 혁신 이끌 스타트업은?	IT동아
타이거 우즈 아들 맞네…찰리, 미국 주니어골프협회 대회 우승	연합뉴스
강남구 제2회 시니어 파크골프대회 연다	연합뉴스
라이온하트, ‘발할라 서바이벌’ 악몽 난이도 신규 챕터 공개	게임동아
스토리 강화 힘쓰는 국산 게임. 프리퀄, 시퀄 시대 열렸다 (1)	게임동아
“전설을 완성하라!” 위메이드 미르의 전설2, ‘도감’ 시스템 업데이트	게임동아
몬스타기어, 아쿠아67키보드 + 젤리키캡 증정 이벤트 실시	다나와
마이크로닉스, 컴퓨텍스 2025 전시 성황리 종료	다나와
다나와, 고온다습한 날씨에 에어컨, 제습기 거래액 급등	다나와
다크플래쉬 ‘컴퓨텍스 2025’ 성황리 종료	다나와
숙박부터 지역경제까지 챙긴다… 놀유니버스, 숙박세일 페스타 통해 국내여행 촉진	뉴스탭
창문형·이동식 에어컨 인기 급등…설치 대기 없는 제품 수요 집중 (1)	뉴스탭

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

“챗GPT도 속는다” AI가 정확한 정보를 줘도 14% 확률로 거짓말하는 이유

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

“챗GPT도 속는다” AI가 정확한 정보를 줘도 14% 확률로 거짓말하는 이유

공유하기

공감/비공감