비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

“챗GPT도 속는다” AI가 정확한 정보를 줘도 14% 확률로 거짓말하는 이유

2025.05.28. 11:12:57
조회 수
57
1

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

Sufficient Context: A New Lens on Retrieval Augmented Generation Systems


표준 데이터셋의 55.4%가 불완전한 정보: '충분한 맥락' 개념으로 드러난 AI 한계

검색 증강 생성(RAG) 시스템이 대형 언어모델의 정확성을 높이는 핵심 기술로 주목받고 있지만, 충분한 맥락 정보가 제공되어도 모델이 잘못된 답변을 생성하는 심각한 문제가 발견됐다. UC 샌디에이고와 듀크 대학교, 구글(Google)의 공동 연구팀이 발표한 새로운 연구에 따르면, 젬마이(Gemini) 1.5 프로, GPT-4o, 클로드(Claude) 3.5 등 최신 대형 모델들도 충분한 맥락이 주어진 상황에서 14-16%의 오답률을 보이는 것으로 나타났다.

연구팀은 기존 RAG 연구의 한계를 지적하며 '충분한 맥락(sufficient context)'이라는 새로운 개념을 도입했다. 충분한 맥락이란 질문에 답하기 위해 필요한 모든 정보가 포함된 맥락을 의미한다. 연구팀은 이 개념을 통해 RAG 시스템의 성능을 분석한 결과, 기존에 알려지지 않은 여러 문제점을 발견했다.

FreshQA, HotpotQA, Musique 등 3개 벤치마크 데이터셋을 분석한 결과, 표준 데이터셋의 44.6-55.4%가 불충분한 맥락을 포함하고 있는 것으로 드러났다. 특히 FreshQA는 77.4%의 충분한 맥락 비율을 보인 반면, HotpotQA와 Musique는 각각 46.2%, 44.6%에 그쳤다. 이는 현재 RAG 시스템의 검색 품질이 생각보다 낮다는 것을 시사한다.


GPT-4o vs 젬마 27B: 모델 크기가 클수록 '확신에 찬 거짓말' 더 자주

연구에서 가장 충격적인 발견은 모델 크기가 클수록 환각(hallucination) 현상이 더 심하다는 점이다. 젬마이 1.5 프로, GPT-4o, 클로드 3.5 소넷 등 대형 모델들은 충분한 맥락이 주어졌을 때 높은 정확도를 보이지만, 불충분한 맥락 상황에서는 답변을 회피하는 대신 잘못된 답변을 생성하는 경향이 강했다.

반면 미스트랄(Mistral) 3, 젬마(Gemma) 2 등 상대적으로 작은 모델들은 충분한 맥락이 주어져도 환각이나 답변 회피 현상을 자주 보였다. 이는 모델 크기에 따른 성능 차이가 단순히 정확도뿐만 아니라 환각 패턴에서도 나타난다는 것을 의미한다.


정보 부족해도 62% 정답: AI가 '추측'으로 맞히는 8가지 방법

연구팀은 또 다른 흥미로운 발견을 했다. 모든 모델이 불충분한 맥락 상황에서도 35-62%의 정답률을 기록했다는 점이다. 이는 모델들이 사전 훈련된 지식을 활용하거나, 부분적인 정보를 바탕으로 추론 능력을 발휘하기 때문으로 분석된다. 연구팀은 이러한 현상을 8가지 유형으로 분류했다. 예/아니오 질문에서의 50% 확률적 정답, 제한된 선택지에서의 우연한 정답, 다중 홉 추론에서의 부분적 정보 활용, 모호한 질문에서의 올바른 해석 등이 주요 원인으로 꼽혔다. 이는 RAG 시스템의 성능 향상이 단순히 검색 품질 개선만으로는 해결될 수 없음을 시사한다.

구글 연구진이 개발한 '선택적 답변' 기술: 젬마이 정확도 10% 향상

연구팀은 이러한 문제를 해결하기 위해 '선택적 생성(selective generation)' 기법을 개발했다. 이 방법은 충분한 맥락 정보와 모델의 자신감 점수를 결합해 답변 생성 여부를 결정하는 방식이다. 실험 결과, 젬마이, GPT, 젬마 모델에서 정답률을 2-10% 향상시키는 효과를 보였다.

특히 HotpotQA 데이터셋에서 젬마 27B 모델의 경우 최고 정확도 구간에서 10% 이상의 성능 향상을 달성했다. 젬마이 1.5 프로는 70% 커버리지 영역에서 5% 이상의 향상을 보였다. 이는 기존의 모델 신뢰도만을 활용한 방법보다 우수한 결과다.


FAQ

Q: RAG 시스템에서 충분한 맥락이란 무엇인가요?

A: 충분한 맥락은 주어진 질문에 답하기 위해 필요한 모든 정보가 포함된 맥락을 의미합니다. 예를 들어 "Lya L.의 배우자는 누구인가?"라는 질문에 "Lya L.은 2020년 폴과 결혼했다"는 정보가 포함되면 충분한 맥락으로 분류됩니다.

Q: 왜 대형 모델일수록 환각 현상이 더 심각한가요?

A: 대형 모델들은 충분한 맥락이 주어졌을 때는 높은 정확도를 보이지만, 불충분한 맥락 상황에서는 "모르겠다"고 답변하기보다는 잘못된 답변을 생성하는 경향이 강합니다. 이는 모델이 맥락 정보가 있을 때 과도한 자신감을 보이기 때문으로 분석됩니다.

Q: 선택적 생성 기법은 어떻게 작동하나요?

A: 선택적 생성 기법은 충분한 맥락 정보의 유무와 모델의 자신감 점수를 결합하여 답변 생성 여부를 결정합니다. 두 신호를 선형 회귀 모델로 결합해 환각 가능성을 예측하고, 임계값 이하일 때는 답변을 회피하도록 설계되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
KLPGA 시즌 4승 도전 이예원 "좋아하는 코스서 실수 없이" 연합뉴스
체인지샷 구현! 넥슨 '카스온라인' 좀비 히어로 클래식 모드 추가 게임동아
요스타, 서브컬처 신작 ‘스텔라 소라’ 국내 첫 CBT 시작 게임동아
카카오게임즈 '오딘' 4주년 기념 전야제 이벤트 실시 게임동아
넥슨, '카트라이더: 드리프트'에 실력 경쟁 '랭크 모드' 추가 게임동아
톰 무디 다이슨 홈 총괄 “소비자가 시작점, 경량화 넘어 성능으로 승부” IT동아
[Q&AI] 이준석 발언 논란… AI가 경고한 사회적 파장은? AI matters
뮤지컬로 즐기는 헬로카봇 시즌9, 미스터리 티켓팅 시작 게임동아
“AI가 답해주니까 클릭 안 해도 돼” 제로클릭 검색이 웹사이트 트래픽에 미치는 영향 AI matters
“팀원과의 대화, AI가 코치해드립니다” 직장 내 어려운 대화를 AI와 연습한다면 생기는 변화들 AI matters
AI는 아픈 아이를 살리기 위해 거짓말을 할까? AI가 도덕적 딜레마에 대처하는 방식 AI matters
메이플스토리 유니버스 이강석 실장, 제4회 NFT/블록체인 게임 컨퍼런스 강연 나선다 게임동아
넥슨, '마비노기 모바일' 6월 업데이트 '황야의 섬광' 사전등록 게임동아
넥슨 ‘FC 모바일’, 5주년 쇼케이스 영상과 업데이트 계획 공개! 게임동아
르노코리아 '자율주행ㆍADAS'도 속도... KIAPI와 공동 개발 협약 오토헤럴드
지난해 교통사고 사망자 역대 최저…고령 보행자 사망은 ‘빨간불’ 오토헤럴드
"부품만 파는 게 아니네" 현대모비스, 차량 용품 체험 팝업스토어 오픈 오토헤럴드
현대모비스, 온라인 중심 차량 용품 현장 체험 팝업스토어 '모비로드' 개최 오토헤럴드
현대차, 대형 전동화 SUV 아이오닉 9 주한네덜란드대사관 공식 관용차 선정 오토헤럴드
BMW 그룹 코리아, SK 스피드메이트와 오리지널 부품 공식 공급 협약 체결 오토헤럴드
이 시간 HOT 댓글!
1/4