로그인하세요
알림
설정
레프트패널 닫기
관심
최근본
마이페이지
출석체크
카테고리
    서비스 바로가기
    • 자동차
    • 인기 서비스조립PC
    • PC견적
    • PC26
    • 신규 서비스LIVE쇼핑
    • 커뮤니티
    • 이벤트
    • CM추천/문의
    • 오늘의 특가
    앱 서비스
    • 자동차
    • PC견적
    • 장터
    인기 쇼핑몰
    • 지마켓
    • 옥션
    • 11번가
    • 롯데아이몰
    • 쿠팡
    • 롯데닷컴(롯데온)
    • 신세계몰
    • 현대Hmall
    • CJ 온스타일
    • GS샵
    • 하이마트
    • 엘롯데
    • 이마트몰
    • 홈플러스
    • NS몰
    • SK스토아
    • KT알파 쇼핑
    • 전자랜드
    • 무신사
    PC버전 로그인 개인정보처리방침 고객센터
    (주) 커넥트웨이브
    대표:
    김정남
    주소
    서울특별시 금천구 벚꽃로 298, 17층(가산동, 대륭포스트타워6차) (우) 08510
    • 사업자번호:
      117-81-40065
    • 통신판매업:
      제2004-서울양천-00918호
    • 부가통신사업:
      제003081호
    • 고객센터:
      1688-2470 (유료)
    • 이메일:
      cs@cowave.kr
    • 사업자 정보확인
    • 이용약관
    • 책임의 한계
    • 청소년 보호정책
    사용법 보기
    MY쇼핑이란? 자주 쓰는 쇼핑몰을 연결하면 쇼핑몰 주문내역을 한 번에 확인할 수 있습니다. 쇼핑몰 계정은 고객님의 핸드폰에만 저장되어 안전합니다.
    편리한 구매내역 확인. 다양한 쇼핑몰의 주문내역을 한 곳에서 확인해보세요.
    가격비교와 최저가 쇼핑을 한 번에. 자주 구매하는 상품은 가격비교를 통해 저렴하게 구매하세요.
    보안은 필수! 쉽고 편한 가치 쇼핑. 쇼핑몰 계정은 고객님의 핸드폰에만 암호화 저장되어 안전합니다. 쇼핑몰 연결
    다나와 홈

    커뮤니티 DPG

    일반뉴스

    • 게시판
    • 상품포럼
    • 뉴스
    • 동영상
    • 커뮤니티 공지사항
      소비자사용기
    • 특가몰
      자유게시판
    • 이달의 이벤트
      유머게시판
    • 당첨자발표게시판
      댕냥이게시판
    • 포인트 마켓
      Q&A게시판
    • 다나와 래플
      상품의견
    • 모두의 경매
      체험단
    • 오늘도 출석체크
      엄근진게시판
    • 입소문쇼핑
      쇼핑몰후기
    • 메인가자
      A/S후기
    • 당첨후기
    • 컴퓨터
      AI
    • 푸드
      취미
    • 최신뉴스
      일반뉴스
    • 기획뉴스
      신상품뉴스
    • 쇼핑뉴스
      테크팁
    • 다나와리포터
      구매가이드
    • 전문가리뷰
      인기순위가이드
    • 벤치마크
      차트뉴스
    • 가격동향
    • 고나고
      공구왕황부장
    • 노써치
      도레
    • 딴트공 말방구 실험실
      라이브렉스
    • 레고매니아
      맛상무
    • 모터피디
      무적풍화륜
    • 민티저
      보드나라
    • 여행매거진 트래비TV
      오토기어
    • 잘컴TV
      조코딩 JoCoding
    • 인프제 INFJ
      주연 ZUYONI
    • 진블로그
      집마 홀릭TV
    • 톡써니
      포마: 탈 것을 리뷰하는 남자
    • 쿨엔조이
      훅간다TV
    • Allthatboots TV
      DmonkTV
    • Hakbong Kwon
      Motorgraph
    • PC SNAP
      Producer dk
    • THE EDIT
      UnderKG
    • 다나와 공식채널
      다나와 2TV
    • 노리다
      샵다나와 조립갤러리
    >
    이전 글
    다음 글
    AI matters

    “챗GPT도 속는다” AI가 정확한 정보를 줘도 14% 확률로 거짓말하는 이유

    2025.05.28. 11:12:57
    읽음58

    Sufficient Context: A New Lens on Retrieval Augmented Generation Systems


    표준 데이터셋의 55.4%가 불완전한 정보: '충분한 맥락' 개념으로 드러난 AI 한계

    검색 증강 생성(RAG) 시스템이 대형 언어모델의 정확성을 높이는 핵심 기술로 주목받고 있지만, 충분한 맥락 정보가 제공되어도 모델이 잘못된 답변을 생성하는 심각한 문제가 발견됐다. UC 샌디에이고와 듀크 대학교, 구글(Google)의 공동 연구팀이 발표한 새로운 연구에 따르면, 젬마이(Gemini) 1.5 프로, GPT-4o, 클로드(Claude) 3.5 등 최신 대형 모델들도 충분한 맥락이 주어진 상황에서 14-16%의 오답률을 보이는 것으로 나타났다.

    연구팀은 기존 RAG 연구의 한계를 지적하며 '충분한 맥락(sufficient context)'이라는 새로운 개념을 도입했다. 충분한 맥락이란 질문에 답하기 위해 필요한 모든 정보가 포함된 맥락을 의미한다. 연구팀은 이 개념을 통해 RAG 시스템의 성능을 분석한 결과, 기존에 알려지지 않은 여러 문제점을 발견했다.

    FreshQA, HotpotQA, Musique 등 3개 벤치마크 데이터셋을 분석한 결과, 표준 데이터셋의 44.6-55.4%가 불충분한 맥락을 포함하고 있는 것으로 드러났다. 특히 FreshQA는 77.4%의 충분한 맥락 비율을 보인 반면, HotpotQA와 Musique는 각각 46.2%, 44.6%에 그쳤다. 이는 현재 RAG 시스템의 검색 품질이 생각보다 낮다는 것을 시사한다.


    GPT-4o vs 젬마 27B: 모델 크기가 클수록 '확신에 찬 거짓말' 더 자주

    연구에서 가장 충격적인 발견은 모델 크기가 클수록 환각(hallucination) 현상이 더 심하다는 점이다. 젬마이 1.5 프로, GPT-4o, 클로드 3.5 소넷 등 대형 모델들은 충분한 맥락이 주어졌을 때 높은 정확도를 보이지만, 불충분한 맥락 상황에서는 답변을 회피하는 대신 잘못된 답변을 생성하는 경향이 강했다.

    반면 미스트랄(Mistral) 3, 젬마(Gemma) 2 등 상대적으로 작은 모델들은 충분한 맥락이 주어져도 환각이나 답변 회피 현상을 자주 보였다. 이는 모델 크기에 따른 성능 차이가 단순히 정확도뿐만 아니라 환각 패턴에서도 나타난다는 것을 의미한다.


    정보 부족해도 62% 정답: AI가 '추측'으로 맞히는 8가지 방법

    연구팀은 또 다른 흥미로운 발견을 했다. 모든 모델이 불충분한 맥락 상황에서도 35-62%의 정답률을 기록했다는 점이다. 이는 모델들이 사전 훈련된 지식을 활용하거나, 부분적인 정보를 바탕으로 추론 능력을 발휘하기 때문으로 분석된다. 연구팀은 이러한 현상을 8가지 유형으로 분류했다. 예/아니오 질문에서의 50% 확률적 정답, 제한된 선택지에서의 우연한 정답, 다중 홉 추론에서의 부분적 정보 활용, 모호한 질문에서의 올바른 해석 등이 주요 원인으로 꼽혔다. 이는 RAG 시스템의 성능 향상이 단순히 검색 품질 개선만으로는 해결될 수 없음을 시사한다.

    구글 연구진이 개발한 '선택적 답변' 기술: 젬마이 정확도 10% 향상

    연구팀은 이러한 문제를 해결하기 위해 '선택적 생성(selective generation)' 기법을 개발했다. 이 방법은 충분한 맥락 정보와 모델의 자신감 점수를 결합해 답변 생성 여부를 결정하는 방식이다. 실험 결과, 젬마이, GPT, 젬마 모델에서 정답률을 2-10% 향상시키는 효과를 보였다.

    특히 HotpotQA 데이터셋에서 젬마 27B 모델의 경우 최고 정확도 구간에서 10% 이상의 성능 향상을 달성했다. 젬마이 1.5 프로는 70% 커버리지 영역에서 5% 이상의 향상을 보였다. 이는 기존의 모델 신뢰도만을 활용한 방법보다 우수한 결과다.


    FAQ

    Q: RAG 시스템에서 충분한 맥락이란 무엇인가요?

    A: 충분한 맥락은 주어진 질문에 답하기 위해 필요한 모든 정보가 포함된 맥락을 의미합니다. 예를 들어 "Lya L.의 배우자는 누구인가?"라는 질문에 "Lya L.은 2020년 폴과 결혼했다"는 정보가 포함되면 충분한 맥락으로 분류됩니다.

    Q: 왜 대형 모델일수록 환각 현상이 더 심각한가요?

    A: 대형 모델들은 충분한 맥락이 주어졌을 때는 높은 정확도를 보이지만, 불충분한 맥락 상황에서는 "모르겠다"고 답변하기보다는 잘못된 답변을 생성하는 경향이 강합니다. 이는 모델이 맥락 정보가 있을 때 과도한 자신감을 보이기 때문으로 분석됩니다.

    Q: 선택적 생성 기법은 어떻게 작동하나요?

    A: 선택적 생성 기법은 충분한 맥락 정보의 유무와 모델의 자신감 점수를 결합하여 답변 생성 여부를 결정합니다. 두 신호를 선형 회귀 모델로 결합해 환각 가능성을 예측하고, 임계값 이하일 때는 답변을 회피하도록 설계되었습니다.




    AI Matters 뉴스레터 구독하기
    태그
    챗GPT AI 정확한 정보 거짓말
    안내 ?

    말 많은 뉴스

    • 1

      조립 PC도 이제는 무선입니다! 리안리가 제안하는 새로운 미래 [컴퓨텍스 2025]

      댓글80
      조립 PC도 이제는 무선입니다! 리안리가 제안하는 새로운 미래 [컴퓨텍스 2025]
    • 2

      PC 부품을 넘어 사용자의 경험을 디자인한 쿠거 [컴퓨텍스 2025]

      댓글77
      PC 부품을 넘어 사용자의 경험을 디자인한 쿠거 [컴퓨텍스 2025]
    • 3

      게이밍 PC의 미래, '커세어'가 답합니다 [컴퓨텍스 2025]

      댓글75
      게이밍 PC의 미래, '커세어'가 답합니다 [컴퓨텍스 2025]
    • 4

      기가바이트가 요즘 고급감 1티어인 이유. 보시면 압니다 절대 후회 안 하실겁니다. [컴퓨텍스 2025]

      댓글75
      기가바이트가 요즘 고급감 1티어인 이유. 보시면 압니다 절대 후회 안 하실겁니다. [컴퓨텍스 2025]
    • 5

      마이크로닉스와 위즈맥스는 세계로 뻗어나간다. 유명 파워 제조사들 콧대 눌러버린 위즈맥스 스윙 [컴퓨텍스 2025]

      댓글74
      마이크로닉스와 위즈맥스는 세계로 뻗어나간다. 유명 파워 제조사들 콧대 눌러버린 위즈맥스 스윙 [컴퓨텍스 2025]

    일반뉴스 최신 글

    이전 페이지 1/10 다음 페이지
    • 이텍컴퓨터 'HP OMEN MAX 16-AK0087AX’ 출시 기념 이벤트

      다나와 18:48:12
      읽음 12
    • 마이크로닉스, 호두나무 PC 케이스 WIZMAX 우드리안 사전 예약

      다나와 18:47:49
      읽음 11
    • 길을 잃은 정의의 대행자…'승리의 여신: 니케', 신규 캐릭터 'K' 추가

      게임동아 18:40:34
      읽음 11
    • 콘진원, '2025 콘텐츠 창의인재동반사업' 발대식 개최..'육성의 첫걸음을 딛다'

      게임동아 18:40:10
      읽음 10
    • '독학 골퍼' 신광철, 참마루건설 시니어오픈서 프로 첫 승

      연합뉴스 18:10:34
      읽음 16
    • KLPGA 시즌 4승 도전 이예원 "좋아하는 코스서 실수 없이"

      연합뉴스 17:34:22
      읽음 30
    • 체인지샷 구현! 넥슨 '카스온라인' 좀비 히어로 클래식 모드 추가

      게임동아 17:04:51
      읽음 33
    • 요스타, 서브컬처 신작 ‘스텔라 소라’ 국내 첫 CBT 시작

      게임동아 17:04:36
      읽음 31
    • 카카오게임즈 '오딘' 4주년 기념 전야제 이벤트 실시

      게임동아 17:04:17
      읽음 32
    • 넥슨, '카트라이더: 드리프트'에 실력 경쟁 '랭크 모드' 추가

      게임동아 17:03:56
      읽음 31
    • 톰 무디 다이슨 홈 총괄 “소비자가 시작점, 경량화 넘어 성능으로 승부”

      IT동아 16:46:52
      읽음 38
    • [Q&AI] 이준석 발언 논란… AI가 경고한 사회적 파장은?

      AI matters 16:14:47
      읽음 46 공감 1 댓글 1
    • 뮤지컬로 즐기는 헬로카봇 시즌9, 미스터리 티켓팅 시작

      게임동아 16:14:09
      읽음 34
    • “AI가 답해주니까 클릭 안 해도 돼” 제로클릭 검색이 웹사이트 트래픽에 미치는 영향

      AI matters 16:13:15
      읽음 40
    • “팀원과의 대화, AI가 코치해드립니다” 직장 내 어려운 대화를 AI와 연습한다면 생기는 변화들

      AI matters 15:55:07
      읽음 42
    • AI는 아픈 아이를 살리기 위해 거짓말을 할까? AI가 도덕적 딜레마에 대처하는 방식

      AI matters 15:54:36
      읽음 44
    • 메이플스토리 유니버스 이강석 실장, 제4회 NFT/블록체인 게임 컨퍼런스 강연 나선다

      게임동아 15:45:52
      읽음 40
    • 넥슨, '마비노기 모바일' 6월 업데이트 '황야의 섬광' 사전등록

      게임동아 15:45:30
      읽음 37
    • 넥슨 ‘FC 모바일’, 5주년 쇼케이스 영상과 업데이트 계획 공개!

      게임동아 15:45:11
      읽음 36
    • 르노코리아 '자율주행ㆍADAS'도 속도... KIAPI와 공동 개발 협약

      오토헤럴드 15:21:21
      읽음 40
    • 지난해 교통사고 사망자 역대 최저…고령 보행자 사망은 ‘빨간불’

      오토헤럴드 15:21:19
      읽음 44
    • "부품만 파는 게 아니네" 현대모비스, 차량 용품 체험 팝업스토어 오픈

      오토헤럴드 15:21:16
      읽음 46
    • 현대모비스, 온라인 중심 차량 용품 현장 체험 팝업스토어 '모비로드' 개최

      오토헤럴드 15:21:14
      읽음 47 공감 1 댓글 1
    • 현대차, 대형 전동화 SUV 아이오닉 9 주한네덜란드대사관 공식 관용차 선정

      오토헤럴드 15:21:11
      읽음 45
    • BMW 그룹 코리아, SK 스피드메이트와 오리지널 부품 공식 공급 협약 체결

      오토헤럴드 15:21:09
      읽음 40
    • 애스턴마틴 발할라, 페르난도 알론소의 모나코 스트리트 서킷 주행 퍼포먼스

      오토헤럴드 15:21:07
      읽음 42
    • BMW 그룹 코리아 30주년 기념 페스티벌 입장권 등 온라인 판매

      오토헤럴드 15:21:02
      읽음 41
    • '성공적 개명' KGM 브랜드 호감도 및 관심도 쌍용차 시절 대비 증가

      오토헤럴드 15:20:59
      읽음 44
    • "그게 다 밀어내기?" 중국에서 주행거리 '0' 중고차가 쏟아져 나온 이유

      오토헤럴드 15:20:57
      읽음 55 공감 1 댓글 1
    • [기자 수첩] 올해 115% 성장한 최대 시장, 수입차에 다 빼앗긴 국산차

      오토헤럴드 15:20:54
      읽음 45
    • 이네오스 그레나디어 방문 차량 점검 서비스 실시

      오토헤럴드 15:20:52
      읽음 40
    • 스텔란티스, '25년 자동차 베테랑' 신임 CEO 안토니오 필로사 선임

      오토헤럴드 15:20:49
      읽음 41
    • GM, 한국사업장 구조조정…부평 유휴 자산 매각·직영 서비스 정리

      오토헤럴드 15:20:47
      읽음 42
    • 제네시스 GV70, 북미 미디어 테스트 ‘최고의 프리미엄 SUV’ 찬사

      오토헤럴드 15:20:42
      읽음 37
    • BYD코리아, 아토 3 출고 두 달 만에 1,000대 인도 달성

      글로벌오토뉴스 15:19:58
      읽음 46
    • 골프존 남녀 G투어 4차 대회, 31∼6월 1일 개최

      연합뉴스 15:06:34
      읽음 40
    • AI가 프리랜서로 활동해 20억 벌었다? 모델 별 수입, 신뢰도, 성공률 분석 결과 충격

      AI matters 14:59:20
      읽음 35
    • 오픈AI, ‘챗GPT로 로그인’ 기능 도입 추진… 타사 앱 진출 본격화

      AI matters 14:53:25
      읽음 28
    • 메타, AI 조직 두 개 팀으로 분할… 제품 개발 속도 높인다

      AI matters 14:52:52
      읽음 31
    • 煎 메타 임원 "AI 모델 훈련에 모든 예술가 허가 받아야 하면 AI 산업은 바로 죽을 것"

      AI matters 14:50:26
      읽음 30
    • 카카오, 생성형 AI 안전성 검증 '카나나 세이프가드' 국내 첫 오픈소스 공개

      AI matters 14:49:50
      읽음 81
    • 메타, '라마 AI’ 개발팀 집단 이탈… “14명 중 11명이 이직”

      AI matters 14:47:13
      읽음 31
    • 웹젠 '썬 클래식', 2025 토너먼트 최강자전 연다

      게임동아 13:04:10
      읽음 41
    • 넷마블 '세븐나이츠 리버스', 첫 업데이트로 '(구)사황 태오'·'나이트 크로우 타카' 등장

      게임동아 13:03:53
      읽음 39
    • 위메이드 '레전드 오브 이미르', 서비스 100일 기념 이벤트 돌입

      게임동아 13:03:19
      읽음 39
    • [겜덕연구소] 태풍이나 지진.. 절체절명 자연 재해는 게임 속에 어떻게 표현됐을까

      게임동아 13:03:04
      읽음 46 공감 2 댓글 1
    • 컴투스 '서머너즈 워', 출시 11주년 기념해 스페셜 룬 1+1 이벤트

      게임동아 13:02:44
      읽음 34
    • 넷마블 '킹 아서: 레전드 라이즈', 신규 업데이트와 0.5주년 이벤트 진행

      게임동아 13:02:23
      읽음 33
    • 그라비티, '라그나로크 온라인' 중남미 지역 정식 론칭!

      게임동아 13:01:55
      읽음 34
    • 넥슨 던파 팝업스토어, ‘SNOWMAGE in 롯데월드타워·몰’ 6월 13일 오픈!

      게임동아 13:01:39
      읽음 40
    • 포인트 룰렛 돌리고 10초 만에 당첨 확인하세요!

    • [5.31~] AMD 라이젠7-5세대 7700X (라파엘) (테스트 사용 제품)

    • <6월 모바일 출석체크> 6월 출석하고 여름 준비 선물 받기!

    스폰서 PICK

    이전 페이지 1/5 다음 페이지
    • 엔티스 EG 1000W 80PLUS골드 풀모듈러 ATX3.1 화이트

      엔티스 EG 1000W 80PLUS골드 풀모듈러 ATX3.1 화이트

      엔티스
    • 알파스캔 AOC Q27G4 게이밍 IPS 180 프리싱크 HDR 400 무결점

      알파스캔 AOC Q27G4 게이밍 IPS 180 프리싱크 HDR 400 무결점

      알파스캔
    • Antec FLUX PRO MESH(블랙)

      Antec FLUX PRO MESH(블랙)

      Antec
    • 잘만 ALPHA II DS A36(블랙)

      잘만 ALPHA II DS A36(블랙)

      잘만
    • 앱코 KN35BT TKL DRT 8K 염료승화 블루투스 유무선 무접점(서울)

      앱코 KN35BT TKL DRT 8K 염료승화 블루투스 유무선 무접점(서울)

      앱코
    • 1stPlayer Mi5(블랙)

      1stPlayer Mi5(블랙)

      1stPlayer
    • 인텔 코어 울트라7 시리즈2 265K (애로우레이크)(정품)

      인텔 코어 울트라7 시리즈2 265K (애로우레이크)(정품)

      인텔
    • darkFlash DY470 ARGB 강화유리(화이트)

      darkFlash DY470 ARGB 강화유리(화이트)

      darkFlash
    • 마이크로닉스 Classic II 풀체인지 700W 80PLUS브론즈 ATX3.1

      마이크로닉스 Classic II 풀체인지 700W 80PLUS브론즈 ATX3.1

      마이크로닉스
    • AMD 라이젠5-6세대 9600X (그래니트 릿지)(멀티팩(정품))

      AMD 라이젠5-6세대 9600X (그래니트 릿지)(멀티팩(정품))

      AMD
    • 맥스엘리트
    • 다크플래쉬
    • MICRONICS
    PC버전 로그인 개인정보처리방침 고객센터
    (주) 커넥트웨이브
    대표:
    김정남
    주소
    서울특별시 금천구 벚꽃로 298, 17층(가산동, 대륭포스트타워6차) / 우편번호: 08510
    • 사업자번호:
      117-81-40065
    • 통신판매업:
      제2004-서울양천-00918호
    • 부가통신사업:
      제003081호
    • 고객센터:
      1688-2470 (유료)
    • 이메일:
      cs@cowave.kr
    • 사업자 정보확인
    • 이용약관
    • 책임의 한계
    • 청소년 보호정책
    뒤로
    새로고침 맨위로 이동
    안내

    유용하고 재미있는 정보인가요? 공감이 된다면 공감 버튼을,
    그렇지 않다면 비공감 버튼을
    눌러 주세요!
    공감이나 비공감을 선택 하는 경우
    다나와 포인트를 적립해 드립니다.
    ※ 공감 버튼의 총 선택 횟수는
    전체 공개입니다.
    비공감 버튼의 선택 여부는
    선택한 본인만 알 수 있습니다.

    포인트 안내
    목록
    공감 1
    비공감
    댓글
    공유

    공유받은 친구가 활동하면 포인트를!

    URL이 복사되었습니다.

    공유하기

    레이어 닫기

    지금 보는 페이지가 마음에 든다면
    공유하기를 통해 지인에게 소개해 주세요.

    • 카카오톡
    • 라인
    • 페이스북
    • X
    • 밴드
    https://dpg.danawa.com/mobile/news/view?boardSeq=60&listSeq=5819860 복사

    로그인 유저에게는 공유 활동에 따라
    다나와 포인트가 지급됩니다.

    자세히 >

    URL이 복사되었습니다.