의료 진단 AI가 '가짜 종양' 발견한다? 시각 AI 환각 현상의 충격적 진실 : 다나와 DPG는 내맘을 디피지

Visual hallucination detection in large vision-language models via evidential conflict

대규모 비전-언어 모델(LVLMs)이 텍스트와 이미지를 동시에 이해하는 놀라운 능력을 보여주고 있지만, 심각한 문제점이 발견되고 있다. 이는 바로 '시각적 환각(visual hallucination)' 현상으로, 모델이 이미지에 존재하지 않는 객체를 묘사하거나 잘못된 공간적 관계를 인식하는 문제다.

AI 환각 현상의 충격적 실태: 최신 모델도 49% 확률로 착각한다

북경교통대학교(Beijing Jiaotong University) 연구진이 발표한 논문에 따르면, 이러한 환각 현상은 모델의 구조나 훈련 데이터와 무관하게 통계적 하한선이 존재하며, 이는 환각이 쉽게 제거할 수 있는 결함이 아닌 내재적 특성임을 의미한다.

특히 의료 진단, 자율주행, 자동화된 거래 시스템과 같은 안전이 중요한 AI 애플리케이션에서 이러한 환각 현상은 심각한 위험을 초래할 수 있다. 연구 결과에 따르면, LLaVA-v1.5, mPLUG-Owl2, mPLUG-Owl3 등 최신 LVLM들이 관계 추론 작업에서 각각 49.44%, 50.42%, 19.92%의 환각률을 보이는 것으로 나타났다. 이는 현재의 모델들이 단순한 인식 작업보다 고도의 추론이 필요한 작업에서 더 취약하다는 것을 보여준다.

기존 AI 거짓말 탐지법의 치명적 한계점들

기존의 환각 탐지 방법들은 크게 세 가지 유형으로 분류된다.

첫 번째는 모델에게 직접 신뢰도를 물어보는 언어적 유도(verbal elicitation) 방식이지만, 모델이 지시를 잘못 해석하거나 부정확한 신뢰도를 표현하는 문제가 있다.

두 번째는 여러 번의 생성 결과를 비교하는 외부 일관성 검사 방법이지만, 높은 계산 비용과 외부 지식에 대한 의존성이 단점이다.

세 번째는 모델 내부 정보를 활용하는 방법으로, 몬테카를로 드롭아웃(Monte Carlo dropout)이나 앙상블 방법을 사용하지만 대규모 모델에서는 적용이 어렵다.

더욱 중요한 문제는 기존 방법들이 주로 인식 능력에만 초점을 맞추고 있다는 점이다. 현재의 벤치마크들은 객체 인식이나 공간적 관계 파악과 같은 기본적인 인식 작업에만 집중하여, 고급 추론 과정에서 발생하는 환각을 간과하고 있다. 이러한 한계를 극복하기 위해 연구진은 인식과 추론 능력을 모두 평가할 수 있는 새로운 접근법이 필요하다고 강조한다.

10,000개 질문으로 밝혀낸 추론 작업에서의 심각한 AI 착각

연구팀은 이러한 문제를 해결하기 위해 인식-추론 평가 환각(PRE-HAL) 데이터셋을 개발했다. 이 데이터셋은 기존의 인식 중심 벤치마크와 달리 인스턴스, 장면, 관계라는 세 가지 시각적 의미론과 인식 및 추론이라는 두 가지 능력 차원을 체계적으로 평가할 수 있도록 설계되었다. PRE-HAL은 총 10,000개의 다중 선택 질문으로 구성되어 있으며, MMBench, MMVP, POPE, R-Bench 등 다양한 데이터 소스에서 수집한 데이터를 포함한다.

특히 주목할 점은 분포 밖(Out-of-Distribution, OOD) 데이터를 포함시켜 벤치마크의 완성도를 높였다는 것이다. 연구진은 생의학 용어나 일상에서 드물게 접하는 객체명을 사용하고, "모래 원숭이"와 같은 uncommon한 단어 조합을 만들어 질문을 생성했다. 이러한 접근법을 통해 모델이 훈련 데이터 분포를 벗어난 상황에서 어떻게 반응하는지 평가할 수 있게 되었다.

PRE-HAL을 사용한 평가 결과, 추론 기반 작업이 인식 기반 작업보다 훨씬 어려운 도전을 제시한다는 것이 명확해졌다. 특히 관계 추론 작업에서 LLaVA-v1.5는 49.44%의 환각률을 보였으며, 이는 모델이 복잡한 논리적 추론이나 의사결정이 필요한 상황에서 상당한 취약성을 보인다는 것을 의미한다.

혁신적 증거 충돌 분석법으로 환각 탐지 정확도 10% 향상 달성

연구팀이 제안한 새로운 환각 탐지 방법은 데스터-셰이퍼 이론(Dempster-Shafer Theory, DST)을 기반으로 한 증거 충돌 분석이다. 이 방법은 LVLM의 고차원 특징(high-level features)을 증거로 취급하여, 이들 간의 충돌 정도를 측정함으로써 환각을 탐지한다. 핵심 아이디어는 모델이 다음 토큰을 예측할 때 사용하는 최상위 계층의 표현에서 발생하는 불확실성을 포착하는 것이다.

기술적으로 이 방법은 피드포워드 네트워크(FFN)의 매개변수와 특징을 입력으로 받아, 간단한 질량 함수(simple mass function)를 사용하여 기본 신뢰 할당을 수행한다. 이후 데스터의 결합 규칙을 통해 이러한 질량 함수들을 결합하여 증거적 불확실성을 측정한다. 중요한 점은 파워 세트에 대한 증거 결합의 계산 복잡성을 피하여 효율성을 높였다는 것이다.

실험 결과, 이 방법은 기존 불확실성 메트릭보다 우수한 성능을 보였다. LLaVA-v1.5에서 4%, mPLUG-Owl2에서 10%, mPLUG-Owl3에서 7%의 AUROC 개선을 달성했다. 특히 장면 인식 작업에서 71-73%의 AUROC를 기록하며 뛰어난 견고성을 보였다. 이는 확률 기반 방법들의 보정 한계를 효과적으로 우회한 결과로 평가된다.

FAQ

Q: 시각적 환각이란 무엇이며, 왜 문제가 되는가?

A: 시각적 환각은 AI 모델이 실제 이미지에 없는 객체를 묘사하거나 잘못된 관계를 인식하는 현상이다. 의료 진단이나 자율주행 같은 안전이 중요한 분야에서 잘못된 판단을 유발할 수 있어 심각한 문제가 된다.

Q: 새로운 탐지 방법이 기존 방법보다 어떤 점에서 우수한가?

A: 데스터-셰이퍼 이론 기반 방법은 모델의 내부 특징 충돌을 분석하여 환각을 탐지한다. 기존 방법 대비 4-10% 성능 향상을 달성했으며, 여러 번의 추론이나 외부 모델 없이도 효율적으로 작동한다.

Q: PRE-HAL 데이터셋의 특징과 기여는 무엇인가?

A: PRE-HAL은 기존 벤치마크와 달리 인식과 추론 능력을 모두 평가할 수 있는 포괄적 데이터셋이다. 10,000개의 다중 선택 질문으로 구성되어 있으며, 특히 추론 작업에서 최대 49%의 높은 환각률을 발견하는 데 기여했다.

해당 기사에 인용된 논문 원문은 arxiv에서 확인 가능하다.

이미지 출처: Visual hallucination detection in large vision-language models via evidential conflict

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

다크플래쉬 DK200 NEO MESH 케이스 [써보니] 식스팬이면 뜨거운 여름도 가뿐하지!	위클리포스트
람보르기니, 첫 전기차 또 연기 "기술적 한계, 2030년 이후 가능할 것" (3)	오토헤럴드
오라클, 퓨전 앱 안에서 AI 에이전트 직접 만든다…AI 네이티브 빌더 공개	뉴스탭
인스타릴리, 약 890억원 시리즈B…기업용 AI 에이전트 자동화	AI matters
2026년 7월 16일 미국 AI 관련주 — ASML 호실적에도 반도체 차익실현 하락	AI matters
중고차 개인 간 거래 명의이전도 비대면으로…카방, 케이카 안심직거래 연동	IT동아
신규 스토리 추가, 화산의 딸 모바일과 콘솔로 나온다	게임메카
프롬소프트 신작 '더스크블러드' 8월 테스트 실시	게임메카
호날두와 어깨 나란히, 페이커 e스포츠 월드컵 앰배서더 (1)	게임메카
SOOP, 젠지와 '리그 오브 레전드' 멸망전 19일 개최	게임메카
웹젠 R2, 새로운 여정 테마 대규모 업데이트 마련	게임동아
위메이드, '나이크 크로우' 여름 바캉스 이벤트 마련 (1)	게임동아
‘퍼스트 디센던트’ ‘보이드 요격전: 극한’ 및 업데이트	게임동아
‘서든어택’, 서비스 21주년 기념 스킨 아이디어 공모전 진행	게임동아
"티니핑이 왓츄!!" 카러플, ‘프린세스 캐치! 티니핑’ 컬래버	게임동아
스토브에서 횡스크롤 액션 RPG ‘그랜드체이스 클래식’ 즐길 수 있다!	게임동아
넷마블 '일곱 개의 대죄: 오리진', 신규 영웅 '고서'와 신규 스토리 공개	게임동아
코리아보드게임즈, ‘2026 보드게임콘’ 참가… 신작 10종 체험 마련	게임동아
엔비디아, 30년간 세가와 협력체제 유지.. ‘버추어 파이터’ 신작 지원	게임동아
컴투스 대작 MMORPG ‘제우스: 오만의 신’, 3번째 디렉터스 영상 공개	게임동아
엔씨 ‘리니지 클래식’, 신규 에피소드 '잊혀진 섬' 사전예약 시작 (1)	게임동아
넷마블 '왕좌의 게임: 킹스로드', 6주간 시즌1 ‘서리와 강철’ 돌입	게임동아
넷마블, 일본 확장 앞둔 '뱀피르'에 신규 성장 '추종자 시스템' 선봬	게임동아
‘귀무자 Way of the Sword’, 16일 예약 판매 돌입	게임동아
현대차 '아이오닉 5 N' 美 시장 공세 강화... 판매 가격 900만 원 인하	오토헤럴드
'월드컵 무대 오른 아틀라스' 축구장서 검증한 현대차그룹 휴머노이드 기술력	오토헤럴드
시대의 아이콘 마릴린 먼로 재해석, 제네시스 문화 마케팅 뉴욕에서 흥행	오토헤럴드
테슬라 모델 3 'NCMㆍLFP' 배터리 잔존 성능 비교했더니 충격 결과	오토헤럴드
미국의 이란 전쟁에 따른 유가 재 급등과 글로벌 청정에너지·전기차 전환 가속화	글로벌오토뉴스
폭스바겐, 중국 시장 공략 위한 신형 전기차 3종 공개	글로벌오토뉴스
미국 캘리포니아주, 6억 달러 규모 즉시 환급 전기차 인센티브 도입	글로벌오토뉴스
태양광 전기차 스타트업 압테라, 서비스망 구축 및 EPA 인증 획득으로 양산 출시에 박차	글로벌오토뉴스
중국 하이난, 2030년 내연기관차 판매 금지 확정…중국 최초	글로벌오토뉴스
포르쉐, 7월 말 내연기관 마칸 생산 종료	글로벌오토뉴스
캡콤, '몬스터 헌터 와일즈' 본편 정가 인하 예고	게임동아
[취재] 라이엇, LOL 클래식 통해 “낭만의 시대를 다시 구현할 것”	게임동아
[취재] 라이엇, LOL을 더 자유롭고 풍성하게 만드는 것이 “본질로의 회귀”	게임동아
[취재] 라이엇의 매튜 릉 해리슨 “LOL의 본질로 돌아가는 업데이트 할 것”	게임동아
"낭만의 귀환!" ‘LCK 레전드 매치’, 치지직 롤파크서 개최 (1)	게임동아
유럽연합 관세 폭탄의 나비효과…서구 완성차는 유럽 리쇼어링, 중국계는 PHEV 우회·현지 생산	글로벌오토뉴스
중국 초고급차 홍치, 중국시장에서 롤스로이스 추월	글로벌오토뉴스
대구 삼성라이온즈파크에서 펼쳐지는 한국타이어의 독특한 안전 캠페인	글로벌오토뉴스
개최 20주년 맞이한 2026 대학생 자작자동차대회 바하 부문 군산서 개막	글로벌오토뉴스
여성 고객 겨냥한 올인원 케어 패키지 그레칼레 돈나 캠페인 출시	글로벌오토뉴스
BMW 코리아 미래재단 영 이노베이터 드림 프로젝트 하반기 공모 개최	글로벌오토뉴스
지커 공식 딜러 아이언EV 신세계 센텀시티서 '지커 7X' 팝업 스토어 개최	글로벌오토뉴스
JLR 코리아 영국 윔블던 파트너십 기념 서울서 럭셔리 관람 이벤트 성황	글로벌오토뉴스
제네시스, 마릴린 먼로 탄생 100주년 특별전 ‘매니페스팅 마릴린’ 뉴욕서 호평… 9월까지 연장	글로벌오토뉴스
피렐리, 가상 센서 스타트업 라이드센스 지분 인수하며 사이버 타이어 고도화 추진	글로벌오토뉴스
현대차 기아 제네시스 여름 특별 무상점검 서비스 실시 (1)	글로벌오토뉴스
보스턴다이나믹스 아틀라스 FIFA 월드컵 하프타임 퍼포먼스 개발 과정 공개	글로벌오토뉴스
현대차 친환경 사회공헌 러닝 캠페인 포레스트런 2026 참가자 모집	글로벌오토뉴스
포르쉐코리아 국내 최대 팬 페스티벌 포르쉐 바이브 서울 개최	글로벌오토뉴스
기아 카카오모빌리티 자율주행 서비스 전용 PBV 개발 협력	글로벌오토뉴스
현대 N 페스티벌 3라운드 인제스피디움서 성황리 폐막	글로벌오토뉴스
캘리포니아 전기차 즉시 보조금 제도가 테슬라 저격수가 된 이유	글로벌오토뉴스
현대차그룹, 보스턴다이내믹스 지분 100% 확보 추진... 피지컬 AI 가속화	글로벌오토뉴스
현대로템 피지컬 AI 기술 적용한 철도차량용 ADAS 기술 고도화 완료	글로벌오토뉴스
현대차 태국법인 현지 조립 전기차 호주 수출 공식화하며 생산 가동률 극대화	글로벌오토뉴스
AI뉴스 GPT5.6, GPT‑Live, Work, Grok 4.5, Muse Spark 1.1, LingbotWorld2, Google 커스텀 URL 등 동영상 있음	조코딩 JoCoding
에이서 노트북 사고 여름휴가 떠난다…드라이백·비치타월 증정	뉴스탭
‘반디 감성’ 담은 조립 PC 나온다…HYTE Y70 한정판 판매	뉴스탭
야마하 드럼 사면 세계적 드러머 레슨이 무료…드루메오 90일 구독권 제공	뉴스탭
여름철 반복되는 턱 주변 염증, 매일 쓰는 전기면도기가 원인?	뉴스탭
성수동서 1년간 9만6000잔 팔렸다…삿포로 생맥주의 새로운 실험	뉴스탭
한국인 3명 중 1명 ‘영양 불균형’…제스프리가 키위 한 알을 제안한 이유 (2)	뉴스탭
엔비디아·세가 30년 동행…‘버추어 파이터 크로스로드’ RTX 스파크 지원	뉴스탭
워터밤에서 시선 사로잡는 법…올여름 페스티벌 룩 핵심은 ‘플라워’ (1)	뉴스탭
[순위분석] 돌아온 ‘연어게임’, 마비노기 올해 첫 TOP 50	게임메카
[오늘의 스팀] 암전 속 교전, 타르코프 초고난도 이벤트 관심	게임메카
최후의 1인 긴장감 구현한 '배그' 실물 TCG 나온다	게임메카
포켓몬+마피아? 보드게임 신작 ‘너 혹시 로켓단?’ 공개	게임메카
데드 스페이스의 아버지, 글렌 스코필드 은퇴 선언 (1)	게임메카
챔피언스행 가린다, VCT 퍼시픽 스테이지 2 개막 예고	게임메카
원로 배우 스티브 부세미, 파 크라이 TV 시리즈 캐스팅 (2)	게임메카
피파가 선택한 '눈' \| 삼성 엘지도 긴장하는 이 회사 동영상 있음	다나와
전문가 생각은 전혀 다른데... 10명 중 9명 "도로는 안전하다" 인식 (1)	오토헤럴드
"손 놓아도 된다"는 착각, 도로 위 시한폭탄을 키운다	글로벌오토뉴스
‘도심선 전기차, 고속선 하이브리드’ 주행 상황 맞춰 답 찾는 BYD DM-i	글로벌오토뉴스
[오늘의 스팀] 삼국지 장수가 본인을 숨김, 신작 ‘블라인드삼국’	게임메카
역대 최고치, 스팀 올해 상반기 총 판매액 약 16조 원	게임메카
낭만의 시대로 떠나자, 롤 클래식 LCK 레전드 매치 예고	게임메카
넥슨재단·슈퍼셀·스마게 등 참여, 2026 유스 e스포츠 열린다	게임메카
LG·삼성·로보락 뭐가 좋을까? 2026 플래그십 로봇청소기 비교 (3)	다나와
[포토] 국립중앙도서관 개최 '단종 한국 게임, 다시 켜다' (1)	게임메카
[오늘의 스팀] 돌아온 전성기, 팰월드 동접 85만 돌파	게임메카
[롤짤] 한화생명 "MSI 개최국은 우승 못 한다고? 비켜" (1)	게임메카
숨바꼭질 게임 '멧챠 카멜레온', 신규 공식 맵 '이집트' 등장	게임메카
美·中 BCI 경쟁 두 갈래… 미국은 뇌 이식, 중국은 웨어러블	AI matters
AI 군사 시스템 기업 헬싱, 2조 7천억원 유치… 유럽 최대 방산 AI 투자	AI matters
EU 집행위, ‘텍스트·데이터 마이닝 옵트아웃 등록부’ 타당성 연구 발표	AI matters
AI 반도체 일제 매도…SK하이닉스 미국 상장이 부른 ‘수입된 변동성’ (1)	AI matters
딥시크 API 7월 24일 마감 경고…미스트랄은 ‘수학 증명’ 모델 공개	AI matters
중국, 해외 AI 접근 제한 검토…‘의인화 규제’는 이번 주 시행	AI matters
메타, 출시 72시간 만에 첫 이미지 AI ‘뮤즈 이미지’ 전격 철회	AI matters
앤트로픽, 몬조 공동창업자 톰 블롬필드 ‘컴퓨트팀’에 영입	AI matters
애플의 오픈AI ‘영업비밀 절도’ 소송에 머스크·올트먼 또 충돌	AI matters
AI 챗봇, 섭식장애에 위험한 식단 조언…”챗GPT를 의사보다 신뢰” 경고	AI matters
드롭박스, 클로드에 파일·업무 맥락 연결…챗GPT·제미나이 스파크도 지원	AI matters
미국 데이터센터 반대 확산… AI 부가 주택시장까지 흔든다	AI matters

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

의료 진단 AI가 '가짜 종양' 발견한다? 시각 AI 환각 현상의 충격적 진실

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

의료 진단 AI가 '가짜 종양' 발견한다? 시각 AI 환각 현상의 충격적 진실

공유하기

공감/비공감