로그인하세요
알림
설정
레프트패널 닫기
관심
최근본
마이페이지
출석체크
카테고리
    서비스 바로가기
    • 자동차
    • 인기 서비스조립PC
    • PC견적
    • PC26
    • 신규 서비스LIVE쇼핑
    • 커뮤니티
    • 이벤트
    • CM추천/문의
    • 오늘의 특가
    앱 서비스
    • 자동차
    • PC견적
    • 장터
    인기 쇼핑몰
    • 지마켓
    • 옥션
    • 11번가
    • 롯데아이몰
    • 쿠팡
    • 롯데닷컴(롯데온)
    • 신세계몰
    • 현대Hmall
    • CJ 온스타일
    • GS샵
    • 하이마트
    • 엘롯데
    • 이마트몰
    • 홈플러스
    • NS몰
    • SK스토아
    • KT알파 쇼핑
    • 전자랜드
    • 무신사
    PC버전 로그인 개인정보처리방침 고객센터
    (주) 커넥트웨이브
    대표:
    김정남
    주소
    서울특별시 금천구 벚꽃로 298, 17층(가산동, 대륭포스트타워6차) (우) 08510
    • 사업자번호:
      117-81-40065
    • 통신판매업:
      제2024-서울금천-0848호
    • 부가통신사업:
      제003081호
    • 고객센터:
      1688-2470 (유료)
    • 이메일:
      cs@cowave.kr
    • 호스팅 제공자:
      (주)커넥트웨이브
    • 사업자 정보확인
    • 이용약관
    • 책임의 한계
    • 청소년 보호정책
    사용법 보기
    MY쇼핑이란? 자주 쓰는 쇼핑몰을 연결하면 쇼핑몰 주문내역을 한 번에 확인할 수 있습니다. 쇼핑몰 계정은 고객님의 핸드폰에만 저장되어 안전합니다.
    편리한 구매내역 확인. 다양한 쇼핑몰의 주문내역을 한 곳에서 확인해보세요.
    가격비교와 최저가 쇼핑을 한 번에. 자주 구매하는 상품은 가격비교를 통해 저렴하게 구매하세요.
    보안은 필수! 쉽고 편한 가치 쇼핑. 쇼핑몰 계정은 고객님의 핸드폰에만 암호화 저장되어 안전합니다. 쇼핑몰 연결
    다나와 홈

    커뮤니티 DPG

    일반뉴스

    • 게시판
    • 상품포럼
    • 뉴스
    • 동영상
    • 커뮤니티 공지사항
      소비자사용기
    • 특가몰
      자유게시판
    • 이달의 이벤트
      유머게시판
    • 당첨자발표게시판
      댕냥이게시판
    • 포인트 마켓
      Q&A게시판
    • 다나와 래플
      상품의견
    • 모두의 경매
      체험단
    • 오늘도 출석체크
      엄근진게시판
    • 입소문쇼핑
      쇼핑몰후기
    • 메인가자
      A/S후기
    • 당첨후기
    • 컴퓨터
      AI
    • 푸드
      취미
    • 최신뉴스
      일반뉴스
    • 기획뉴스
      신상품뉴스
    • 쇼핑뉴스
      테크팁
    • 다나와리포터
      구매가이드
    • 전문가리뷰
      인기순위가이드
    • 벤치마크
      차트뉴스
    • 가격동향
    • 고나고
      공구왕황부장
    • 노써치
      도레
    • 딴트공 말방구 실험실
      라이브렉스
    • 레고매니아
      맛상무
    • 모터피디
      무적풍화륜
    • 민티저
      보드나라
    • 뻘짓연구소
      여행매거진 트래비TV
    • 오토기어
      조코딩 JoCoding
    • 인프제 INFJ
      주연 ZUYONI
    • 진블로그
      집마 홀릭TV
    • 톡써니
      포마: 탈 것을 리뷰하는 남자
    • 쿨엔조이
      훅간다TV
    • AI 매터스
      Allthatboots TV
    • DmonkTV
      Hakbong Kwon
    • Motorgraph
      PC SNAP
    • Producer dk
      THE EDIT
    • UnderKG
      다나와 공식채널
    • 답나와
      리뷰나와
    • 샵다나와 조립갤러리
      직장인 다나왕
    >
    이전 글
    다음 글
    AI matters

    의료 진단 AI가 '가짜 종양' 발견한다? 시각 AI 환각 현상의 충격적 진실

    2025.06.29. 22:43:14
    읽음319

    Visual hallucination detection in large vision-language models via evidential conflict


    대규모 비전-언어 모델(LVLMs)이 텍스트와 이미지를 동시에 이해하는 놀라운 능력을 보여주고 있지만, 심각한 문제점이 발견되고 있다. 이는 바로 '시각적 환각(visual hallucination)' 현상으로, 모델이 이미지에 존재하지 않는 객체를 묘사하거나 잘못된 공간적 관계를 인식하는 문제다.

    AI 환각 현상의 충격적 실태: 최신 모델도 49% 확률로 착각한다

    북경교통대학교(Beijing Jiaotong University) 연구진이 발표한 논문에 따르면, 이러한 환각 현상은 모델의 구조나 훈련 데이터와 무관하게 통계적 하한선이 존재하며, 이는 환각이 쉽게 제거할 수 있는 결함이 아닌 내재적 특성임을 의미한다.

    특히 의료 진단, 자율주행, 자동화된 거래 시스템과 같은 안전이 중요한 AI 애플리케이션에서 이러한 환각 현상은 심각한 위험을 초래할 수 있다. 연구 결과에 따르면, LLaVA-v1.5, mPLUG-Owl2, mPLUG-Owl3 등 최신 LVLM들이 관계 추론 작업에서 각각 49.44%, 50.42%, 19.92%의 환각률을 보이는 것으로 나타났다. 이는 현재의 모델들이 단순한 인식 작업보다 고도의 추론이 필요한 작업에서 더 취약하다는 것을 보여준다.


    기존 AI 거짓말 탐지법의 치명적 한계점들

    기존의 환각 탐지 방법들은 크게 세 가지 유형으로 분류된다.

    첫 번째는 모델에게 직접 신뢰도를 물어보는 언어적 유도(verbal elicitation) 방식이지만, 모델이 지시를 잘못 해석하거나 부정확한 신뢰도를 표현하는 문제가 있다.

    두 번째는 여러 번의 생성 결과를 비교하는 외부 일관성 검사 방법이지만, 높은 계산 비용과 외부 지식에 대한 의존성이 단점이다.

    세 번째는 모델 내부 정보를 활용하는 방법으로, 몬테카를로 드롭아웃(Monte Carlo dropout)이나 앙상블 방법을 사용하지만 대규모 모델에서는 적용이 어렵다.

    더욱 중요한 문제는 기존 방법들이 주로 인식 능력에만 초점을 맞추고 있다는 점이다. 현재의 벤치마크들은 객체 인식이나 공간적 관계 파악과 같은 기본적인 인식 작업에만 집중하여, 고급 추론 과정에서 발생하는 환각을 간과하고 있다. 이러한 한계를 극복하기 위해 연구진은 인식과 추론 능력을 모두 평가할 수 있는 새로운 접근법이 필요하다고 강조한다.


    10,000개 질문으로 밝혀낸 추론 작업에서의 심각한 AI 착각

    연구팀은 이러한 문제를 해결하기 위해 인식-추론 평가 환각(PRE-HAL) 데이터셋을 개발했다. 이 데이터셋은 기존의 인식 중심 벤치마크와 달리 인스턴스, 장면, 관계라는 세 가지 시각적 의미론과 인식 및 추론이라는 두 가지 능력 차원을 체계적으로 평가할 수 있도록 설계되었다. PRE-HAL은 총 10,000개의 다중 선택 질문으로 구성되어 있으며, MMBench, MMVP, POPE, R-Bench 등 다양한 데이터 소스에서 수집한 데이터를 포함한다.

    특히 주목할 점은 분포 밖(Out-of-Distribution, OOD) 데이터를 포함시켜 벤치마크의 완성도를 높였다는 것이다. 연구진은 생의학 용어나 일상에서 드물게 접하는 객체명을 사용하고, "모래 원숭이"와 같은 uncommon한 단어 조합을 만들어 질문을 생성했다. 이러한 접근법을 통해 모델이 훈련 데이터 분포를 벗어난 상황에서 어떻게 반응하는지 평가할 수 있게 되었다.

    PRE-HAL을 사용한 평가 결과, 추론 기반 작업이 인식 기반 작업보다 훨씬 어려운 도전을 제시한다는 것이 명확해졌다. 특히 관계 추론 작업에서 LLaVA-v1.5는 49.44%의 환각률을 보였으며, 이는 모델이 복잡한 논리적 추론이나 의사결정이 필요한 상황에서 상당한 취약성을 보인다는 것을 의미한다.


    혁신적 증거 충돌 분석법으로 환각 탐지 정확도 10% 향상 달성

    연구팀이 제안한 새로운 환각 탐지 방법은 데스터-셰이퍼 이론(Dempster-Shafer Theory, DST)을 기반으로 한 증거 충돌 분석이다. 이 방법은 LVLM의 고차원 특징(high-level features)을 증거로 취급하여, 이들 간의 충돌 정도를 측정함으로써 환각을 탐지한다. 핵심 아이디어는 모델이 다음 토큰을 예측할 때 사용하는 최상위 계층의 표현에서 발생하는 불확실성을 포착하는 것이다.

    기술적으로 이 방법은 피드포워드 네트워크(FFN)의 매개변수와 특징을 입력으로 받아, 간단한 질량 함수(simple mass function)를 사용하여 기본 신뢰 할당을 수행한다. 이후 데스터의 결합 규칙을 통해 이러한 질량 함수들을 결합하여 증거적 불확실성을 측정한다. 중요한 점은 파워 세트에 대한 증거 결합의 계산 복잡성을 피하여 효율성을 높였다는 것이다.

    실험 결과, 이 방법은 기존 불확실성 메트릭보다 우수한 성능을 보였다. LLaVA-v1.5에서 4%, mPLUG-Owl2에서 10%, mPLUG-Owl3에서 7%의 AUROC 개선을 달성했다. 특히 장면 인식 작업에서 71-73%의 AUROC를 기록하며 뛰어난 견고성을 보였다. 이는 확률 기반 방법들의 보정 한계를 효과적으로 우회한 결과로 평가된다.


    FAQ

    Q: 시각적 환각이란 무엇이며, 왜 문제가 되는가?

    A: 시각적 환각은 AI 모델이 실제 이미지에 없는 객체를 묘사하거나 잘못된 관계를 인식하는 현상이다. 의료 진단이나 자율주행 같은 안전이 중요한 분야에서 잘못된 판단을 유발할 수 있어 심각한 문제가 된다.

    Q: 새로운 탐지 방법이 기존 방법보다 어떤 점에서 우수한가?

    A: 데스터-셰이퍼 이론 기반 방법은 모델의 내부 특징 충돌을 분석하여 환각을 탐지한다. 기존 방법 대비 4-10% 성능 향상을 달성했으며, 여러 번의 추론이나 외부 모델 없이도 효율적으로 작동한다.

    Q: PRE-HAL 데이터셋의 특징과 기여는 무엇인가?

    A: PRE-HAL은 기존 벤치마크와 달리 인식과 추론 능력을 모두 평가할 수 있는 포괄적 데이터셋이다. 10,000개의 다중 선택 질문으로 구성되어 있으며, 특히 추론 작업에서 최대 49%의 높은 환각률을 발견하는 데 기여했다.

    해당 기사에 인용된 논문 원문은 arxiv에서 확인 가능하다.

    이미지 출처: Visual hallucination detection in large vision-language models via evidential conflict

    해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




    AI Matters 뉴스레터 구독하기
    태그
    의료 진단 AI 가짜 종양 시각 AI 환각 현상
    안내 ?

    말 많은 뉴스

    • 1

      ‘중국’을 넘어 프리미엄으로 향하다, 로보락 로봇청소기 [라인업을보자]

      댓글4
      ‘중국’을 넘어 프리미엄으로 향하다, 로보락 로봇청소기 [라인업을보자]
    • 2

      5090달린 랩탑이 2kg이면 반칙이지! 거기에 240Hz 디스플레이까지 달린 레이저 블레이드 16 5090!

      댓글4
      5090달린 랩탑이 2kg이면 반칙이지! 거기에 240Hz 디스플레이까지 달린 레이저 블레이드 16 5090!
    • 3

      우리나라에서 제일 싼 6천원짜리 무선 이어폰

      댓글3
      우리나라에서 제일 싼 6천원짜리 무선 이어폰
    • 4

      [신차공개] 페라리 최초 전기차 루체·MINI 쿠퍼 SE 폴스미스 에디션 공개

      댓글3
      [신차공개] 페라리 최초 전기차 루체·MINI 쿠퍼 SE 폴스미스 에디션 공개 [
    • 5

      “닭을 통째로 고아냈다”…하림, 깊고 시원한 ‘닭칼국수’ 라면 출격

      댓글3
      “닭을 통째로 고아냈다”…하림, 깊고 시원한 ‘닭칼국수’ 라면 출격

    일반뉴스 최신 글

    이전 페이지 1/10 다음 페이지
    • [생활 속 IT] "이제 스마트폰으로 로또 산다" 동행복권, 20년 만에 달라진 이유

      IT동아 11:04:38
      읽음 36
    • '넥슨 드림 멤버스(NDM)' 게임 제작발표회 진행

      게임동아 09:23:25
      읽음 48 공감 1
    • 그냥 배틀로얄로는 못 이긴다! 새로운 킥 첨가하는 신작들

      게임동아 09:22:45
      읽음 51 공감 1
    • 넷마블 '블레이드&소울 레볼루션', 환상의 '백몽' 키우기 이벤트 진행

      게임동아 09:22:25
      읽음 43 공감 1
    • ‘에오스 블랙’, 과금 제한 ‘삼백 IV’ 서버 업데이트

      게임동아 09:22:09
      읽음 44 공감 1
    • [오늘의 스팀] 한 주 동안 판매 1위, '바하 레퀴엠' 출시 코앞

      게임메카 26.02.26.
      읽음 113 공감 10
    • 2026 VCT 첫 국제전, 마스터스 산티아고 3월 1일 열린다

      게임메카 26.02.26.
      읽음 112 공감 9
    • 처치 곤란했던 폐가전, 스티커 없이 무료 배출하는 방법

      IT동아 26.02.26.
      읽음 104 공감 9
    • BMW 모토라드, 15대 한정판 ‘BMW R 12 S’ 국내 출시

      글로벌오토뉴스 26.02.26.
      읽음 122 공감 9
    • BMW 코리아 미래재단, 대학생 사회공헌 공모전 ‘영 이노베이터 드림 프로젝트’ 개최

      글로벌오토뉴스 26.02.26.
      읽음 119 공감 9
    • 틸 셰어 폭스바겐그룹코리아 사장, 한국수입자동차협회(KAIDA) 회장 3연임

      글로벌오토뉴스 26.02.26.
      읽음 118 공감 9
    • [영상] 영국 두 아이콘의 만남, MINI 폴 스미스 에디션을 만나다

      글로벌오토뉴스 26.02.26.
      읽음 116 공감 9
    • 소파가 전시 오브제로…알로소, ‘서울리빙디자인페어’서 체험형 공간 선보여

      뉴스탭 26.02.26.
      읽음 89 공감 9
    • “집이 곧 필드”…텔몬파크골프, 가정용 시뮬레이터로 시장 판 바꿨다

      뉴스탭 26.02.26.
      읽음 80 공감 9
    • “아이마다 다른 공부 리듬”…일룸, 체험형 팝업으로 학생방 새 기준 제시

      뉴스탭 26.02.26.
      읽음 56 공감 8
    • 바나나·파인애플·용과의 변신…야외 미식 트렌드 ‘밖슐랭’ 확산

      뉴스탭 26.02.26.
      읽음 54 공감 8
    • 이채민과 함께한 K2 2026 SS 화보 공개…기능성과 스타일 모두 잡았다

      뉴스탭 26.02.26.
      읽음 70 공감 8
    • 이동휘의 ‘스피드 무드’ 통했다…버커루 2026 S/S 캠페인 공개

      뉴스탭 26.02.26.
      읽음 56 공감 8
    • 36년 만의 블러드문 뜬다…식품·유통업계, 정월대보름 마케팅 ‘후끈’

      뉴스탭 26.02.26.
      읽음 68 공감 8
    • 뷔의 담백한 무드로 완성한 ‘일상 아웃도어’…스노우피크 26 스프링 컬렉션 공개

      뉴스탭 26.02.26.
      읽음 58 공감 8
    • “노래 들으며 타자 연습”… 코르티스 신곡 가사 ‘타자 게임’으로 최초 공개

      뉴스탭 26.02.26.
      읽음 83 공감 8
    • 3천원대 마요부터 단백질 강화 메뉴까지…도시락 시장, 초개인화 경쟁 본격화

      뉴스탭 26.02.26.
      읽음 70 공감 8 댓글 1
    • 코지마 감성 입은 ROG, ‘루덴스’ 철학 담은 한정판 Z13 전격 공개

      뉴스탭 26.02.26.
      읽음 77 공감 1
    • 한예슬 효과 통했다…세르본 ‘튜닝엑스’, 면세점·백화점 온라인몰 전격 입점

      뉴스탭 26.02.26.
      읽음 62 공감 1
    • “상금 2억2000만원” 구글 딥마인드, 서울서 ‘제미나이 3’ 해커톤 연다

      뉴스탭 26.02.26.
      읽음 94 공감 1
    • 250야드 장타자 이슬기2, 에이븐 입고 KLPGA 정규투어 도전장

      뉴스탭 26.02.26.
      읽음 49 공감 1
    • 묘하게 닮은 ‘일곱 개의 대죄: 오리진’과 ‘붉은사막’ 3월 맞대결

      게임동아 26.02.26.
      읽음 71 공감 1
    • 웹젠 '뮤: 포켓 나이츠', 신규 유물 등 육성 콘텐츠 업데이트

      게임동아 26.02.26.
      읽음 54 공감 1
    • 넷마블 '일곱 개의 대죄: 그랜드 크로스', 글로벌 서비스 6주년 페스티벌

      게임동아 26.02.26.
      읽음 64 공감 1
    • 스마일게이트 ‘카제나’, 센서타워 APAC 어워즈 ‘최고의 신규 서브컬처 게임’ 선정

      게임동아 26.02.26.
      읽음 64 공감 1
    • 엔씨(NC) '리니지 클래식', 비정상 플레이 근절 박차.. '클린 캠페인' 진행

      게임동아 26.02.26.
      읽음 72 공감 1
    • 스마일게이트-GRID, ‘크로스파이어’ e스포츠 공식 데이터 글로벌 유통 파트너십 체결

      게임동아 26.02.26.
      읽음 56 공감 1
    • 타타대우, 특장업체 사이버보안 설명회 '상용차 보안' 선제 대응

      오토헤럴드 26.02.26.
      읽음 53 공감 1
    • GMC 허머 EV, 국내 인증 완료 '복합 512km 기록' 상반기 판매 돌입

      오토헤럴드 26.02.26.
      읽음 71 공감 1
    • 현대차·기아, 전기차 배터리관리시스템·BMW 스타터 모터 결함 리콜

      오토헤럴드 26.02.26.
      읽음 63 공감 1
    • EU 1월 신차 판매 3.9% 감소, 현대차 22.2% 급감 기아와 순위 역전

      오토헤럴드 26.02.26.
      읽음 63 공감 1
    • '20만대 시대는 옛말' 아우디, 美 판매 2년 연속 역성장 이어 추가 감소

      오토헤럴드 26.02.26.
      읽음 73 공감 1
    • “표지판 번쩍임 줄인다” 테슬라 매트릭스 라이트 개선 예고

      오토헤럴드 26.02.26.
      읽음 66 공감 1
    • '크로스오버 대신 픽업' 현대차, 美 시장 전략 전환 가속

      오토헤럴드 26.02.26.
      읽음 67 공감 1
    • 특별한 감성 미니 전기차. MINI 쿠퍼 SE 폴 스미스 에디션 출시

      오토헤럴드 26.02.26.
      읽음 61 공감 1
    • '임직원 긍정 응답 79%' 기아, 대한민국 일하기 좋은 100대 기업 선정

      오토헤럴드 26.02.26.
      읽음 71 공감 1
    • KG모빌리티 '이스타나' 출시, 상용·다목적 라인업 강화 시동

      오토헤럴드 26.02.26.
      읽음 70
    • '음악으로 이어진 아산의 정신' 현대차그룹, 25주기 추모 행사 개최

      오토헤럴드 26.02.26.
      읽음 57
    • '하루 6000원이면 탄다' BYD, 中 내수 둔화에 파격 조건 내놔

      오토헤럴드 26.02.26.
      읽음 65
    • 한국수입자동차협회, 제17대 회장에 틸 셰어 재선임… 3연속 선임

      오토헤럴드 26.02.26.
      읽음 54
    • 현대차그룹, 새만금에 10조 원 규모 미래 산업 기지 조성

      글로벌오토뉴스 26.02.26.
      읽음 99
    • 렉서스 IS, 1,000km 주행 앞세워 2027년 배터리 전기차로 부활

      글로벌오토뉴스 26.02.26.
      읽음 95
    • 중국 창안자동차, 1,500km 주행 전고체 배터리 내년 시험 탑재... 2027년 양산

      글로벌오토뉴스 26.02.26.
      읽음 89
    • 웨이모, 미 4개 도시 추가 확장… 무인 로보택시 10개 도시 시대 개막

      글로벌오토뉴스 26.02.26.
      읽음 86
    • 랜드로버, 디펜더 스포츠 EV 올 해 말 공개… 6천만 원대 전기 오프로더 시장 정조준

      글로벌오토뉴스 26.02.26.
      읽음 101
    • 원하는 경품 나올 때까지~ 무제한 당첨 룰렛

    • <3월 모바일 출석체크> 3월 출석하고 선물받기

    • 답 안 나올 땐 답나와를 찾아주세요.

    스폰서 PICK

    이전 페이지 1/3 다음 페이지
    • 엔티스 ES 800W 80PLUS스탠다드 ATX3.1

      엔티스 ES 800W 80PLUS스탠다드 ATX3.1

      엔티스
    • 잘만 ALPHA II DS A36(블랙)

      잘만 ALPHA II DS A36(블랙)

      잘만
    • 앱코 G40 시그니처(블랙)

      앱코 G40 시그니처(블랙)

      앱코
    • darkFlash DY470 ARGB 강화유리(화이트)

      darkFlash DY470 ARGB 강화유리(화이트)

      darkFlash
    • AMD 라이젠5-5세대 7600 (라파엘)(멀티팩 정품)

      AMD 라이젠5-5세대 7600 (라파엘)(멀티팩 정품)

      AMD
    • MICRONICS
    • 잘만
    • 다크플래쉬
    PC버전 로그인 개인정보처리방침 고객센터
    (주) 커넥트웨이브
    대표:
    김정남
    주소
    서울특별시 금천구 벚꽃로 298, 17층(가산동, 대륭포스트타워6차) / 우편번호: 08510
    • 사업자번호:
      117-81-40065
    • 통신판매업:
      제2024-서울금천-0848호
    • 부가통신사업:
      제003081호
    • 고객센터:
      1688-2470 (유료)
    • 이메일:
      cs@cowave.kr
    • 호스팅 제공자:
      (주)커넥트웨이브
    • 사업자 정보확인
    • 이용약관
    • 책임의 한계
    • 청소년 보호정책
    뒤로
    새로고침 맨위로 이동
    안내

    유용하고 재미있는 정보인가요? 공감이 된다면 공감 버튼을,
    그렇지 않다면 비공감 버튼을
    눌러 주세요!
    공감이나 비공감을 선택 하는 경우
    다나와 포인트를 적립해 드립니다.
    ※ 공감 버튼의 총 선택 횟수는
    전체 공개입니다.
    비공감 버튼의 선택 여부는
    선택한 본인만 알 수 있습니다.

    포인트 안내
    목록
    공감 10
    비공감
    댓글
    공유

    공유받은 친구가 활동하면 포인트를!

    URL이 복사되었습니다.

    공유하기

    레이어 닫기

    지금 보는 페이지가 마음에 든다면
    공유하기를 통해 지인에게 소개해 주세요.

    • 카카오톡
    • 라인
    • 페이스북
    • X
    • 밴드
    https://dpg.danawa.com/mobile/news/view?boardSeq=60&listSeq=5837434 복사

    로그인 유저에게는 공유 활동에 따라
    다나와 포인트가 지급됩니다.

    자세히 >

    URL이 복사되었습니다.