'의학 드라마'로 AI 진단 실력 측정했더니... 희귀질환 진단 정확도 38% 그쳐 : 다나와 DPG는 내맘을 디피지

펜실베이니아 주립대학교 연구팀이 발표한 논문에 따르면, 의학 드라마 '하우스(House M.D.)'를 활용해 대형 언어모델(LLM)의 희귀질환 진단 능력을 평가한 결과, 최신 AI 모델도 정확도가 40%에 미치지 못하는 것으로 나타났다. 이번 연구는 AI가 의료 현장에서 실제로 활용되기까지 아직 상당한 과제가 남아있음을 보여준다.

의학 드라마가 AI 평가 기준이 된 이유

연구팀은 176개의 증상-진단 쌍으로 구성된 새로운 데이터셋을 구축했다. 이 데이터는 의학 드라마 '하우스'의 전체 8개 시즌 176개 에피소드에서 추출한 것으로, 환자의 증상 설명과 최종 진단명을 짝지어 구성했다. '하우스'를 선택한 이유는 명확하다. 이 드라마는 의학 교육과정에 성공적으로 통합되어 희귀질환 인식을 가르치는 데 활용되고 있다. 또한, 보건의료 전공 학생의 49.6%가 정기적으로 의학 드라마를 시청하며, '하우스'가 가장 인기 있는 프로그램 중 하나로 나타났다. 이러한 프로그램들은 생명윤리 및 전문직 실무 문제를 효과적으로 가르치는 것으로 확인됐다.

'하우스'는 의학 교육에서 거의 다루지 않는 희귀질환을 자주 다룬다. 또한 드라마적 요소에도 불구하고 제작진은 의료 컨설턴트를 고용해 임상 정확성을 확보하며, 실제 진료를 반영하는 일관된 진단 프레임워크를 따른다. 실제 환자 데이터와 달리 '하우스' 콘텐츠는 공개적으로 접근 가능해 윤리적 제약 없이 재현 가능한 연구를 가능하게 한다.

GPT-4o 미니 16%, 제미나이 2.5 프로 38%...2.3배 성능 격차

연구팀은 GPT-4o 미니, GPT-5 미니, 제미나이 2.5 플래시, 제미나이 2.5 프로 등 4개의 최신 LLM을 평가했다. 이 선택은 다양한 모델 계열과 성능 수준을 포괄하여 여러 아키텍처와 학습 방법에 걸친 진단 추론을 평가할 수 있게 했다. 평가 방식은 각 모델에 환자의 인구통계 정보, 시간에 따른 증상 진행, 관련 병력, 초기 진단 검사 결과를 포함한 구조화된 의료 사례 형식의 프롬프트를 제공하고 단일 주요 진단을 요청하는 방식이었다. 모델은 결정론적 출력을 보장하기 위해 온도를 0.0으로 설정하고, 최대 토큰 길이는 1500으로 설정했다.

결과는 모델별로 큰 차이를 보였다. 가장 낮은 성능을 기록한 GPT-4o 미니는 176개 케이스 중 29개만 정확히 진단해 16.48%의 정확도를 보였다. 반면 최고 성능을 기록한 제미나이 2.5 프로는 68개를 맞춰 38.64%의 정확도를 달성했다. GPT-5 미니는 65개 정답으로 36.93%, 제미나이 2.5 플래시는 58개 정답으로 32.95%의 성적을 거뒀다. 최고 성능과 최저 성능 사이에는 2.3배의 차이가 발생했다.

성능은 모델뿐 아니라 시즌별로도 차이를 보였다. 제미나이 2.5 프로 기준으로 시즌 1에서는 23개 에피소드 중 13개를 맞춰 56.52%의 정확도를 보인 반면, 시즌 5에서는 24개 중 5개만 맞춰 20.83%로 가장 낮은 성적을 기록했다. 시즌 8은 21개 중 11개를 맞춰 52.38%의 정확도를 보였다. 연구팀은 이러한 변동이 시리즈 전반에 걸쳐 진단 복잡성이 다양하며, 후반 시즌이 더 어려운 희귀질환 사례를 다룰 가능성을 시사한다고 분석했다. 그러나 시즌 8의 비교적 강한 성능은 시간적 진행만으로는 정확도 차이를 완전히 설명할 수 없으며, 사례별 진단 복잡성이 주요 요인으로 보인다고 밝혔다.

흔한 질병은 잘 맞추지만 희귀질환과 다계통 질환엔 어려움

모든 모델은 뚜렷한 증상을 보이는 일반적인 질환에서 더 나은 성능을 보였다. 수막염, 심근경색, 폐색전증 등은 상대적으로 잘 진단했다. 반면 모든 모델은 신경낭미충증, 에르드하임-체스터병 같은 희귀질환에서 어려움을 겪었다. 전신홍반루푸스, 사르코이드증 같은 다계통 자가면역질환도 진단이 어려웠다. 또한 노출 이력과 임상 증상을 통합해야 하는 독성학적 사례에서도 낮은 성능을 보였다.

연구팀은 모델 간 성능 격차가 아키텍처 차이와 학습 방식이 진단 추론 능력에 상당한 영향을 미친다는 것을 보여준다고 설명했다. GPT-5 미니와 제미나이 2.5 프로의 우수한 성능은 향상된 추론 능력을 갖춘 신세대 모델이 이전 버전 대비 의미 있는 개선을 보이지만, 여전히 상당한 한계가 남아있음을 나타낸다.

"40% 정확도, 낮아 보이지만 의미 있는 진전"

연구팀은 GPT-4o 미니의 16.48%에서 제미나이 2.5 프로의 38.64%로 향상된 결과가 임상적으로 유용한 AI 진단 시스템을 향한 의미 있는 진전을 보여준다고 강조했다. 절대 정확도 수준은 개선의 여지가 있지만, 결과를 맥락화하는 것이 중요하다고 설명했다.

연구팀은 "이번 벤치마크는 전문 의사들조차 어려워하는 진단적으로 도전적인 사례만을 다루며, 일반적인 의료 AI 벤치마크보다 상당히 어려운 평가 과제"라고 밝혔다. 이처럼 예외적으로 어려운 사례의 거의 40%를 정확히 진단할 수 있다는 것은 의미 있는 의료 추론 능력을 보여주며, 향후 도메인 특화 파인튜닝, 의학 지식베이스와의 통합, 하이브리드 추론 접근법을 통한 개선을 위한 견고한 기반을 구축한다고 평가했다.

연구팀은 또한 한계점도 명확히 했다. 허구적 서사에서 비롯된 잠재적 편향, 전문 의료 검증 부족, 오류의 임상적 중요성을 포착하지 못하는 이진 정확도 지표 등이 있다. 특히 모델들이 확신에 찬 잘못된 설명을 자주 제공했으며, 이는 전문 훈련과 검증 없이 임상 배치할 경우 우려를 제기한다고 밝혔다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. AI가 의사를 대체할 수 있나요?

A: 아직은 어렵습니다. 이번 연구에서 최고 성능의 AI도 희귀질환 진단 정확도가 38.64%에 그쳤습니다. AI는 의사의 진단을 보조하는 도구로 활용하는 것이 현실적이며, 특히 복잡한 희귀질환이나 다계통 질환의 경우 전문의의 판단이 필수적입니다.

Q2. 왜 의학 드라마로 AI를 평가했나요?

A: 의학 드라마 '하우스'는 실제 의학교육 현장에서 희귀질환 교육 자료로 활용되며, 의료 전문가의 검증을 받은 콘텐츠입니다. 실제 환자 데이터는 개인정보 보호 문제로 활용이 어려운 반면, 드라마는 공개적으로 접근 가능하면서도 임상적으로 의미 있는 사례를 제공합니다.

Q3. AI가 잘 진단하는 질병과 어려워하는 질병은 무엇인가요?

A: 수막염, 심근경색, 폐색전증처럼 뚜렷한 증상을 보이는 일반적인 질환은 비교적 잘 진단합니다. 반면 신경낭미충증 같은 희귀질환, 전신홍반루푸스 같은 다계통 자가면역질환, 독성물질 노출 사례 등에서는 모든 AI 모델이 어려움을 겪었습니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: Evaluating Large Language Models on Rare Disease Diagnosis: A Case Study using House M.D

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

앤트로픽, 파워포인트용 클로드 베타 출시…템플릿 인식해 슬라이드 자동 생성	AI matters
요기요, 챗GPT에 국내 배달앱 최초로 앱 개설… "대화로 맛집 찾고 주문까지"	AI matters
한국 교육부, 2028년부터 AI로 수능 영어 지문 만든다	AI matters
서린씨앤아이, 팀그룹 고성능 메모리 구매 시 한정판 키링 증정 프로모션 실시	다나와
STCOM, PNY 지포스 RTX 50 구매자 대상 바이오하자드 게임 번들 증정 행사	다나와
인텔 공인대리점 3사 '인텔 정품 CPU 빌드 자랑' 프로모션	다나와
조텍, RTX 5070 이상 그래픽카드 대상 ‘바이오하자드 : 레퀴엠’ 번들 프로모션	다나와
서린씨앤아이 '에센코어 클레브' 굿즈 증정 SNS 이벤트 진행	다나와
에스티컴퓨터 'XFX 라데온 RX 9070' 시리즈 구매자 대상 붉은 사막 번들 증정 행사	다나와
다나와, 불황에도 소고기 거래액 3배 증가…’설 선물 양극화’ (1)	다나와
아이노비아 ‘INNO3D 지포스 RTX 5070 이상’ 그래픽카드 구매 시 ‘바이오하자드 레퀴엠’ 증정	다나와
10주년 맞은 노 맨즈 스카이, 6.2 업데이트 ‘렘넌트’ 배포	게임메카
[오늘의 스팀] 디아블로 2 스팀에 등장, 판매 최상위	게임메카
별도의 최적화 패치도 필요 없다! 300MB 미만으로 즐기는 초경량 게임들	게임동아
초이락, 설 맞아 피닉스맨 '엑스타리온', 헬로카봇 '빅포트' 완구 출시	게임동아
한국e스포츠협회, 2026 아이치-나고야 아시안게임 국가대표 지도자 4인 공개	게임동아
아쿠아맨 제이슨 모모아, 영화 '헬다이버즈' 주연으로	게임메카
'롬', 부스팅 서버 '실리드' 시즌2 오픈 실시	게임동아
‘대항해시대 오리진’, 신규 업데이트&설 명절 이벤트 실시	게임동아
넥슨의 야심작 ‘낙원’ 3월 글로벌 알파 테스트 참가자 모집	게임동아
넥슨, '2026년 NDC' 발표자 모집 개시	게임동아
'승리의 여신: 니케' × TV 애니메이션 '리코리스 리코일' 콜라보 업데이트	게임동아
"귀성길에서도 게임하자!" Xbox 설 맞이 새해 소망별 추천 게임 공개	게임동아
'400만 대 찍었다' 르노 부산 공장 글로벌 전략 허브로 자리매김	오토헤럴드
GM, 핵심 부품 협력사 ‘퍼스트 브랜드’ 파산으로 공급망 리스크 비상	오토헤럴드
'누적 6948대' 현대차 김기양 영업 이사 2025년 승용 부문 판매 1위	오토헤럴드
이름만 남긴 '토요타 하이랜더' 간판급 중형 순수 전기 SUV로 변신	오토헤럴드
'모터사이클 타고 영종도로' BMW, 모토라드 트랙 체험 참가자 모집	오토헤럴드
화물차 장거리·심야 운행 교통사고 예방하는 첨단 안전 사양에 주목	오토헤럴드
[EV 트렌드] 16개월 26만km 달린 '샤오미 SU7' 배터리 놀라운 잔존율	오토헤럴드
현대차, 인증중고차 이용 고객에 '더드림' 쿠폰 제공 프로모션 실시	오토헤럴드
'자꾸 이러면 문 닫는다' 테슬라, 獨 최대 노조 IG 메탈과 갈등 고조	오토헤럴드
현대차 아이오닉 5, 웨이모 5만대 공급설 '로보택시 대량 생산 기대'	오토헤럴드
“4 Million Units Produced” — Renault Busan Plant Establishes Itself as a Global Strategic Hub	오토헤럴드
'고전압 부품 체결 불량' 현대차 美 판매분 아이오닉 5·9 리콜	오토헤럴드
기아 역사 담긴 시흥서비스센터, 원스톱 복합 거점 플래그십 스토어 재탄생	오토헤럴드
[영상] 가성비 전기차의 진수, BYD 돌핀 시승기	글로벌오토뉴스
제네시스, 2027년 독자 플랫폼 시대 연다	글로벌오토뉴스
홍치 HS6 PHEV, 영하 20도 뚫고 1,131km 주행… 기네스 신기록 달성	글로벌오토뉴스
테슬라 주도 전기차 가격 인하에도 1월 미국 판매 30% 급락	글로벌오토뉴스
리비안 R2, 656마력의 압도적 성능… 테슬라 모델 Y 와 경쟁 예고	글로벌오토뉴스
현대차, 미국서 5년 연속 신기록… 2026년 미국산 하이브리드로 제2의 도약	글로벌오토뉴스
BYD, 800V 무장한 아토 3 에보 공개… 테슬라·현대차에 성능으로 도전장	글로벌오토뉴스
토요타, 2026년 미국산 전기차 하이랜더 EV 출시… 현지 생산 체제 대전환	글로벌오토뉴스
BYD, 맨체스터 시티와 글로벌 파트너십 체결	글로벌오토뉴스
HS효성더클래스, 설맞이 특별 프로모션 진행	글로벌오토뉴스
고속도로 화물차 사고 사망 비중 급증… 첨단 안전 시스템 중요성 부각	글로벌오토뉴스
BMW 모토라드, 영종도 서킷 열린다… 3월 1일 ‘모토라드 온 트랙’ 개최	글로벌오토뉴스
한성모터스, 설 맞이 ‘럭키 드라이브 2026’ 캠페인 개최	글로벌오토뉴스
콘티넨탈타이어, 신제품 ‘익스트림콘택트 XC7’ 소비자 체험단 모집	글로벌오토뉴스
지리자동차그룹, 1월 판매 27만 대 돌파… 해외 시장 121% ‘폭풍 성장’	글로벌오토뉴스
쉐보레, 2026 무상점검 캠페인 실시	글로벌오토뉴스
현대차, 2025년 전국 판매 우수자 명단 공개	글로벌오토뉴스
르노코리아 부산공장, 누적 생산 400만 대 돌파	글로벌오토뉴스
기아, 역사적 시흥공장 터에 ‘시흥 플래그십 스토어’ 공식 개관	글로벌오토뉴스
스텔란티스, 삼성SDI와 미국 배터리 합작사 철수 검토	글로벌오토뉴스
테슬라 세미, 98개월의 기다림 끝에 ‘양산형’ 최종 제원 공개	글로벌오토뉴스
볼보, 전용 플랫폼 ‘SPA3’로 전기 왜건 부활 예고	글로벌오토뉴스
브래드 피트의 ‘F1’, 오스카 노미네이트와 함께 속편 확정	글로벌오토뉴스
롤 사령탑은 강동훈, 2026 아시안게임 지도자 4인 선임	게임메카
붉은사막, 스팀 위시리스트 200만 건 돌파	게임메카
폴스타, 올해 판매 목표 4000대 이상…"신차 2종 투입 및 인프라 확충 추진"	IT동아
MSI 메인보드+라이젠 X3D 사면 ‘아크레이더스·붉은사막’ 둘 다 준다	뉴스탭
MSI RTX 50 시리즈 사면 ‘바이오하자드 레퀴엠’ 증정… 3월 16일까지 한정 이벤트	뉴스탭
에이서, 롯데하이마트 잠실점 전문 게이밍존 오픈…프레데터·니트로 직접 체험 및 최대 5년 보증 혜택	뉴스탭
“손바닥 크기에 AI 풀가속”… 에이수스, AMR 겨냥 초소형 엣지 컴퓨터 출격	뉴스탭
RTX 50 사면 ‘바이오하자드 레퀴엠’이 공짜…아이노비아 한정 프로모션	뉴스탭
“사랑 고백 뒤에 숨은 송금 요구”…밸런타인데이 노린 로맨스 스캠 경고 (1)	뉴스탭
“AM5 유저 주목”…애즈락, AGESA 1.3.0.0a 적용 베타 BIOS 전격 공개	뉴스탭
“정품 인증하면 경품까지”…인텔 코어 Ultra 빌드 자랑 프로모션 개시	뉴스탭
“월드컵 보러 갔다가 미국 일주?”…에어비앤비가 포착한 2026 여행 대이동	뉴스탭
“피스타치오 열풍 다시 분다”…메가MGC커피, 크런치 신메뉴로 설 연휴 공략	뉴스탭
“아시아 첫 선택은 한국”… 스웨덴 툴레 키즈, 패밀리 모빌리티 본격 상륙	뉴스탭
설 앞두고 한우 218% 급증…프리미엄·실속형 동반 강세에 소비 양극화 뚜렷	뉴스탭
“명절 설거지 공포 끝?” 58분 만에 끝내는 밀레 오토도스의 정체	뉴스탭
팀그룹 메모리 사면 ‘T-FORCE DELTA RGB’ 키링이 따라온다	뉴스탭
PNY RTX 50 사면 ‘바이오하자드 레퀴엠’이 공짜…STCOM, 한정 번들 프로모션	뉴스탭
XFX 라데온 RX 9070 사면 ‘붉은 사막’이 공짜…STCOM 한정 번들 시작	뉴스탭
설 연휴 앞두고 블랙박스 매출 2%↑…QHD·2채널·무료장착에 수요 몰렸다	뉴스탭
“설 선물, 홍삼 대신 ‘이것’?”…MZ가 선택한 간편 건강템 3종	뉴스탭
“딸기·초콜릿에 사랑을 담다”…발렌타인데이 ‘플레이버 메시지’ 마케팅 열전	뉴스탭
웹젠 뮤 온라인, ‘신비의 마스터리 이벤트’ 마련	게임동아
위메이드 '미르의 전설2' 2026년 로드맵 공개	게임동아
'아쿠아맨' 제이슨 모모아, 오는 11월 출시 예정인 헬다이버즈 영화에 출연한다	게임동아
블리자드 디아블로 30주년, 디아블로 시리즈에 업데이트 폭풍이 불어온다	게임동아
롤 '점멸' F와 D키 사용량 통계 공개, 의외로 D가 다수파	게임메카
펄어비스, 도깨비 출시 내후년으로 예상	게임메카
펄어비스, 2025년 영업손실 148억. 3월 붉은사막으로 반전 보인다	게임동아
넷마블 '킹 오브 파이터 AFK', ‘메탈 슬러그 3’ 컬래버 업데이트	게임동아
웹젠, 2025년 영업이익 297억 원...배당과 자사주 소각 등 주주 환원	게임동아
[순위분석] 클래식 불만 폭발, 기뻐하기엔 이른 리니지 (1)	게임메카
MSI, 지포스 RTX 50 시리즈 노트북 구매 시 '바이오하자드 레퀴엠' 게임 코드 증정	다나와
이엠텍, 지포스 그래픽카드 또는 PC 구매 시 '바이오하자드 레퀴엠' 번들 증정 (1)	다나와
NHN, ‘어비스디아’ 2월 내 출시… 日서 검증받은 서브컬처 콘텐츠 '투하'	게임동아
‘WWE 2K26’의 ‘2K 쇼케이스: 펑크드’ 상세 정보 공개	게임동아
‘아크 레이더스’ 신규 협동 PVE 이벤트 ‘공동 경계’ 업데이트	게임동아
드래곤 플라이트2, ‘무한의 성소’ 업데이트	게임동아
프라시아 전기, ‘광영의 전장: 셔플 렐름’ 업데이트	게임동아
PC, 콘솔 영역 넓히는 카카오게임즈, 핵심 타이틀 준비 상황은?	게임동아
엔씨(NC) ‘아이온2’, 신규 원정 ‘무의 요람’ 업데이트 ∙∙∙ 설날 이벤트 진행	게임동아

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

'의학 드라마'로 AI 진단 실력 측정했더니... 희귀질환 진단 정확도 38% 그쳐

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

'의학 드라마'로 AI 진단 실력 측정했더니... 희귀질환 진단 정확도 38% 그쳐

공유하기

공감/비공감