비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

'의학 드라마'로 AI 진단 실력 측정했더니... 희귀질환 진단 정확도 38% 그쳐

2025.11.19. 11:36:24
조회 수
76
1

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

펜실베이니아 주립대학교 연구팀이 발표한 논문에 따르면, 의학 드라마 '하우스(House M.D.)'를 활용해 대형 언어모델(LLM)의 희귀질환 진단 능력을 평가한 결과, 최신 AI 모델도 정확도가 40%에 미치지 못하는 것으로 나타났다. 이번 연구는 AI가 의료 현장에서 실제로 활용되기까지 아직 상당한 과제가 남아있음을 보여준다.

의학 드라마가 AI 평가 기준이 된 이유

연구팀은 176개의 증상-진단 쌍으로 구성된 새로운 데이터셋을 구축했다. 이 데이터는 의학 드라마 '하우스'의 전체 8개 시즌 176개 에피소드에서 추출한 것으로, 환자의 증상 설명과 최종 진단명을 짝지어 구성했다. '하우스'를 선택한 이유는 명확하다. 이 드라마는 의학 교육과정에 성공적으로 통합되어 희귀질환 인식을 가르치는 데 활용되고 있다. 또한, 보건의료 전공 학생의 49.6%가 정기적으로 의학 드라마를 시청하며, '하우스'가 가장 인기 있는 프로그램 중 하나로 나타났다. 이러한 프로그램들은 생명윤리 및 전문직 실무 문제를 효과적으로 가르치는 것으로 확인됐다.

'하우스'는 의학 교육에서 거의 다루지 않는 희귀질환을 자주 다룬다. 또한 드라마적 요소에도 불구하고 제작진은 의료 컨설턴트를 고용해 임상 정확성을 확보하며, 실제 진료를 반영하는 일관된 진단 프레임워크를 따른다. 실제 환자 데이터와 달리 '하우스' 콘텐츠는 공개적으로 접근 가능해 윤리적 제약 없이 재현 가능한 연구를 가능하게 한다.

GPT-4o 미니 16%, 제미나이 2.5 프로 38%...2.3배 성능 격차

연구팀은 GPT-4o 미니, GPT-5 미니, 제미나이 2.5 플래시, 제미나이 2.5 프로 등 4개의 최신 LLM을 평가했다. 이 선택은 다양한 모델 계열과 성능 수준을 포괄하여 여러 아키텍처와 학습 방법에 걸친 진단 추론을 평가할 수 있게 했다. 평가 방식은 각 모델에 환자의 인구통계 정보, 시간에 따른 증상 진행, 관련 병력, 초기 진단 검사 결과를 포함한 구조화된 의료 사례 형식의 프롬프트를 제공하고 단일 주요 진단을 요청하는 방식이었다. 모델은 결정론적 출력을 보장하기 위해 온도를 0.0으로 설정하고, 최대 토큰 길이는 1500으로 설정했다.

결과는 모델별로 큰 차이를 보였다. 가장 낮은 성능을 기록한 GPT-4o 미니는 176개 케이스 중 29개만 정확히 진단해 16.48%의 정확도를 보였다. 반면 최고 성능을 기록한 제미나이 2.5 프로는 68개를 맞춰 38.64%의 정확도를 달성했다. GPT-5 미니는 65개 정답으로 36.93%, 제미나이 2.5 플래시는 58개 정답으로 32.95%의 성적을 거뒀다. 최고 성능과 최저 성능 사이에는 2.3배의 차이가 발생했다.

성능은 모델뿐 아니라 시즌별로도 차이를 보였다. 제미나이 2.5 프로 기준으로 시즌 1에서는 23개 에피소드 중 13개를 맞춰 56.52%의 정확도를 보인 반면, 시즌 5에서는 24개 중 5개만 맞춰 20.83%로 가장 낮은 성적을 기록했다. 시즌 8은 21개 중 11개를 맞춰 52.38%의 정확도를 보였다. 연구팀은 이러한 변동이 시리즈 전반에 걸쳐 진단 복잡성이 다양하며, 후반 시즌이 더 어려운 희귀질환 사례를 다룰 가능성을 시사한다고 분석했다. 그러나 시즌 8의 비교적 강한 성능은 시간적 진행만으로는 정확도 차이를 완전히 설명할 수 없으며, 사례별 진단 복잡성이 주요 요인으로 보인다고 밝혔다.

흔한 질병은 잘 맞추지만 희귀질환과 다계통 질환엔 어려움

모든 모델은 뚜렷한 증상을 보이는 일반적인 질환에서 더 나은 성능을 보였다. 수막염, 심근경색, 폐색전증 등은 상대적으로 잘 진단했다. 반면 모든 모델은 신경낭미충증, 에르드하임-체스터병 같은 희귀질환에서 어려움을 겪었다. 전신홍반루푸스, 사르코이드증 같은 다계통 자가면역질환도 진단이 어려웠다. 또한 노출 이력과 임상 증상을 통합해야 하는 독성학적 사례에서도 낮은 성능을 보였다.

연구팀은 모델 간 성능 격차가 아키텍처 차이와 학습 방식이 진단 추론 능력에 상당한 영향을 미친다는 것을 보여준다고 설명했다. GPT-5 미니와 제미나이 2.5 프로의 우수한 성능은 향상된 추론 능력을 갖춘 신세대 모델이 이전 버전 대비 의미 있는 개선을 보이지만, 여전히 상당한 한계가 남아있음을 나타낸다.

"40% 정확도, 낮아 보이지만 의미 있는 진전"

연구팀은 GPT-4o 미니의 16.48%에서 제미나이 2.5 프로의 38.64%로 향상된 결과가 임상적으로 유용한 AI 진단 시스템을 향한 의미 있는 진전을 보여준다고 강조했다. 절대 정확도 수준은 개선의 여지가 있지만, 결과를 맥락화하는 것이 중요하다고 설명했다.

연구팀은 "이번 벤치마크는 전문 의사들조차 어려워하는 진단적으로 도전적인 사례만을 다루며, 일반적인 의료 AI 벤치마크보다 상당히 어려운 평가 과제"라고 밝혔다. 이처럼 예외적으로 어려운 사례의 거의 40%를 정확히 진단할 수 있다는 것은 의미 있는 의료 추론 능력을 보여주며, 향후 도메인 특화 파인튜닝, 의학 지식베이스와의 통합, 하이브리드 추론 접근법을 통한 개선을 위한 견고한 기반을 구축한다고 평가했다.

연구팀은 또한 한계점도 명확히 했다. 허구적 서사에서 비롯된 잠재적 편향, 전문 의료 검증 부족, 오류의 임상적 중요성을 포착하지 못하는 이진 정확도 지표 등이 있다. 특히 모델들이 확신에 찬 잘못된 설명을 자주 제공했으며, 이는 전문 훈련과 검증 없이 임상 배치할 경우 우려를 제기한다고 밝혔다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. AI가 의사를 대체할 수 있나요?

A: 아직은 어렵습니다. 이번 연구에서 최고 성능의 AI도 희귀질환 진단 정확도가 38.64%에 그쳤습니다. AI는 의사의 진단을 보조하는 도구로 활용하는 것이 현실적이며, 특히 복잡한 희귀질환이나 다계통 질환의 경우 전문의의 판단이 필수적입니다.

Q2. 왜 의학 드라마로 AI를 평가했나요?

A: 의학 드라마 '하우스'는 실제 의학교육 현장에서 희귀질환 교육 자료로 활용되며, 의료 전문가의 검증을 받은 콘텐츠입니다. 실제 환자 데이터는 개인정보 보호 문제로 활용이 어려운 반면, 드라마는 공개적으로 접근 가능하면서도 임상적으로 의미 있는 사례를 제공합니다.

Q3. AI가 잘 진단하는 질병과 어려워하는 질병은 무엇인가요?

A: 수막염, 심근경색, 폐색전증처럼 뚜렷한 증상을 보이는 일반적인 질환은 비교적 잘 진단합니다. 반면 신경낭미충증 같은 희귀질환, 전신홍반루푸스 같은 다계통 자가면역질환, 독성물질 노출 사례 등에서는 모든 AI 모델이 어려움을 겪었습니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: Evaluating Large Language Models on Rare Disease Diagnosis: A Case Study using House M.D

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
4/1
다나와, 호환 소모품 탐색부터 최저가 구매까지 '소모품 다나와' 오픈 다나와
이스트게임즈 '카발RED', 캐릭터명 선점 및 사전 다운로드 시작 게임동아
AI가 수능 문제 풀었더니… GPT-5.1, 433점으로 1등 AI matters
코리아보드게임즈, 오는 25일 더현대에서 팝업 스토어 연다! 게임동아
"AI가 CCTV 속 폭력 포착"... 제미나이가 ‘주먹 드는 순간’ 95% 정확도로 잡는다 AI matters
"글로벌 흥행 청신호?" 조이시티, 초강세 주가 상승 기록 게임동아
무협 진심 통했다. 넷이즈 '연운', 출시 하루만에 글로벌 누적 이용자 200만 돌파 게임동아
33 원정대, 스텔라 블레이드, 사펑 2077 할인! 에픽게임즈도 블랙 프라이데이 할인 나섰다 게임동아
카카오게임즈 ‘오딘', 구글플레이 2025 '올해를 빛낸 PC게임' 수상 게임동아
글로벌로 나가는 ‘레드포스 PC방’, 베트남에서 아시아 1호점 시공 돌입 게임동아
"챗GPT도 속았다"... AI에게 '답 없는 질문'하자 60% 이상 틀려 AI matters
'의학 드라마'로 AI 진단 실력 측정했더니... 희귀질환 진단 정확도 38% 그쳐 AI matters
[11월 18일 AI 뉴스 브리핑] WSC Sports, 2025 스포츠산업 컨퍼런스서 AI 기반 팬 경험 혁신 제시 외 AI matters
샤롯데씨어터, 뮤지컬에 'AI 자막 안경' 도입... 언어 장벽 해소한다 AI matters
AI 설득 실험, 챗GPT는 유연한 반면 제미나이는 상당한 고집불통 AI matters
구글 딥마인드 "AI도 사람처럼 소송 걸 수 있다"...중세 해양법 법에서 찾은 해법 AI matters
AI 과학자 '코스모스', 6개월 연구를 하루 만에 완료 AI matters
[11월 17일 AI 뉴스 브리핑] 플래티어, 3분기 매출 전년비 17% 성장 외 AI matters
구글 AI 연구소 사이트, 1년 만에 트래픽 3986% 폭증 AI matters
세노비스, 학대 피해 아동에 마음안녕키트 전달… 임직원이 직접 만들었다 뉴스탭
이 시간 HOT 댓글!
1/4