NYU 연구진 "병원들이 돈 주고 쓰는 의료 전문 AI, 챗GPT보다 못하다" : 다나와 DPG는 내맘을 디피지

의료 전문 AI가 일반인도 쓰는 챗GPT보다 성능이 떨어진다는 연구 결과가 나왔다. 뉴욕대학교 연구진이 의사들이 실제로 쓰는 유료 의료 AI와 GPT-5, 제미나이 같은 일반 AI를 비교했더니, 일반 AI가 의학 지식이나 실제 진료 상황 판단 모두에서 더 뛰어났다. 의료계에서는 "전문 AI가 더 안전하다"고 말해왔는데, 이번 연구는 그 주장에 의문을 제기한다.

미국 의사 40%가 쓰는 오픈에비던스, 주장과 달리 성적 낮아

해당 논문에 따르면, 뉴욕대학교 병원 신경외과 연구팀은 의사들이 많이 쓰는 두 가지 의료 전문 AI인 오픈에비던스와 업투데이트 전문가 AI를 일반 AI들과 비교했다. 비교 대상은 GPT-5, 제미나이 3 프로, 클로드 소네트 4.5였다. 오픈에비던스는 미국 의사 40%가 쓰고 있고 기업 가치가 35억 달러(약 5조 원)에 달한다. 업투데이트 전문가 AI는 미국 주요 병원 70%가 도입했다.

연구진은 1,000개 의료 질문으로 테스트를 진행했다. 500개는 미국 의사면허시험(USMLE) 스타일의 문제로 의학 지식을 평가하고, 나머지 500개는 실제 진료 상황에서 전문 의사의 판단과 얼마나 일치하는지 확인하는 문제였다. 평가 결과, 의료 전문 AI의 광고 문구와 실제 실력 사이에 큰 차이가 있었다. 특히 오픈에비던스는 자사 발표에서 미국 의사면허시험 스타일 문제에서 완벽한 100% 정확도를 달성했다고 주장했지만, 이번 독립적인 테스트에서는 그보다 훨씬 낮은 결과를 보였다.

GPT-5, 의사 시험 문제 96.2% 정확도로 1위... 의료 전문 AI는 89%

의학 지식 평가에서 GPT-5는 96.2%의 정확도로 가장 높은 성적을 냈다. 제미나이 3 프로가 94.6%로 2위, 클로드 소네트 4.5는 91.4%였다. 반면 의료 전문 AI인 오픈에비던스는 89.6%, 업투데이트 전문가 AI는 88.4%에 그쳤다. GPT-5는 제미나이를 빼고는 다른 모든 AI를 통계적으로 유의미하게 앞섰다. 특히 두 의료 전문 AI와 비교하면 격차가 컸다.

일반 AI 3개의 평균 정확도는 94.1%였지만, 의료 전문 AI 2개의 평균은 89.0%로 약 5%포인트 낮았다. 특히 의학 지식과 과학 주제 문제에서 오픈에비던스, 업투데이트 전문가 AI, 클로드 소네트 4.5가 다른 AI들보다 낮은 성능을 보였다. 이는 의료 전문 AI가 기본적인 의학 지식 문제조차 일반 AI를 따라잡지 못하고 있음을 보여준다.

실제 진료 판단력 평가에서 일반 AI가 의료 전문 AI보다 약 1.2배 우수

실제 병원에서 일하는 전문 의사처럼 판단하는지 평가하는 테스트에서는 차이가 더 벌어졌다. GPT-5가 97.0%로 압도적 1위를 했고, 제미나이는 90.5%, 클로드 소네트은 87.7%였다. 반면 업투데이트 전문가 AI는 75.2%, 오픈에비던스는 74.3%였다. GPT-5는 다른 모든 AI를 통계적으로 유의미하게 앞섰고, 오픈에비던스는 업투데이트를 제외한 모든 AI보다 뒤처졌다.

일반 AI 그룹의 평균 점수는 91.7%였지만, 의료 전문 AI 그룹은 74.8%로 약 17%포인트 차이가 났다. 일반 AI가 의료 전문 AI보다 약 1.2배 높은 점수를 받았다. 세부 평가 항목을 보면 의료 전문 AI의 약점이 더 확실히 드러난다. 정확한지, 정보가 충분한지, 설명을 잘하는지, 상황을 잘 파악하는지, 지시를 잘 따르는지 등 5가지를 평가했는데, GPT-5는 모든 항목에서 최고 점수를 받았다.

반면 오픈에비던스는 5개 항목 모두에서 다른 세 일반 AI보다 낮은 점수를 받았고, 업투데이트는 5개 중 2개 항목에서 모든 일반 AI보다 점수가 낮았다. 특히 정보의 완전성, 의사소통 품질, 맥락 인식 능력에서 일반 AI가 의료 전문 AI를 크게 앞섰다.

응급 상황 판단과 환자 안전에서 의료 전문 AI 취약점 드러나

연구진은 테스트 문제를 7가지 주제로 나눠 추가로 분석했다. 응급 상황에서 전문의에게 의뢰해야 하는지 판단하기, 맥락 파악하기, 글로벌 보건, 건강 데이터 다루기, 전문가답게 설명하기, 불확실할 때 대응하기, 깊이 있게 답하기 등이다. GPT-5는 7가지 주제 모두에서 1위이거나 공동 1위를 했고, 4개 주제에서는 만점을 받았다. 반면 오픈에비던스와 업투데이트 전문가 AI는 7가지 주제 전부에서 최하위이거나 공동 최하위였다.

특히 걱정되는 부분은 응급 상황 의뢰 판단에서 일반 AI와 의료 전문 AI 사이에 통계적으로 유의미한 차이가 나타났다는 점이다. 또한 시스템 기반 실무 역량 분류, 특히 환자 안전 관련 문제에서 의료 전문 AI들이 유의미하게 낮은 성능을 보였다. 이는 의료 전문 AI가 정작 병원에서 중요한 응급 상황 판단이나 환자 안전과 관련된 시스템적 사고에서 약점을 가지고 있음을 의미한다.

연구진은 의료 전문 AI의 성능이 낮은 이유를 분석했다. 오픈에비던스와 업투데이트 전문가 AI는 검색 증강 생성 방식에 크게 의존하는데, 이 방식은 잘못된 자료를 검색하거나 기본 모델이 정보를 제대로 통합하지 못하면 오히려 성능을 해칠 수 있다고 지적했다. 반면 GPT-5 같은 최신 범용 모델은 방대한 학습 데이터와 더 발전된 정렬 기술 덕분에 의학 지식 검색과 추론 작업에서 탁월한 성능을 발휘한다.

연구진은 생성형 AI 모델이 일상적인 의사결정에 통합되면서, 광고된 주장과 실제 성능 사이의 불일치가 피할 수 있는 임상 위험을 초래한다고 지적했다. 의료 시스템은 문서 작성 지원, 가이드라인 검색, 환자 분류, 외래 진료 등에서 AI 기반 도구를 점점 더 많이 배치하고 있다. 이런 환경에서는 작은 신뢰도 결함도 환자 결과에 의미 있는 영향을 미칠 수 있다. 특히 오늘날 많은 AI 사용이 의료진과 환자가 개인 기기에서 이러한 모델을 실험하는 상향식으로 나타나고 있어, 공식적인 기관 도입 훨씬 전에 이미 널리 사용되고 있다고 설명했다.

FAQ ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. 의료 전문 AI가 일반 AI보다 성능이 낮은 이유는 무엇인가요?

A. 의료 전문 AI는 필요한 정보를 검색해서 가져오는 방식을 주로 사용하는데, 잘못된 자료를 검색하거나 정보를 제대로 통합하지 못하면 오히려 성능이 나빠질 수 있습니다. 반면 GPT-5 같은 최신 범용 AI는 훨씬 더 방대한 데이터로 학습했고 더 발전된 훈련 방법을 사용해서 의학 지식 검색과 추론 작업에서 뛰어난 성능을 보입니다.

Q2. 이번 연구에서 어떻게 평가했나요?

A. 연구진은 1,000개 의료 질문으로 테스트했습니다. 500개는 미국 의사면허시험 스타일 문제로 의학 지식을 평가했고, 나머지 500개는 실제 진료 상황에서 전문 의사의 판단과 얼마나 일치하는지 확인했습니다. 정확성, 완전성, 의사소통 품질, 맥락 인식, 지시 준수 등 5가지 기준으로 평가했습니다.

Q3. 의료 AI를 사용할 때 주의할 점은 무엇인가요?

A. 마케팅 주장만 믿지 말고 독립적인 평가 결과를 확인해야 합니다. 특히 환자 안전과 관련된 응급 상황 판단이나 시스템 기반 안전성 추론에서 의료 전문 AI가 약점을 보인다는 이번 연구 결과를 주목해야 합니다. AI를 진단이나 치료 결정에 활용하기 전에 반드시 실제 임상 시험을 통한 검증이 필요합니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: Generalist Large Language Models Outperform Clinical Tools on Medical Benchmarks

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

대원씨티에스, ASRock 라데온 그래픽카드 구매 고객 대상 ‘포토리뷰’ 이벤트	다나와
서린씨앤아이 'KLEVV DDR5 RGB' 메모리 탑재 조립PC 구매 시 마우스 증정	다나와
MSI코리아 'Roamii BE Lite' 고객 대상 프로모션 진행	다나와
마이크로닉스, 그레이트월과 AI·서버 전원 솔루션 협력 MOU 체결	다나와
조텍코리아, 설 명절 맞아 VIP 등급별 감사 선물 이벤트 진행	다나와
MSI, 게이밍기어 구매 고객 대상 2월 이벤트 진행	다나와
EFM네트웍스, 인텔 쿼드코어 CPU 및 NVMe탑재 4베이 NAS ‘ipTIME NAS400plus’ 출시 이벤트	다나와
AMD, 지능형 고성능 시스템을 위한 2세대 킨텍스 울트라스케일+ 발표	다나와
서린씨앤아이, 유통 제품으로 구성된 조립PC 고객에 사은품 증정	다나와
이해찬 회고록, 예스24 2월 1주 종합 베스트셀러 1위…중장년 독자층 중심 ‘역주행’	뉴스탭
KLEVV DDR5 RGB 조립PC 사면 게이밍 마우스 증정…서린씨앤아이 2월 프로모션	뉴스탭
크래프톤, ‘PUBG: 블라인드스팟’ 얼리 액세스 글로벌 오픈…무료 플레이로 첫선	뉴스탭
펄어비스 ‘붉은사막’, 전투와 성장의 정수 공개…두 번째 프리뷰 영상 화제 (1)	뉴스탭
후지필름 코리아, 파티클서 이슬로 개인전 개최…‘캐릭터’로 감정의 구조를 묻다	뉴스탭
홍콩반점0410, 2월 10일 하루 짜장면 3,900원…‘국민응원 캠페인’ 진행	뉴스탭
시들지 않는 고백…레고, 성수에서 발렌타인데이 팝업 연다	뉴스탭
봄맞이 PC 업그레이드 기회…서린씨앤아이, HYTE X50 구매 시 쿨링팬 4팩 증정	뉴스탭
삼성전자, ‘찾아가는 바로 서비스’ 운영…주거지 인근서 점검·수리·상담 원스톱 제공	뉴스탭
홈카페 수요 확산에 쿠쿠 끓인물 정수기·커피머신 판매 증가세	뉴스탭
UAE 소버린 블록체인 실증에 한국 기업 합류…H2O, 디르함 스테이블코인 결제 맡는다	뉴스탭
크록스, 10년 만의 새 글로벌 메시지 공개… ‘유쾌하게 나답게’ 선언	뉴스탭
코딩 넘어 ‘일하는 AI’로… OpenAI, GPT-5.3-코덱스 전격 공개	뉴스탭
세계 최고 티 마스터를 향한 도전…공차코리아, 2026 공차 게임즈 한국 대표 확정	뉴스탭
공효진과 만난 드파운드, 봄을 입다…2026 스프링 컬렉션 공개	뉴스탭
밸런타인데이 술 공식이 바뀌었다…로제·하이볼·콤부차주가 뜬다	뉴스탭
새해 건강 트렌드에 러닝화 매출 ‘껑충’…고어텍스·레이싱화가 이끌었다	뉴스탭
영화 속 사랑을 하룻밤으로…에어비앤비, ‘폭풍의 언덕’ 캐시의 침실 공개	뉴스탭
부부 수면도 분리 시대, 트윈·모션 침대가 뜬다	뉴스탭
영하권 한파에 난방가전 ‘불티’, 신일전자 겨울가전 매출 179% 급증	뉴스탭
K팝 세계관이 레고 브릭으로…넷플릭스 ‘케이팝 데몬 헌터스’ 협업	뉴스탭
에어프랑스, 프랑스 전역 기차로 연결된다…‘트레인+에어’ 대폭 확대	뉴스탭
RTX 5090은 망고, RTX 5080은 황남빵…조텍 VIP 이벤트 진행	뉴스탭
AMD, 중급형 FPGA 성능 판 다시 쓴다… 2세대 킨텍스 울트라스케일+ 공개	뉴스탭
일상부터 장거리 여행까지, 파타고니아 ‘리퓨지오 데이팩’ 강화 라인업 공개	뉴스탭
디월트, 코리아빌드위크 참가…현장 맞춤 솔루션과 체험형 전시로 존재감 확대	뉴스탭
설 선물로 건강기능식품 인기…구매 전 꼭 확인해야 할 4가지	뉴스탭
안성재 셰프가 완성한 ‘쾌락적 미식’, 푸라닭 ‘마요피뇨’ 공개	뉴스탭
설 명절 주방의 공식, 작을수록 손해다…대용량 가전이 뜬다 (1)	뉴스탭
배틀그라운드 40.1 업데이트, 에란겔 맵 원형 복귀와 전투 편의성 강화	뉴스탭
벤틀리, 680마력 하이브리드 ‘컨티넨탈 GT·GTC S’ 공개…퍼포먼스 라인업 확장	뉴스탭
지포스 RTX 50 구매 후기 남기면 굿즈 증정…조텍코리아, 2월 이벤트 진행	뉴스탭
설날에 5만원 미니 PC 찬스…조텍코리아 ZBOX 래플 이벤트 진행	뉴스탭
드론 예술의 정점, 스카이픽셀 공모전에 전 세계 4만5천 작품 몰렸다	뉴스탭
AI 서버 전원 시장 공략…마이크로닉스·그레이트월 전략적 동맹	뉴스탭
서린씨앤아이, 새 학기 맞아 ‘UPGRADE YOUR LIFE’ 조립PC 구매 프로모션 진행	뉴스탭
신학기 PC·노트북 고민 끝, MSI G마켓 라이브 한정 혜택 공개	뉴스탭
에이수스, 대원씨티에스와 손잡고 ROG·TUF 게이밍 기어 국내 유통 확대	뉴스탭
씰리침대, 하이엔드 매트리스 ‘크라운쥬얼’ 전국 주요 매장으로 판매 확대	뉴스탭
폭스바겐, 테슬라 꺾고 유럽 전기차 판매 1위 탈환 (1)	글로벌오토뉴스
제프 베이조스가 선택한 '슬레이트 오토', 2만 달러대 조립식 전기 픽업 내년 양산	글로벌오토뉴스
메르세데스-AMG, 4기통 버리고 6기통·V8 귀환… 브랜드 전략 전면 수정 (2)	글로벌오토뉴스
BMW M 드라이빙 익스피리언스, 'AREA M'으로 새 단장	글로벌오토뉴스
포드, 3,000만 원대 '가성비' 전기 픽업 공개… 중국 공세에 맞불	글로벌오토뉴스
현대자동차, 유럽시장에 '아이오닉 3' 필두로 신차 5종 투입	글로벌오토뉴스
아우디, '홀수 내연기관·짝수 전기차' 명명법 폐기… 다시 A4 이름 되찾나	글로벌오토뉴스
아우디·벤츠 도입한 '어댑티브 브레이크' 7월부터 신차 의무화	글로벌오토뉴스
자연스러운 조작감, 빠른 차보다 편한 차가 필요한 시대	글로벌오토뉴스
볼보 S90 T8, ‘2026 대한민국 올해의 차’ 하이브리드 세단 부문 수상	글로벌오토뉴스
AI 코딩 에이전트의 치명적 DB 실수 막는다... 슈퍼베이스 가이드 공개	AI matters
"AI가 코드 짜고 오류 고친다"… 애플, 개발 도구에 클로드·코덱스 탑재	AI matters
AI 발전시킨다던 오라클, 정작 데이터센터 설립 자금 마련하려 3만 명 해고 추진 (1)	AI matters
[공수전환] '달라지는 소형 SUV 선택 기준' 셀토스 vs 트레일블레이저	오토헤럴드
[EV 트렌드] 테슬라, 한국·유럽 동반 부진…한국 54%, 영국 57% 급감	오토헤럴드
기아, 영국 신차 시장 No.2 '스포티지' 베스트셀링카 탑 모델 등극	오토헤럴드
신문ㆍTV 광고는 헛 돈, 신차 살 때 '유튜브ㆍOTT' 영향력 3배 높아 (1)	오토헤럴드
한국타이어, 美 고난도 오프로드 레이스 ‘킹 오브 더 해머스 2026’ 참여	오토헤럴드
'해치백은 잊어라' 현대차, 차세대 바이욘에서 소형 SUV 정체성 강화	오토헤럴드
현대차그룹, 美 3대 유력 매체 간택 받아 연속 수상...팰리세이드 2관왕	오토헤럴드
폭스바겐 아틀라스, 자동차전문기자협회 선정 '올해의 내연기관 SUV’ 수상	오토헤럴드
롤스로이스, 최초 순수 전기차 '스펙터' 라인업에서 확고한 존재감 구축	오토헤럴드
'스텔란티스 문제 제기' 유럽 공략 가속하던 BYD, 이탈리아 광고 규제에 발목	오토헤럴드
[EV 트렌드] '전기차 대신 로봇' 패러데이 퓨처, 최대 5100만 원 라인업 3종 공개	오토헤럴드
현대차 전기차 라인업의 가장 작은 조각 '아이오닉 3'	오토헤럴드
외국인 국내 운전면허증 취득 부정행위 차단, 운전면허 학과시험 관리 강화	오토헤럴드
[영상] BYD 돌핀 국내형 상세 스펙 & 국산 경쟁모델 비교 총정리	글로벌오토뉴스
포드-지리, 유럽서 적과의 동침 가속화… 관세 장벽 넘고 자율주행 기술 결합	글로벌오토뉴스
현대모비스, 유럽 3사와 쿼드 얼라이언스 결성… 2029년 홀로그램 글래스 양산	글로벌오토뉴스
토요타 bZ, 미국 시장서 현대 아이오닉 5 제치고 급부상	글로벌오토뉴스
테슬라, 영국과 유럽 시장서 판매 급락… 중국 BYD는 무서운 추격세	글로벌오토뉴스
BMW, 노이어 클라쎄 i3 프리시리즈 생산 돌입… 1회 충전 800km 시대 연다	글로벌오토뉴스
중국 S볼트, 화재·전기 완전 분리한 드래곤 아머 3.0 배터리 공개 (1)	글로벌오토뉴스
토요타, 2028년 하이브리드 전기차 30% 많은 670만 대 생산 계획	글로벌오토뉴스
독일, 2025년 전기차 생산 122만 대 돌파… 중국 이어 세계 2위	글로벌오토뉴스
폴스타, 테슬라 슈퍼차저 통합 완료… 유럽 전역 100만 개 충전 거점 확보	글로벌오토뉴스
오토노머스에이투지, 일본 도쿠시마현서 자율주행 택시 실증 착수	글로벌오토뉴스
BMW 코리아, 2월 온라인 한정 ‘베스트셀러 에디션’ 3종 출시	글로벌오토뉴스
롤스로이스 스펙터, 10만km 주행 후에도 배터리 성능 99% 유지	글로벌오토뉴스
폭스바겐 아틀라스, ‘2026 대한민국 올해의 내연기관 SUV’ 수상	글로벌오토뉴스
르노코리아 필랑트, 한국자동차기자협회 선정 ‘2월의 차’ 등극	글로벌오토뉴스
한국자동차모빌리티안전학회, UNECE WP.29 AI 전문가 회의 참여	글로벌오토뉴스
아우디 코리아, ‘2025 아우디 딜러 어워즈’ 개최… 태안모터스 대상 영예	글로벌오토뉴스
현대차그룹, 美 주요 자동차 어워즈 싹쓸이… 글로벌 시장 경쟁력 입증	글로벌오토뉴스
한국타이어, 美 극한 오프로드 ‘킹 오브 더 해머스’ 출격	글로벌오토뉴스
애스턴마틴-브라이틀링, 공식 시계 파트너십 체결	글로벌오토뉴스
BYD 공식 딜러 DT네트웍스, 스타필드서 ‘전 라인업’ 시승 행사 개최	글로벌오토뉴스
[컨슈머인사이트] 자동차 살 때 정보 어디서? ‘넷플릭스·유튜브’가 ‘신문·TV’ 압도	글로벌오토뉴스
대원씨티에스, ASRock X870 · B850 메인보드 고객 대상 ‘포토리뷰’ 이벤트	다나와
MSI코리아 'Roamii BE Lite' 후기 이벤트 진행	다나와
조텍코리아, RTX 50 시리즈 구매자 대상 굿즈 증정 2월 구매 후기 이벤트	다나와
벤큐, 새학기 맞이 모니터 / 마우스 고객 대상 ‘포토후기 이벤트’ 진행	다나와

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

NYU 연구진 "병원들이 돈 주고 쓰는 의료 전문 AI, 챗GPT보다 못하다"

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

NYU 연구진 "병원들이 돈 주고 쓰는 의료 전문 AI, 챗GPT보다 못하다"

공유하기

공감/비공감