NYU 연구진 "병원들이 돈 주고 쓰는 의료 전문 AI, 챗GPT보다 못하다" : 다나와 DPG는 내맘을 디피지

의료 전문 AI가 일반인도 쓰는 챗GPT보다 성능이 떨어진다는 연구 결과가 나왔다. 뉴욕대학교 연구진이 의사들이 실제로 쓰는 유료 의료 AI와 GPT-5, 제미나이 같은 일반 AI를 비교했더니, 일반 AI가 의학 지식이나 실제 진료 상황 판단 모두에서 더 뛰어났다. 의료계에서는 "전문 AI가 더 안전하다"고 말해왔는데, 이번 연구는 그 주장에 의문을 제기한다.

미국 의사 40%가 쓰는 오픈에비던스, 주장과 달리 성적 낮아

해당 논문에 따르면, 뉴욕대학교 병원 신경외과 연구팀은 의사들이 많이 쓰는 두 가지 의료 전문 AI인 오픈에비던스와 업투데이트 전문가 AI를 일반 AI들과 비교했다. 비교 대상은 GPT-5, 제미나이 3 프로, 클로드 소네트 4.5였다. 오픈에비던스는 미국 의사 40%가 쓰고 있고 기업 가치가 35억 달러(약 5조 원)에 달한다. 업투데이트 전문가 AI는 미국 주요 병원 70%가 도입했다.

연구진은 1,000개 의료 질문으로 테스트를 진행했다. 500개는 미국 의사면허시험(USMLE) 스타일의 문제로 의학 지식을 평가하고, 나머지 500개는 실제 진료 상황에서 전문 의사의 판단과 얼마나 일치하는지 확인하는 문제였다. 평가 결과, 의료 전문 AI의 광고 문구와 실제 실력 사이에 큰 차이가 있었다. 특히 오픈에비던스는 자사 발표에서 미국 의사면허시험 스타일 문제에서 완벽한 100% 정확도를 달성했다고 주장했지만, 이번 독립적인 테스트에서는 그보다 훨씬 낮은 결과를 보였다.

GPT-5, 의사 시험 문제 96.2% 정확도로 1위... 의료 전문 AI는 89%

의학 지식 평가에서 GPT-5는 96.2%의 정확도로 가장 높은 성적을 냈다. 제미나이 3 프로가 94.6%로 2위, 클로드 소네트 4.5는 91.4%였다. 반면 의료 전문 AI인 오픈에비던스는 89.6%, 업투데이트 전문가 AI는 88.4%에 그쳤다. GPT-5는 제미나이를 빼고는 다른 모든 AI를 통계적으로 유의미하게 앞섰다. 특히 두 의료 전문 AI와 비교하면 격차가 컸다.

일반 AI 3개의 평균 정확도는 94.1%였지만, 의료 전문 AI 2개의 평균은 89.0%로 약 5%포인트 낮았다. 특히 의학 지식과 과학 주제 문제에서 오픈에비던스, 업투데이트 전문가 AI, 클로드 소네트 4.5가 다른 AI들보다 낮은 성능을 보였다. 이는 의료 전문 AI가 기본적인 의학 지식 문제조차 일반 AI를 따라잡지 못하고 있음을 보여준다.

실제 진료 판단력 평가에서 일반 AI가 의료 전문 AI보다 약 1.2배 우수

실제 병원에서 일하는 전문 의사처럼 판단하는지 평가하는 테스트에서는 차이가 더 벌어졌다. GPT-5가 97.0%로 압도적 1위를 했고, 제미나이는 90.5%, 클로드 소네트은 87.7%였다. 반면 업투데이트 전문가 AI는 75.2%, 오픈에비던스는 74.3%였다. GPT-5는 다른 모든 AI를 통계적으로 유의미하게 앞섰고, 오픈에비던스는 업투데이트를 제외한 모든 AI보다 뒤처졌다.

일반 AI 그룹의 평균 점수는 91.7%였지만, 의료 전문 AI 그룹은 74.8%로 약 17%포인트 차이가 났다. 일반 AI가 의료 전문 AI보다 약 1.2배 높은 점수를 받았다. 세부 평가 항목을 보면 의료 전문 AI의 약점이 더 확실히 드러난다. 정확한지, 정보가 충분한지, 설명을 잘하는지, 상황을 잘 파악하는지, 지시를 잘 따르는지 등 5가지를 평가했는데, GPT-5는 모든 항목에서 최고 점수를 받았다.

반면 오픈에비던스는 5개 항목 모두에서 다른 세 일반 AI보다 낮은 점수를 받았고, 업투데이트는 5개 중 2개 항목에서 모든 일반 AI보다 점수가 낮았다. 특히 정보의 완전성, 의사소통 품질, 맥락 인식 능력에서 일반 AI가 의료 전문 AI를 크게 앞섰다.

응급 상황 판단과 환자 안전에서 의료 전문 AI 취약점 드러나

연구진은 테스트 문제를 7가지 주제로 나눠 추가로 분석했다. 응급 상황에서 전문의에게 의뢰해야 하는지 판단하기, 맥락 파악하기, 글로벌 보건, 건강 데이터 다루기, 전문가답게 설명하기, 불확실할 때 대응하기, 깊이 있게 답하기 등이다. GPT-5는 7가지 주제 모두에서 1위이거나 공동 1위를 했고, 4개 주제에서는 만점을 받았다. 반면 오픈에비던스와 업투데이트 전문가 AI는 7가지 주제 전부에서 최하위이거나 공동 최하위였다.

특히 걱정되는 부분은 응급 상황 의뢰 판단에서 일반 AI와 의료 전문 AI 사이에 통계적으로 유의미한 차이가 나타났다는 점이다. 또한 시스템 기반 실무 역량 분류, 특히 환자 안전 관련 문제에서 의료 전문 AI들이 유의미하게 낮은 성능을 보였다. 이는 의료 전문 AI가 정작 병원에서 중요한 응급 상황 판단이나 환자 안전과 관련된 시스템적 사고에서 약점을 가지고 있음을 의미한다.

연구진은 의료 전문 AI의 성능이 낮은 이유를 분석했다. 오픈에비던스와 업투데이트 전문가 AI는 검색 증강 생성 방식에 크게 의존하는데, 이 방식은 잘못된 자료를 검색하거나 기본 모델이 정보를 제대로 통합하지 못하면 오히려 성능을 해칠 수 있다고 지적했다. 반면 GPT-5 같은 최신 범용 모델은 방대한 학습 데이터와 더 발전된 정렬 기술 덕분에 의학 지식 검색과 추론 작업에서 탁월한 성능을 발휘한다.

연구진은 생성형 AI 모델이 일상적인 의사결정에 통합되면서, 광고된 주장과 실제 성능 사이의 불일치가 피할 수 있는 임상 위험을 초래한다고 지적했다. 의료 시스템은 문서 작성 지원, 가이드라인 검색, 환자 분류, 외래 진료 등에서 AI 기반 도구를 점점 더 많이 배치하고 있다. 이런 환경에서는 작은 신뢰도 결함도 환자 결과에 의미 있는 영향을 미칠 수 있다. 특히 오늘날 많은 AI 사용이 의료진과 환자가 개인 기기에서 이러한 모델을 실험하는 상향식으로 나타나고 있어, 공식적인 기관 도입 훨씬 전에 이미 널리 사용되고 있다고 설명했다.

FAQ ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. 의료 전문 AI가 일반 AI보다 성능이 낮은 이유는 무엇인가요?

A. 의료 전문 AI는 필요한 정보를 검색해서 가져오는 방식을 주로 사용하는데, 잘못된 자료를 검색하거나 정보를 제대로 통합하지 못하면 오히려 성능이 나빠질 수 있습니다. 반면 GPT-5 같은 최신 범용 AI는 훨씬 더 방대한 데이터로 학습했고 더 발전된 훈련 방법을 사용해서 의학 지식 검색과 추론 작업에서 뛰어난 성능을 보입니다.

Q2. 이번 연구에서 어떻게 평가했나요?

A. 연구진은 1,000개 의료 질문으로 테스트했습니다. 500개는 미국 의사면허시험 스타일 문제로 의학 지식을 평가했고, 나머지 500개는 실제 진료 상황에서 전문 의사의 판단과 얼마나 일치하는지 확인했습니다. 정확성, 완전성, 의사소통 품질, 맥락 인식, 지시 준수 등 5가지 기준으로 평가했습니다.

Q3. 의료 AI를 사용할 때 주의할 점은 무엇인가요?

A. 마케팅 주장만 믿지 말고 독립적인 평가 결과를 확인해야 합니다. 특히 환자 안전과 관련된 응급 상황 판단이나 시스템 기반 안전성 추론에서 의료 전문 AI가 약점을 보인다는 이번 연구 결과를 주목해야 합니다. AI를 진단이나 치료 결정에 활용하기 전에 반드시 실제 임상 시험을 통한 검증이 필요합니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: Generalist Large Language Models Outperform Clinical Tools on Medical Benchmarks

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

자유게시판	도로는 괜찮은데 골목길은 빙판길... 안전운전 하세요.	M9 검은바다
자유게시판	바람 불어서 추운 날씨에 금요일이네요. (1)	M3 관성
자유게시판	어젠 병원으로~ 오늘의 .... (2)	L20 까망여우
자유게시판	추위가 이어집니다. (3)	L20 벗꽃엔딩
체험단	사무용 끝판왕 멤브레인 키보드~! 몬스타 가츠 X198 노브 보글보글 (어반 스틸)	L7 IT인벤Skywalkers
소비자사용기	XFX 라데온 RX 9060 XT SWIFT DUAL OC D6 16GB 후기	L1 1분에100타
체험단	가성비 그래픽카드 ASRock 라데온 RX 9060 XT 스틸레전드 OC 8GB 대원씨티에스 리뷰	L7 엠스토리
취미 상품포럼	메기솔 델타 요즘 왜 이렇게	L4 고슴도치2402
자유게시판	골떄리는 그녀 한일전 <남자 편> (2)	M9 무한제리사랑
자유게시판	얼어붙는 겨울 추위, 교통안전 유의하세요, (2)	M9 천사다나와
자유게시판	12월 4일 박스오피스 (2)	M4 하늘을담은와인
취미 상품포럼	3인칭 액션 게임 "서펀츠 게이즈" - 공개 트레일러	L10 휘룽
자유게시판	살벌했던 50, 60년대 초중고생 (2)	L20 야거커티스
체험단	앱코 신상 공랭쿨러 ‘타이폰 DT120X6’ 드디어 써봤습니다 TDP270W의 가성비 듀얼타워	L8 똘망똘
자유게시판	동네 할머니 차로 모셔다 드렸더니 그 아들이 한 말 (2)	L20 야거커티스
푸드 상품포럼	퍽퍽하고 아쉬운 하림 `오!늘 단백 밀코초코 제주말차 바` (3)	M20 야간순찰™
자유게시판	하루종일 추웠던것같습니다 (2)	M1 아피홀릭
체험단	FPS 유저에게 추천하는 외장 DAC, 사운드 블라스터 G8	L7 테크츄
유머게시판	광화문 전광판에 뜬 초대형 산타클로스 ㄷㄷ (2)	L7 공동유머구역
소비자사용기	MSI MAG CoreLiquid I360 후기	L1 족제비9129
체험단	집 와이파이 성능 업그레이드 Netis MEX601 가성비 유무선공유기	L7 회색빛고을
유머게시판	탈북녀가 알려주는 북한의 뽕브라 현실 (1)	L20 야거커티스
유머게시판	코시국 시절 대학 비대면 강의 (2)	L20 야거커티스
유머게시판	이 구역 맛집을 소개합니다 (2)	L20 야거커티스
유머게시판	엄마 돈을 훔친 아이의 최후 (2)	L20 야거커티스
유머게시판	사고 현장 보존하는 방법 실화 (2)	L20 야거커티스
유머게시판	의심이 많은 여자친구 (2)	L20 야거커티스
유머게시판	아내의 결혼전 선언을 오해한 남편 (1)	L20 야거커티스
유머게시판	얼굴 긴 사람을 위한 헤어스타일	L20 야거커티스
유머게시판	농구시합 중 상대농락을 선택한 미국형 (1)	L20 야거커티스
유머게시판	F1드라이버가 운전면허시험 떨어진 이유 및 그 외 재밌는 썰들 (1)	L20 야거커티스
댕냥이게시판	집사에게 발톱 수납법을 알려주는 냥냥이 (2)	L20 야거커티스
댕냥이게시판	냥아치와 댕댕이 (2)	L20 야거커티스
댕냥이게시판	냥냥이 약 먹이기 (2)	L20 야거커티스
댕냥이게시판	어디서 본건 있는 골댕이 (3)	L20 야거커티스
자유게시판	편의점 꿀조합 불닭어묵탕면 (5)	L20 야거커티스
자유게시판	하고 싶은거 다하고 사는 옥동자 근황 (7)	L20 야거커티스
자유게시판	어제보다 덜춥네요 (4)	L14 웅끼끼
당첨후기	고맙습니다 쿨러 마스터 이야호! (3)	L14 웅끼끼
댕냥이게시판	과학수사 (4)	M4 행운사냥
댕냥이게시판	주인이 휴대폰만 해서 심심한 댕댕이 (4)	M4 행운사냥
취미 상품포럼	신작 방치형 RPG ‘천만여신: 가장 치명적인 AFK’ 플레이 후기	L4 NAT7F29XZOPCVM
체험단	다크플래쉬 DY460 ARGB BTF 미들타워 어항 PC케이스 추천	L8 IT리뷰창고
자유게시판	안전운전하세요 (10)	L15 otosan
입소문쇼핑	플리스 자켓 빅사이즈 20,000원 배송비 3,000원	L6 NAPMKMCURUTXO0
자유게시판	눈 많이 오네요 (8)	L17 HomeRun
컴퓨터 상품포럼	ㅂ	L1 참새6668
컴퓨터 상품포럼	ㅂ	L1 참새6668
컴퓨터 상품포럼	ㅂ	L1 참새6668
일반뉴스	[12월 4일 AI 뉴스 브리핑] 트레져러, AI 투자분석 '알파렌즈'로 ‘AI x 소프트웨이브 2025’ 참가 외	AI matters
일반뉴스	NYU 연구진 "병원들이 돈 주고 쓰는 의료 전문 AI, 챗GPT보다 못하다"	AI matters
일반뉴스	AI 에이전트 개발자 96%, 도구 하나로는 부족..."여러 개 섞어 쓰는 게 대세"	AI matters
체험단	기가 와이파이 공유기 netis MEX601 사용하기 쉬운 인터넷 공유기	L7 홍is
Q&A게시판	컴터 사용중 재부팅이 됩니다. (2)	L1 거위5561
일반뉴스	챗GPT가 거짓말하면 스스로 자백하게 만든다... 오픈AI, ‘고백’ 시스템 공개	AI matters
일반뉴스	챗GPT, 한국 사용자 2천만 돌파… 한국인 AI 앱 사용 순위 Top 10 공개	AI matters
일반뉴스	AWS, 클릭 몇 번으로 맞춤형 AI 모델 만든다... 신규 기능 대거 발표	AI matters
입소문쇼핑	[네이버] HP 가성비 끝판왕 사무용 인강용 Ai 완벽 노트북 [55만원대]	L6 초코칩수박
입소문쇼핑	[네이버] ASUS 노트북 라이젠5 가성비 사무용 포토샵 대학생 직장인 인강용 (55만혜택가)	L6 초코칩수박
입소문쇼핑	[네이버] 레노버 노트북 윈도우11홈 포함 아이디어패드5 라이젠 R7 (131만혜택가)	L6 초코칩수박
자유게시판	눈이 내리네요 (6)	L13 까부수자
자유게시판	눈이 오네요 (6)	L19 화월운
입소문쇼핑	[네이버] MSI 라이젠5 노트북 고성능 업무용 학생용 인강용 휴대용 (39만혜택가)	L6 초코칩수박
ㄷㅂㄷ	철가방요리사 짜장면 리뷰	맛상무
ㄷㅂㄷ	디자인은 진짜 역대급 미쳤다! 프레데터 26 엘리트 FT AG 언박싱	Allthatboots TV
일반뉴스	페그오, AGF서 내년 업데이트 발표하고 소통 이어간다	게임메카
전문가 리뷰	포트리스3 블루, 추억의 포격 슈팅을 PC와 폰으로 즐긴다	게임메카
신상품뉴스	[오늘의 스팀] 신캐 재밌지만 허전, 엘밤통 DLC ‘복합적’	게임메카
일반뉴스	국내 첫 개최 '아크 월드 투어 파이널' 상세 정보 공개	게임메카
입소문쇼핑	동네전파사 X 하이퍼주스 12월 해외여행 필수 멀티 충전기 쿠팡 1만원 할인 이벤트	L6 블루죤
자유게시판	기분좋은소식 ?? (14)	M9 무한제리사랑
일반뉴스	바쇽 켄 레빈 신작 '주다스', 역동적 변화하는 스토리 강조 (1)	게임메카
기획뉴스	[순정남] 남자로 알았는데 여자였던 게임 캐릭터 TOP 5 (1)	게임메카
일반뉴스	PS5 일본·아시아 시상식, ‘몬헌 와일즈’ 최다 수상 (1)	게임메카
일반뉴스	총 48개 팀 참여, 발로란트 챔피언스 투어 로드맵 공개	게임메카
입소문쇼핑	[네이버] 2025년 LG그램 노트북 AI AMD 크라켄5 노트북 [114만원대]	L6 초코칩수박
입소문쇼핑	[네이버] ASUS 노트북 비보북15 사무용 포토샵 대학생 직장인 인강용 [49만원대]	L6 초코칩수박
ㄷㅂㄷ	AI 수요가 늘면 왜 DDR5 값이 오를까? [메모리 가격 폭등 1부]	보드나라
입소문쇼핑	[네이버] HP노트북 네로 라이젠5 사무용 포토샵 대학생 [43만원대 혜택가]	L6 초코칩수박
입소문쇼핑	[네이버] 레노버 노트북 아이디어패드 라이젠5-8640HS Ai 램8GB NVME256GB (혜택가 55만원대)	L6 초코칩수박
자유게시판	서울은 첫눈이 내리고 있네요. (8)	M9 검은바다
ㄷㅂㄷ	유리 과일 자르기 영상 어떻게 만드냐고?? 3분컷 (ft.파이어플라이)	THE EDIT
소비자사용기	뽁뽁이 2롤 컴퓨터 본체 던져도 안 깨질까? 직접 실햄해 봤습니다. (2)	L1 GCAFEON
입소문쇼핑	[네이버] HP빅터스 게이밍 RTX4060 FC온라인 디아블로 배틀그라운드 노트북(110만혜택가)	L6 초코칩수박
자유게시판	달보고 소원비세요 (6)	L9 블러디와인
입소문쇼핑	[네이버] LG노트북 인텔 i5 가성비 대학생 노트북 (59만혜택가)	L6 초코칩수박
일반뉴스	현대차그룹, 교육 사각지대 해소 '대학생 교육봉사단 H-점프스쿨' 12기 수료식	오토헤럴드
일반뉴스	현대차그룹, ‘월드 하이드로젠 엑스포 2025’ 참가...글로벌 수소 생태계 확장	오토헤럴드
일반뉴스	미국 트럼프, CAFE 연비 규제 대폭 완화... 자동차 산업 전기차 전환에 제동	글로벌오토뉴스
일반뉴스	현대차그룹, ‘H-점프스쿨’ 12기 수료식 개최	글로벌오토뉴스
일반뉴스	한국자동차환경협회·글로벌경영지원협력협회 MOU 체결	글로벌오토뉴스
일반뉴스	WHE 2025 개막… 국내 최대 규모의 글로벌 수소 비즈니스 플랫폼 출범	글로벌오토뉴스
일반뉴스	기아, 화성 오토랜드에 50MW급 태양광 구축	글로벌오토뉴스
일반뉴스	다시 게이머들의 성지로. 연이은 게임 행사 개최로 주목받는 킨텍스	게임동아
일반뉴스	“니케 홍련과 온천욕을?” 게임사들이 선보이는 힐링되는 ASMR!	게임동아
일반뉴스	AGF 2025 NHN 부스, ‘어비스디아’, ‘최애의 아이 퍼즐 스타’ 부스 콘텐츠로 이용자 마음 공략한다	게임동아
일반뉴스	[프리뷰] 사전 예약 7일만에 50만 명 돌파, '포트리스3 블루' 어떻게 나오길래	게임동아
일반뉴스	“겨울 느낌 가득”... ‘승리의 여신: 니케’, 신규 SSR 니케 2종 등 대규모 업데이트 단행!	게임동아
일반뉴스	라이엇 게임즈, 2026 발로란트 챔피언스 투어 변경점 발표	게임동아
일반뉴스	“룬테라 세계관 기반” 라이엇 게임즈 TFT, 올해 마지막 신규 세트 ‘신화와 전설’ 출시	게임동아

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

NYU 연구진 "병원들이 돈 주고 쓰는 의료 전문 AI, 챗GPT보다 못하다"

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

NYU 연구진 "병원들이 돈 주고 쓰는 의료 전문 AI, 챗GPT보다 못하다"

공유하기

공감/비공감