NYU 연구진 "병원들이 돈 주고 쓰는 의료 전문 AI, 챗GPT보다 못하다" : 다나와 DPG는 내맘을 디피지

의료 전문 AI가 일반인도 쓰는 챗GPT보다 성능이 떨어진다는 연구 결과가 나왔다. 뉴욕대학교 연구진이 의사들이 실제로 쓰는 유료 의료 AI와 GPT-5, 제미나이 같은 일반 AI를 비교했더니, 일반 AI가 의학 지식이나 실제 진료 상황 판단 모두에서 더 뛰어났다. 의료계에서는 "전문 AI가 더 안전하다"고 말해왔는데, 이번 연구는 그 주장에 의문을 제기한다.

미국 의사 40%가 쓰는 오픈에비던스, 주장과 달리 성적 낮아

해당 논문에 따르면, 뉴욕대학교 병원 신경외과 연구팀은 의사들이 많이 쓰는 두 가지 의료 전문 AI인 오픈에비던스와 업투데이트 전문가 AI를 일반 AI들과 비교했다. 비교 대상은 GPT-5, 제미나이 3 프로, 클로드 소네트 4.5였다. 오픈에비던스는 미국 의사 40%가 쓰고 있고 기업 가치가 35억 달러(약 5조 원)에 달한다. 업투데이트 전문가 AI는 미국 주요 병원 70%가 도입했다.

연구진은 1,000개 의료 질문으로 테스트를 진행했다. 500개는 미국 의사면허시험(USMLE) 스타일의 문제로 의학 지식을 평가하고, 나머지 500개는 실제 진료 상황에서 전문 의사의 판단과 얼마나 일치하는지 확인하는 문제였다. 평가 결과, 의료 전문 AI의 광고 문구와 실제 실력 사이에 큰 차이가 있었다. 특히 오픈에비던스는 자사 발표에서 미국 의사면허시험 스타일 문제에서 완벽한 100% 정확도를 달성했다고 주장했지만, 이번 독립적인 테스트에서는 그보다 훨씬 낮은 결과를 보였다.

GPT-5, 의사 시험 문제 96.2% 정확도로 1위... 의료 전문 AI는 89%

의학 지식 평가에서 GPT-5는 96.2%의 정확도로 가장 높은 성적을 냈다. 제미나이 3 프로가 94.6%로 2위, 클로드 소네트 4.5는 91.4%였다. 반면 의료 전문 AI인 오픈에비던스는 89.6%, 업투데이트 전문가 AI는 88.4%에 그쳤다. GPT-5는 제미나이를 빼고는 다른 모든 AI를 통계적으로 유의미하게 앞섰다. 특히 두 의료 전문 AI와 비교하면 격차가 컸다.

일반 AI 3개의 평균 정확도는 94.1%였지만, 의료 전문 AI 2개의 평균은 89.0%로 약 5%포인트 낮았다. 특히 의학 지식과 과학 주제 문제에서 오픈에비던스, 업투데이트 전문가 AI, 클로드 소네트 4.5가 다른 AI들보다 낮은 성능을 보였다. 이는 의료 전문 AI가 기본적인 의학 지식 문제조차 일반 AI를 따라잡지 못하고 있음을 보여준다.

실제 진료 판단력 평가에서 일반 AI가 의료 전문 AI보다 약 1.2배 우수

실제 병원에서 일하는 전문 의사처럼 판단하는지 평가하는 테스트에서는 차이가 더 벌어졌다. GPT-5가 97.0%로 압도적 1위를 했고, 제미나이는 90.5%, 클로드 소네트은 87.7%였다. 반면 업투데이트 전문가 AI는 75.2%, 오픈에비던스는 74.3%였다. GPT-5는 다른 모든 AI를 통계적으로 유의미하게 앞섰고, 오픈에비던스는 업투데이트를 제외한 모든 AI보다 뒤처졌다.

일반 AI 그룹의 평균 점수는 91.7%였지만, 의료 전문 AI 그룹은 74.8%로 약 17%포인트 차이가 났다. 일반 AI가 의료 전문 AI보다 약 1.2배 높은 점수를 받았다. 세부 평가 항목을 보면 의료 전문 AI의 약점이 더 확실히 드러난다. 정확한지, 정보가 충분한지, 설명을 잘하는지, 상황을 잘 파악하는지, 지시를 잘 따르는지 등 5가지를 평가했는데, GPT-5는 모든 항목에서 최고 점수를 받았다.

반면 오픈에비던스는 5개 항목 모두에서 다른 세 일반 AI보다 낮은 점수를 받았고, 업투데이트는 5개 중 2개 항목에서 모든 일반 AI보다 점수가 낮았다. 특히 정보의 완전성, 의사소통 품질, 맥락 인식 능력에서 일반 AI가 의료 전문 AI를 크게 앞섰다.

응급 상황 판단과 환자 안전에서 의료 전문 AI 취약점 드러나

연구진은 테스트 문제를 7가지 주제로 나눠 추가로 분석했다. 응급 상황에서 전문의에게 의뢰해야 하는지 판단하기, 맥락 파악하기, 글로벌 보건, 건강 데이터 다루기, 전문가답게 설명하기, 불확실할 때 대응하기, 깊이 있게 답하기 등이다. GPT-5는 7가지 주제 모두에서 1위이거나 공동 1위를 했고, 4개 주제에서는 만점을 받았다. 반면 오픈에비던스와 업투데이트 전문가 AI는 7가지 주제 전부에서 최하위이거나 공동 최하위였다.

특히 걱정되는 부분은 응급 상황 의뢰 판단에서 일반 AI와 의료 전문 AI 사이에 통계적으로 유의미한 차이가 나타났다는 점이다. 또한 시스템 기반 실무 역량 분류, 특히 환자 안전 관련 문제에서 의료 전문 AI들이 유의미하게 낮은 성능을 보였다. 이는 의료 전문 AI가 정작 병원에서 중요한 응급 상황 판단이나 환자 안전과 관련된 시스템적 사고에서 약점을 가지고 있음을 의미한다.

연구진은 의료 전문 AI의 성능이 낮은 이유를 분석했다. 오픈에비던스와 업투데이트 전문가 AI는 검색 증강 생성 방식에 크게 의존하는데, 이 방식은 잘못된 자료를 검색하거나 기본 모델이 정보를 제대로 통합하지 못하면 오히려 성능을 해칠 수 있다고 지적했다. 반면 GPT-5 같은 최신 범용 모델은 방대한 학습 데이터와 더 발전된 정렬 기술 덕분에 의학 지식 검색과 추론 작업에서 탁월한 성능을 발휘한다.

연구진은 생성형 AI 모델이 일상적인 의사결정에 통합되면서, 광고된 주장과 실제 성능 사이의 불일치가 피할 수 있는 임상 위험을 초래한다고 지적했다. 의료 시스템은 문서 작성 지원, 가이드라인 검색, 환자 분류, 외래 진료 등에서 AI 기반 도구를 점점 더 많이 배치하고 있다. 이런 환경에서는 작은 신뢰도 결함도 환자 결과에 의미 있는 영향을 미칠 수 있다. 특히 오늘날 많은 AI 사용이 의료진과 환자가 개인 기기에서 이러한 모델을 실험하는 상향식으로 나타나고 있어, 공식적인 기관 도입 훨씬 전에 이미 널리 사용되고 있다고 설명했다.

FAQ ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. 의료 전문 AI가 일반 AI보다 성능이 낮은 이유는 무엇인가요?

A. 의료 전문 AI는 필요한 정보를 검색해서 가져오는 방식을 주로 사용하는데, 잘못된 자료를 검색하거나 정보를 제대로 통합하지 못하면 오히려 성능이 나빠질 수 있습니다. 반면 GPT-5 같은 최신 범용 AI는 훨씬 더 방대한 데이터로 학습했고 더 발전된 훈련 방법을 사용해서 의학 지식 검색과 추론 작업에서 뛰어난 성능을 보입니다.

Q2. 이번 연구에서 어떻게 평가했나요?

A. 연구진은 1,000개 의료 질문으로 테스트했습니다. 500개는 미국 의사면허시험 스타일 문제로 의학 지식을 평가했고, 나머지 500개는 실제 진료 상황에서 전문 의사의 판단과 얼마나 일치하는지 확인했습니다. 정확성, 완전성, 의사소통 품질, 맥락 인식, 지시 준수 등 5가지 기준으로 평가했습니다.

Q3. 의료 AI를 사용할 때 주의할 점은 무엇인가요?

A. 마케팅 주장만 믿지 말고 독립적인 평가 결과를 확인해야 합니다. 특히 환자 안전과 관련된 응급 상황 판단이나 시스템 기반 안전성 추론에서 의료 전문 AI가 약점을 보인다는 이번 연구 결과를 주목해야 합니다. AI를 진단이나 치료 결정에 활용하기 전에 반드시 실제 임상 시험을 통한 검증이 필요합니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: Generalist Large Language Models Outperform Clinical Tools on Medical Benchmarks

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

‘마음속 말’까지 읽는다…뇌 활동을 문장으로 바꾸는 AI ‘BIT’ 등장	다나와
뉴욕타임스·시카고트리뷴, AI 검색엔진 퍼플렉시티에 소송… ‘무단 수집·재가공’ 논란 확산	다나와
위기의 애플...'애플의 핵심 실리콘 설계자까지 떠날 결심'	다나와
크리스티아누 호날두, 퍼플렉시티에 투자	다나와
고교 중퇴자, AI 독학으로 OpenAI 연구자 되다…AI가 제시한 ‘역방향 학습’의 길	다나와
구글, 초고급 추론 모드 ‘제미나이3 딥 씽크’ 출시…AI Ultra 구독자 대상 제공	다나와
NYU 연구진 "병원들이 돈 주고 쓰는 의료 전문 AI, 챗GPT보다 못하다"	AI matters
AI 에이전트 개발자 96%, 도구 하나로는 부족..."여러 개 섞어 쓰는 게 대세"	AI matters
[12월 3일 AI 뉴스 브리핑] AMD, HPE와 협력해 개방형 AI 인프라 구축 가속화 외	AI matters
자녀가 쓰는 AI 캐릭터 앱, 안전할까?... 인기 16개 플랫폼 안전성 '빨간불'	AI matters
세일즈포스가 말하는 실패하지 않는 산업별 AI 에이전트 도입 전략	AI matters
"3년 뒤면 AI가 내 동료?" 기업 82%가 도입 예정인 AI 직원, 당신이 알아야 할 5가지	AI matters
'운동선수? 근육질의 남자가 제격!' AI도 성별과 인종에 대한 편견 있다 (5)	다나와
‘의사’ 역할 맡은 AI, 97%가 자신이 AI인 걸 숨긴다... 금융 상담 땐 정반대	AI matters
AI가 쓴 인도 이야기 10편 중 9편이 '가짜 문화'... 음식·의상·축제 모두 틀렸다	AI matters
AI뉴스 ZImage, Flux 2, 클로드 오퍼스 4.5, 오픈AI 광고, 쇼핑, DeepSeekMathV2, Fara7B, HunyuanOCR 등 동영상 있음	조코딩 JoCoding
"정확도 90%?" 도박 중독 막는다던 AI, 실제로는 제대로 작동하는지 아무도 몰라	AI matters
AI가 쓴 시가 시인이 쓴 시보다 높은 점수... 'AI 작품'이라 알려주니 평가 급락	AI matters
LLM의 고질병 ‘첫 단어 집착증’ 개선... 알리바바, '뉴립스' 최고 논문상 수상	AI matters
네이버웍스 ‘AI 스튜디오’ 출시…직장인 보고·검색·정리 업무도 AI로 자동화한다	다나와
'AI 콘텐츠는 걸러서 보여 드려요' 인터넷을 챗GPT 이전으로 되돌리는 '슬롭 이베이더' (3)	다나와
국민 47%만 정부 AI 신뢰... 공공서비스 혁신엔 '경험 중심 설계' 필수 (2)	AI matters
AI 정신병으로 입원·사망까지… 사례 분석한 연구진들 "공통 패턴 찾았다" (1)	AI matters
"AI로 쇼핑하니 반품이 줄었다"… 어도비가 말하는 5가지 AI 트렌드 (1)	AI matters
'탈모도 AI로 해결한다' 탈모시장의 정보 비대칭을 해결하고픈 MyHair AI’ (4)	다나와
"눈으로 보고, 글로 계산"… AI 추론 능력 끌어올리는 해법 찾았다 (1)	AI matters
"여기 어디야?" 사진 한 장에 위치 맞추는 AI 등장… 간판, 건물 모양, 표지판 분석해 장소 찾는다 (3)	AI matters
건설 현장 사망사고 20%가 '추락'… AI가 안전모 미착용까지 잡아낸다 (2)	AI matters
'즐거운 쇼핑은 내가, 지루한 업무는 AI가'… 일본인들의 생성형 AU 사용 실태 조사 보니	다나와
퍼플렉시티, '이용자 중심'의 대화형 쇼핑 어시스턴트 기능 공개	다나와
AI에 "넌 가난한 학생이야" 역할 줬더니… 취향 물을 땐 역할 충실, 시험 보면 본색 드러내	AI matters
"역대 대통령 순서대로 나열해봐"... AI에게 시켜봤더니 생긴 일	AI matters
AI한테 마피아 게임 시켰더니… 최신 AI 12개 전부 거짓말쟁이 못 찾아	AI matters
AI가 '희망'이라는 감정을 이해할까? AI 희망 감지 대결서 구형 AI 모델이 압승	AI matters
AI가 준 조언, 심각한 문제에도 62%가 실천했지만... 2주 후 효과는 '제로'	AI matters
중소기업 직장인이 가장 위험하다… AI 시대, 한국 직무 교육 참여율 OECD 꼴찌	AI matters
[위클리AI] 퍼플렉시티, 코멧 안드로이드 버전 출시…챗GPT 쇼핑 기능 도입 (5)	IT동아
AI뉴스 구글 나노바나나 Pro, Gemini 3, 그록 4.1, GPT‑5.1CodexMax, Meta SAM 3D, AI TOP 100, Sunday Robotics 등 (2) 동영상 있음	조코딩 JoCoding
'굿바이, GPT-4o' OpenAI, GPT-4o API 접속 2026년 2월 종료 발표	다나와
MS AI 수장 “AI가 시시하다고? 그게 더 놀랍다”...윈도우·코파일럿 논란 속 반발에 공개 반박	다나와
이제 챗GPT가 고른 식당만 성공한다? 100곳 중 17곳만 추천받는 AI 시대 마케팅 전략 (1)	AI matters
AI는 답 모르면 무조건 "아니요"… 서울대 연구진, 챗GPT의 숨겨진 습관 발견	AI matters
챗GPT에 1,000번 물어봐도 비슷한 답변뿐... 베이징대 연구진이 해결책 찾았다	AI matters
한국 AI 스타트업, 개인정보보호법 규제로 혁신 난항… 데이터 활용 간극 여전	다나와
중국, ‘AI 플러스’ 전략으로 산업과 일상 전면 재편 추진	다나와
인간형 로봇 경쟁 본격화… 기술 진전 속 노동시장과 경제 구조 변화 우려 (2)	다나와
북한, AI 활용한 기상예측 시스템 구축… 자연재해 대응력 강화 노려	다나와
AWS, 문제 풀 때마다 학습하는 AI 개발... 경험 쌓을수록 저렴하고 정확해 (1)	AI matters
AI가 교수보다 더 깐깐해… AI한테 채점 맡겼더니, 학생 10명 중 4명 점수 떨어져 (5)	AI matters
"이전 답변 틀렸다" 한마디에 무너지는 AI... 같은 질문도 ‘대화 형식’으로 하면 답 달라져	AI matters
'불수능'이었다는 2026학년도 수능시험, 최신 AI들에게 풀게 한다면?	다나와
'최고의 아첨꾼AI' Grok, “엘론 머스크는 오타니를 제외하면 가장 뛰어나”	다나와
"AI가 버블이라고?ㅋㅋ" 엔비디아, 3분기 실적 '어닝 서프라이즈'...뉴욕증시 급등세로 마감 (2)	다나와
오픈AI, 장시간 코딩에 특화된 ‘GPT-5.1-Codex-Max’ 모델 공개 (2)	다나와
AI로 곰 출몰 위험 한눈에…日 조치대, 19개 지역 ‘곰 조우 예측 지도’ 공개	다나와
AI에 코딩 도구 주면 정답률 19%↑…풀이 과정은 41% 더 형편없어져	AI matters
챗GPT에게 "어느 나라가 더 나쁜가?" 물었더니... AI도 국가 차별한다 (6)	AI matters
긴 문서 속 숨은 해킹 명령어, 이제 AI가 스스로 찾아 차단한다	AI matters
디노티시아, SC25서 VDPU 기반 FPGA로 'AI 반도체' 성능 알린다	IT동아
AI 여러 개 쓰면 답 정확해진다더니... 토큰비용 5배에 정답률은 제자리	AI matters
챗GPT가 원전을 부른다… 데이터센터 전력 수요 폭증에 기업들 원전에 '올인'	AI matters
구글 CEO, “AI 맹신 금물”… 급격한 확산 속 과열 우려 제기	다나와
윈도우 11, AI 비서 기능 강화되지만… 새 악성코드 위협도 동반 (1)	다나와
폭스뉴스, 팔란티어와 손잡고 AI 기반 뉴스룸 구축… “미래 뉴스 절반은 AI가 만든다” 전망도 (1)	다나와
인도, AI 확산 영향으로 초보 개발자 일자리 최대 25퍼센트 감소	다나와
"AI가 CCTV 속 폭력 포착"... 제미나이가 ‘주먹 드는 순간’ 95% 정확도로 잡는다	AI matters
"챗GPT도 속았다"... AI에게 '답 없는 질문'하자 60% 이상 틀려	AI matters
'의학 드라마'로 AI 진단 실력 측정했더니... 희귀질환 진단 정확도 38% 그쳐	AI matters
AI 설득 실험, 챗GPT는 유연한 반면 제미나이는 상당한 고집불통	AI matters
구글 딥마인드 "AI도 사람처럼 소송 걸 수 있다"...중세 해양법 법에서 찾은 해법	AI matters
AI 과학자 '코스모스', 6개월 연구를 하루 만에 완료	AI matters
구글, AI 여행 도구 전면 확장…‘플라이트 딜스’ 글로벌 출시와 개인화 예약 기능 강화 (2)	다나와
마이크로소프트, 대기 예측용 AI ‘오로라’ 공개…극한 기상 대응 능력 높인다	다나와
AI 데이터센터 폭증 속 재생에너지 활용 가능성 주목… 지속가능성 논의 본격화 (1)	다나와
고어 버빈스키 감독, “생성형 AI가 영화 제작을 잠식 중”… 창작자 역할 약화 우려	다나와
미국서 성인·노년층 대상 AI 교육 프로그램 출범… 디지털 격차 완화 시도 본격화	다나와
중국, 2025 컴퓨팅 글로벌 컨퍼런스 개최… AI 생태계 중심 전략 부각	다나와
인도 기술 노동시장, AI 확산 속 구조 전환… 엔트리 직군 수요 20퍼센트 이상 감소	다나와
구글 딥마인드, 가상 3D 환경에서 협업·추론·학습하는 AI 에이전트 ‘SIMA 2’ 공개	다나와
유방암 치료와 연구에 AI 도입 가속… 디지털 헬스케어 혁신 본격화	다나와
챗GPT, 그룹 채팅 기능 시범 도입…함께 계획하고 결정하는 ‘공동 작업 공간’ 열린다	다나와
'쇼핑, 말로 합시다' 구글, AI 기반 ‘스마트 쇼핑’ 대규모 업그레이드 공개	다나와
한국, 국방 AI 고도화 필요성 제기… “더 빠르고 스마트한 시스템이 국가안보 핵심”	다나와
비자, AI 기반 커머스 확산 속 안전장치 필요성 강조… 아태 지역 중심으로 가드레일 구축 나서	다나와
Qualigen Therapeutics, AI와 Web3 중심의 AIxCrypto Holdings로 사명 변경… 사업 방향 대전환 선언	다나와
오라클 채권 매도 압력 확대… AI 투자 확대가 재무 리스크 우려로 번져	다나와
생성형 AI 사용자는 늘지만 클릭은 정체... 제로 클릭 시대 본격화	AI matters
"영업사원 절반이 사라진다"... AI가 바꾸는 세일즈의 미래 (6)	AI matters
"AI가 해킹 작업 80~90% 수행"… 앤트로픽, '최초 AI 자율 사이버 공격' 적발	AI matters
생성형 AI에 대한 사회적 인식 확대… 언론 신뢰와 윤리 논의도 가속	다나와
아마존, 운영 혁신 위한 에이전트형 AI와 로봇 기술 공개… 내부 프로세스 자동화 본격화	다나와
기업의 AI 스케일 확산, 여전히 느린 속도… 실제 적용은 4분의 1 수준	다나와
Moonshot AI, Kimi K2 Thinking 공개… GPT5 능가 주장으로 경쟁 구도 흔들다	다나와
Baidu, ERNIE 5.0 공개… GPT5와 Gemini 2.5 Pro 능가 주장	다나와
데이터 사일로가 AI 도입의 최대 걸림돌로 부상	다나와
인간 들어있냐는 평가 받던 로봇 샤오펑 아이언, 내부 기계 몸체 공개/ 25년 11월 2주차 / [주간 AI 뉴스] (1) 동영상 있음	AI matters
“SEO는 죽지 않았다” 시밀러웹이 말하는 구글 AI 모드 최적화 전략 10가지	AI matters
AI 도구 쓰는 마케터 82% "생산성 올랐다"… 2026 소셜 미디어 마케팅 지형도 (1)	AI matters
AI가 실험 없이 만든 가짜 논문, AI 심사위원에게 보여주자 최대 82% 통과 (4)	AI matters
작곡가도, 가수도 AI인 컨트리곡, 빌보드 컨트리 차트 정상 등극 (7)	다나와

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

NYU 연구진 "병원들이 돈 주고 쓰는 의료 전문 AI, 챗GPT보다 못하다"

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

NYU 연구진 "병원들이 돈 주고 쓰는 의료 전문 AI, 챗GPT보다 못하다"

공유하기

공감/비공감