챗GPT5, 유방암 검사 도전했더니... 분석 능력 의사 절반 수준에 그쳐 : 다나와 DPG는 내맘을 디피지

최신 AI 챗봇인 ChatGPT-5가 유방암 검사 사진을 분석하는 능력을 테스트한 결과, 이전 버전보다는 나아졌지만 여전히 의사를 대신하기에는 실력이 부족하다는 연구 결과가 나왔다. 미국 에모리대학교 의과대학 연구팀이 진행한 이 연구는 GPT-5가 의료 영상 전용 훈련 없이도 유방암 검사 이미지를 얼마나 잘 분석할 수 있는지 살펴본 첫 번째 종합적인 평가다.

연구진은 총 4개의 공개된 유방암 검사 데이터(EMBED, InBreast, CMMD, CBIS-DDSM)를 사용해 GPT-5가 유방암 위험도 평가, 이상한 부분 찾기, 암인지 아닌지 구분하기를 얼마나 잘하는지 확인했다. 결과적으로 GPT-5는 이전 버전들을 일관되게 앞섰으나, 실제 의사나 의료 전문 AI보다는 상당한 차이를 보였다. CBIS-DDSM 데이터에서 의사와 비교했을 때, 암을 제대로 찾아내는 능력에서 GPT-5는 63.5%로 의사의 86.9%보다 23.4% 낮았고, 정상을 정상으로 판단하는 능력에서는 52.3%로 의사의 88.9%보다 36.6% 낮은 성능을 기록했다.

EMBED 데이터에서 종양 찾기 64.5% 정확도, 전문 AI보다는 한참 부족

EMBED라는 유방암 검사 데이터를 가지고 테스트한 결과, GPT-5는 ChatGPT 시리즈 중에서는 가장 좋은 성과를 거뒀다. 유방 조직 밀도 구분에서 56.8%, 구조 변형 찾기에서 52.5%, 혹 분류에서 64.5%, 석회화 찾기에서 63.5%, 암 여부 판단에서 52.8%의 정확도를 보였다. 이는 GPT-5의 작은 버전들이나 이전 버전인 GPT-4보다 모두 나은 결과다.

그러나 유방암 검사만을 위해 특별히 만들어진 AI와 비교하면 아직 많이 부족했다. 유방암 전문 AI인 Mammo-CLIP은 암 판별에서 82.3%의 정확도를 보여 GPT-5보다 거의 30%나 높은 성능을 기록했다. 이는 모든 것을 다 할 수 있다고 하는 범용 AI가 의료 분야 같은 전문 영역에서는 아직 전문 AI를 이기기 어렵다는 것을 보여준다.

의사와 직접 비교하니 암 찾기 63.5%, 의사는 86.9%로 큰 차이

CBIS-DDSM이라는 유방암 검사 데이터를 통해 실제 의사와 GPT-5를 직접 비교해 본 결과, GPT-5의 한계가 더욱 명확하게 드러났다. 암을 제대로 찾아내는 능력에서 의사들은 86.9%의 정확도를 보인 반면, GPT-5는 63.5%에 그쳤다. 또한 정상을 정상으로 제대로 판단하는 능력에서도 의사는 88.9%였지만 GPT-5는 52.3%로 훨씬 떨어졌다.

더 작은 버전의 GPT 모델들은 성능이 더욱 걱정스러운 수준이었다. GPT-5-mini와 GPT-5-nano는 암 찾기에서 50% 이상 떨어지는 성능을 보였고, 정상 판단에서도 26% 가까이 의사보다 못했다. 이런 결과는 현재의 범용 AI가 의료 분야 전용 훈련 없이는 의사 수준의 정확도를 내기 어렵다는 점을 보여준다.

GPT-5가 자주 틀리는 패턴, 조직 촘촘한 유방을 덜 촘촘하다고 잘못 판단

연구진은 GPT-5가 어떤 실수를 자주 하는지 알아보기 위해 대표적인 사례들을 자세히 살펴봤다. 유방 조직 밀도를 판단할 때 GPT-5는 매우 촘촘한 유방(D등급)을 덜 촘촘한 유방(C등급)으로 계속 잘못 판단했다. 이는 AI가 조직이 매우 촘촘한 유방에서 실제보다 밀도를 낮게 평가하는 경향이 있다는 뜻이다.

암 여부를 판단할 때는 실제로는 암이 아닌 양성 변화를 암이라고 잘못 진단하는 과진단 문제를 보였다. 구조가 비틀어져 보이거나 혹의 경계가 불규칙해 보이기만 해도 다른 암의 징후가 없는데도 암이라고 판단하는 경우가 많았다. 연구진은 이런 오류가 GPT-5가 고화질 유방 사진에 대한 전문 훈련이 부족하고, 의료진이 사용하는 표준 분류 방법에 맞춰 특별히 적응되지 않았기 때문이라고 분석했다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q: ChatGPT-5가 이전 버전보다 유방암 검사에서 얼마나 더 나아졌나요?

A: 모든 검사 항목에서 이전 버전인 GPT-4o보다 좋아졌습니다. 예를 들어 EMBED 데이터에서 암 여부 판단에서 GPT-4o는 42.5%였는데 GPT-5는 52.8%를 기록했고, 혹 찾기에서도 GPT-4o가 50.0%인데 GPT-5는 64.5%로 향상됐습니다.

Q: ChatGPT-5가 유방암 진단에서 자주 하는 실수는 무엇인가요?

A: 연구진이 분석한 결과 두 가지 주요 실수 패턴을 보였습니다. 첫째, 매우 촘촘한 유방 조직을 덜 촘촘하다고 계속 잘못 판단했습니다. 둘째, 실제로는 암이 아닌 양성 변화를 암이라고 과도하게 진단하는 경향을 보였는데, 구조가 비틀어져 보이거나 혹의 경계가 불규칙하기만 해도 암이라고 판단하는 경우가 많았습니다.

Q: 왜 ChatGPT-5는 유방암 검사에서 의사만큼 정확하지 못한가요?

A: 연구진에 따르면 GPT-5가 고화질 유방 사진에 대한 전문 훈련이 부족하고, 의료진이 사용하는 표준 분류 방법에 맞춰 특별히 적응되지 않았기 때문입니다. 유방암 진단은 매우 미세하고 대조가 낮은 특징들을 구분해야 하는 어려운 작업이어서 전문적인 훈련이 필요합니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문 명: Is ChatGPT-5 Ready for Mammogram VQA?

이미지 출처: Is ChatGPT-5 Ready for Mammogram VQA?

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

AI 청진기, 몇 초 만에 심장 질환 판별…1차 진료 현장 혁신 예고	다나와
Apple Intelligence 공개⁠ ”모두를 위한 AI” 선포	다나와
Cognition AI, 기업가치 102억 달러 달성	다나와
구글, AI 검색 ‘AI Mode’에 한국어 포함 5개 언어 추가 지원	다나와
노벨상 받은 ‘AI의 대부’, 이별 통보조차 AI로 받다	다나와
구글, AI 검색 모드 한국어 포함 5개 언어로 확대	다나와
AI뉴스 할루시네이션 원인 찾았다, 위험한 VibeVoice, Kimi K20905, Sonoma, DH3, 구글 분할 기각, 신박한 탈옥 방법, F.02 설거지 등 (1) 동영상 있음	조코딩 JoCoding
챗GPT 등장 후 신입사원 일자리 대참사... 스탠포드대 “20대 고용 13% 급감”	AI matters
‘AI가 의료계 접수’… 디지털 헬스케어 투자 69%가 AI로 몰리는 이유	AI matters
CPO 100%가 인정한 AI 시대 필수 역량은? '비즈니스 통찰력'이 압도적 1위	AI matters
AI 로봇이 일자리를 빼앗는다? 세계경제포럼이 분석한 ‘피지컬 AI’의 현황	AI matters
실제 인기 브랜드와 AI 추천 브랜드 다르다… 챗GPT 언급 1위는 ‘나이키’	AI matters
생성형 AI 앱 Top100 발표... 2년 반 만에 드러난 승자와 패자는?	AI matters
"직원 참여도 5배, 스킬 개발 속도 4배 UP"… 액센츄어, 생성형 AI-인간의 '공동학습' 효과 입증	AI matters
챗GPT에게 고민 상담했더니 정신 건강 사이트로 유도… ‘온라인 상담 서비스’ 주목	AI matters
AI가 동료가 되는 시대 개막... 기업 79%가 만족하지만 '빌 쇼크'도 급증	AI matters
월스트리트 투자 전문가들이 밝힌 AI 활용법 6가지	AI matters
오픈AI, 챗GPT가 거짓말하는 이유 직접 밝혀… “훈련-평가 방식이 문제”	AI matters
AI 프로젝트 173개 쏟아졌지만 성과 공개는 30%뿐… 은행들이 숨기는 '진짜 성과'는	AI matters
마크 저커버그, 마크 저커버그를 고소하다	다나와
로블럭스, 자체 숏폼 플랫폼 도입힌다...창작자 수익 확대·AI 창작 도구도 함께 공개	다나와
미 검찰총장들 “아동 피해 용납하지 않겠다”… 오픈AI에 강력 경고	다나와
'기업 95% AI 도입에 어려움'··· AI 개발·도입은 물론 '전문적 관리 방안'도 필수	IT동아
'지브리풍 AI 그림'부터 '연애상담 AI'까지, 2025년 상반기 AI 열풍의 모든 것	AI matters
"ERP에 AI 직원 투입하라"…글로벌 기업 75%, 기존 시스템 단계적 스마트 전환	AI matters
[기고] AI와 미래 산업기술 - 6/완. AI 시대, 산업기술자는 세상을 바꾸는 사람이 된다	IT동아
"AI로 모금하되 신뢰는 지켜라"...비영리단체들의 새로운 딜레마	AI matters
AI 관련 사고로 시가총액 27% 손실 위험…APAC 기업이 AI 본격도입 어려운 이유	AI matters
자신이 만든 챗봇이 자신의 '경쟁자'가 됐다. 25년 차 은행원, AI로 실직 위기	다나와
멜라니아 트럼프, 백악관서 'AI 교육 서밋' 개최…“로봇이 왔다, 우리가 준비해야 할 때다”	다나와
오픈AI, 차세대 챗GPT 안전 기능 강화…120일간 집중 개선 예고	다나와
JYP, AI 아티스트 제작 공식 선언…'K팝 새 미래 연다' (2)	다나와
'AI와 저작권은 공존할 수 있을까' 퍼플렉시티, 출판사 수익 분배 프로그램 「Comet Plus」발표	다나와
구글, 크롬 매각 위기 면했다	다나와
아마존, 현실 세계에서도 활용 가능한 AI 쇼핑 도구 ‘렌즈 라이브’ 출시	다나와
카카오 전 직군 'AI 네이티브' 신입 공채 실시 / 25년 8월 넷째 주 [주간 AI 뉴스] (1) 동영상 있음	AI matters
“카톡방마다 AI 건강비서 생긴다” 퍼슬리, 카카오톡 그룹챗봇 출시	IT동아
마키나락스 어텐션 2025 “산업 현장에는 지식과 경험 겸비한 인공지능 필요해”	IT동아
AI 반도체 해외실증 사업, 일본 진출하는 '더존·퓨리오사AI' 사례 눈길 (1)	IT동아
‘SK AI 데이터센터 울산’ 기공식 개최…”아태 AI 허브 노린다”	IT동아
개발자 73% “AI 도구 뭘 써야 할지 모르겠다”... SW 개발 전문가들한테 물어봤더니	AI matters
AI가 폭주할 때 확실히 막는 방법 나왔다... 中 연구진, AI 통제 시스템 개발	AI matters
MS, 파이썬 코드로 수학 문제 푸는 AI 모델 공개… 14B 모델로 671B 모델 딥시크 R1 이겨	AI matters
AI가 자동차 만들고 로봇이 돌봄까지... 딜로이트가 분석한 6대 산업 핵심 트렌드	AI matters
“온-디바이스 AI부터 개인용 AI 슈퍼컴퓨터까지” AI PC 시장 판도는?	IT동아
'더 교묘해진 딥페이크'... 영상 전체 대신 표정·배경·사물 일부만 조작하면 30% 더 구분 어려워 (2)	AI matters
챗GPT에 ‘앤드류 응’ 이름 대자 마취제 합성법 알려줘… 챗GPT 보안 뚫는 심리 기법 발견	AI matters
AI 붐에 힘입은 샌프란시스코 오피스 시장 회복 징후…임대 수요 급증	다나와
AI 영상으로 연출된 트럼프 일대기…“조금 무섭다” 반응 속 AI 영향력 경고 (4)	다나와
IIT 칸푸르, ‘Samanvay 2025’ 개최…AI와 지속가능기술 융합 논의의 장 열다	다나와
OpenAI·Meta, 청소년 대상 AI 챗봇 대응 강화…“위기 신호 감지에 방어 강화”	다나와
법원, AI를 검색 경쟁자로 인정…구글 반독점 판결에 새 변수 등장	다나와
알리바바, 사람처럼 화면 보고 조작하는 AI 에이전트 개발… '모바일·PC 자동화 성능 세계 최고 수준'	AI matters
일기도 AI 시대… 오늘 하루 있었던 일 얘기하면 그림일기로 만들어 주는 AI 등장	AI matters
체코 보안업체, AI 활용해 공격 로직 실행하는 랜섬웨어 최초 발견	다나와
텐센트, AI 영상에 사실적 음향 입히는 ‘훈위안 비디오-폴리’ 공개	다나와
'사랑해요! 윌 스미스'라고 손 흔들던 여성 관중이 AI 합성이라고?	다나와
국내 챗GPT 이용자 2000만명 돌파…국내 스마트폰 사용자 40%가 사용	다나와
구글의 AI 이미지 혁신, '나노 바나나' 이모저모	IT동아
[위클리AI] 엔비디아 젯슨 토르부터 구글 나노바나나까지…전세계 주목	IT동아
미 우주군 “AI를 일상적 작전 도구로”...전략 로드맵 발표	다나와
로보틱스 산업에 눈 돌린 런웨이, 미래 성장동력으로 삼는다	다나와
AI뉴스 나노 바나나 활용법, Veo3 무제한, gpt리얼타임 출시, xAI 기술 유출, 애플 FastVLM, 메타 논란 등 동영상 있음	조코딩 JoCoding
"금리·포인트 자동 조정"… AI 에이전트가 매순간 최적의 금융상품 골라주는 시대	AI matters
학교에서 AI로 가르치는 기술일수록 직장에서 AI가 대신한다… 교육계가 놓친 모순	AI matters
기자 10명 중 8.6명 "AI 교육 경험 전무"… 언론계 AI 교육 현황 조사했더니	AI matters
노화 속도 파악하는 AI 생체 센서 등장… 생물학적 나이 측정까지 가능 (1)	AI matters
메타, 구글에서만 핵심 인재 10명 이상 대거 영입... 수석 엔지니어까지 합류 (1)	AI matters
혹시 투기? 정의 모호한 AGI에 역사상 최대 투자금 몰려… ‘AGI’를 둘러싼 9가지 불확실성 (1)	AI matters
"챗GPT 쓸수록 바보 된다?"… 주요 IT 기업 연구진들이 밝힌 ‘AI가 인간에게 미치는 영향’ (1)	AI matters
AI 잡는 AI로 생성 이미지 진짜 정체 밝힌다? 예술, 유머, 가짜뉴스는 구분 가능해져 (1)	AI matters
마이크로소프트, 자체 AI 모델 공개…OpenAI 의존에서 독립 ‘첫걸음’ (1)	다나와
뉴욕시, AI 챗봇 ‘정신우려’ 대응 법안 제안…“다음 위기는 AI일 수도” (1)	다나와
릴라이언스, AI 자회사 ‘Reliance Intelligence’ 설립…인도 AI 허브 도약 선언 (1)	다나와
'나노바나나' 제미나이2.5 플래시 이미지 공식 출시 / 25년 8월 넷째 주 [주간 AI 뉴스] 동영상 있음	AI matters
등록금 내고 AI한테 채점받는다고? 교수들이 말하는 AI 교육의 명암 (2)	AI matters
"더 이상 감으로 장사 안 한다"… 리테일 기업들, AI로 무장하는 이유	AI matters
"911 AI 상담원입니다, 무엇을 도와드릴까요?" 美 911센터, AI 음성비서 도입한다	다나와
엔비디아, AI 열풍에 힘입어 분기 매출 신기록 경신 (2)	다나와
시그마케이 “AI 기반 컴퓨터비전 기술로 중대재해·침수 막는다” [서울과기대 x 글로벌 뉴스] (1)	IT동아
생성형 AI 앱 Top 100 분석해봤더니... "그록-제미나이, 챗GPT 추격 가속화"	AI matters
파마로보틱스 “주사제 자동 조제 로봇으로 병원 업무 환경 혁신할 것” [SBA x IT동아]	IT동아
플리토, '초개인화' 실시간 통역으로 AI·데이터 시장 모두 잡는다	IT동아
Vibe-Hacking, AI 챗봇이 사이버범죄의 새로운 무기가 되다 (3)	다나와
DeepMind, 허리케인 예측 정확도에서 기존 모델 능가 (2)	다나와
LG유플러스 “AI로 IPTV 품질 개선…사전에 고장 잡아낸다” (1)	IT동아
맥킨지가 알려주는 'AI로 실제 수익 내는 회사 vs 못 내는 회사'의 결정적 차이	AI matters
5년 후 구글 검색 이긴다… 챗GPT 트래픽 분석이 보여준 충격적 전망	AI matters
AI가 ‘고통’을 느낄 수 있을까? 윤리적·철학적 논쟁 본격화 (6)	다나와
사우디, 자국어 최적화 AI 챗봇 ‘HUMAIN Chat’ 출시	다나와
인류 멸망 위기가 닥치면 어떤 AI가 자기 파괴를 감수하고 희생할까? (1)	AI matters
"챗GPT는 중립적이고, 라마는 낙관적"... AI마다 다른 '감정 DNA' 분석 (1)	AI matters
“전 세계 모든 인구가 생성형 AI 앱 하루 평균 50회 써” 센서타워 연구 결과 충격	AI matters
삼성, 다시 애플 조롱 광고…“너 이거 돼?” (8)	다나와
AI뉴스 QwenImageEdit, 그록 2 오픈소스 공개, GPT6 소식, 딥시크 3.1, Mirage2, 일러스트 Turntable, Veo 3 무료 등 동영상 있음	조코딩 JoCoding
엔비디아, 로봇에 ‘AI 두뇌’ 심는다… 신형 컴퓨터 ‘Jetson Thor’ 공개	다나와
NVIDIA, AI의 미래는 소형 언어 모델(SLM) 이다	다나와
엘론 머스크, Apple과 OpenAI 상대로 반독점 소송 제기	다나와
AI로 치매 조기 발견할까? 혈액검사 없이 5분간 대화하고 치매 진단… 정확도 85% 돌파	AI matters
챗GPT5, 유방암 검사 도전했더니... 분석 능력 의사 절반 수준에 그쳐	AI matters

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

챗GPT5, 유방암 검사 도전했더니... 분석 능력 의사 절반 수준에 그쳐

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

챗GPT5, 유방암 검사 도전했더니... 분석 능력 의사 절반 수준에 그쳐

공유하기

공감/비공감