챗GPT5, 유방암 검사 도전했더니... 분석 능력 의사 절반 수준에 그쳐 : 다나와 DPG는 내맘을 디피지

최신 AI 챗봇인 ChatGPT-5가 유방암 검사 사진을 분석하는 능력을 테스트한 결과, 이전 버전보다는 나아졌지만 여전히 의사를 대신하기에는 실력이 부족하다는 연구 결과가 나왔다. 미국 에모리대학교 의과대학 연구팀이 진행한 이 연구는 GPT-5가 의료 영상 전용 훈련 없이도 유방암 검사 이미지를 얼마나 잘 분석할 수 있는지 살펴본 첫 번째 종합적인 평가다.

연구진은 총 4개의 공개된 유방암 검사 데이터(EMBED, InBreast, CMMD, CBIS-DDSM)를 사용해 GPT-5가 유방암 위험도 평가, 이상한 부분 찾기, 암인지 아닌지 구분하기를 얼마나 잘하는지 확인했다. 결과적으로 GPT-5는 이전 버전들을 일관되게 앞섰으나, 실제 의사나 의료 전문 AI보다는 상당한 차이를 보였다. CBIS-DDSM 데이터에서 의사와 비교했을 때, 암을 제대로 찾아내는 능력에서 GPT-5는 63.5%로 의사의 86.9%보다 23.4% 낮았고, 정상을 정상으로 판단하는 능력에서는 52.3%로 의사의 88.9%보다 36.6% 낮은 성능을 기록했다.

EMBED 데이터에서 종양 찾기 64.5% 정확도, 전문 AI보다는 한참 부족

EMBED라는 유방암 검사 데이터를 가지고 테스트한 결과, GPT-5는 ChatGPT 시리즈 중에서는 가장 좋은 성과를 거뒀다. 유방 조직 밀도 구분에서 56.8%, 구조 변형 찾기에서 52.5%, 혹 분류에서 64.5%, 석회화 찾기에서 63.5%, 암 여부 판단에서 52.8%의 정확도를 보였다. 이는 GPT-5의 작은 버전들이나 이전 버전인 GPT-4보다 모두 나은 결과다.

그러나 유방암 검사만을 위해 특별히 만들어진 AI와 비교하면 아직 많이 부족했다. 유방암 전문 AI인 Mammo-CLIP은 암 판별에서 82.3%의 정확도를 보여 GPT-5보다 거의 30%나 높은 성능을 기록했다. 이는 모든 것을 다 할 수 있다고 하는 범용 AI가 의료 분야 같은 전문 영역에서는 아직 전문 AI를 이기기 어렵다는 것을 보여준다.

의사와 직접 비교하니 암 찾기 63.5%, 의사는 86.9%로 큰 차이

CBIS-DDSM이라는 유방암 검사 데이터를 통해 실제 의사와 GPT-5를 직접 비교해 본 결과, GPT-5의 한계가 더욱 명확하게 드러났다. 암을 제대로 찾아내는 능력에서 의사들은 86.9%의 정확도를 보인 반면, GPT-5는 63.5%에 그쳤다. 또한 정상을 정상으로 제대로 판단하는 능력에서도 의사는 88.9%였지만 GPT-5는 52.3%로 훨씬 떨어졌다.

더 작은 버전의 GPT 모델들은 성능이 더욱 걱정스러운 수준이었다. GPT-5-mini와 GPT-5-nano는 암 찾기에서 50% 이상 떨어지는 성능을 보였고, 정상 판단에서도 26% 가까이 의사보다 못했다. 이런 결과는 현재의 범용 AI가 의료 분야 전용 훈련 없이는 의사 수준의 정확도를 내기 어렵다는 점을 보여준다.

GPT-5가 자주 틀리는 패턴, 조직 촘촘한 유방을 덜 촘촘하다고 잘못 판단

연구진은 GPT-5가 어떤 실수를 자주 하는지 알아보기 위해 대표적인 사례들을 자세히 살펴봤다. 유방 조직 밀도를 판단할 때 GPT-5는 매우 촘촘한 유방(D등급)을 덜 촘촘한 유방(C등급)으로 계속 잘못 판단했다. 이는 AI가 조직이 매우 촘촘한 유방에서 실제보다 밀도를 낮게 평가하는 경향이 있다는 뜻이다.

암 여부를 판단할 때는 실제로는 암이 아닌 양성 변화를 암이라고 잘못 진단하는 과진단 문제를 보였다. 구조가 비틀어져 보이거나 혹의 경계가 불규칙해 보이기만 해도 다른 암의 징후가 없는데도 암이라고 판단하는 경우가 많았다. 연구진은 이런 오류가 GPT-5가 고화질 유방 사진에 대한 전문 훈련이 부족하고, 의료진이 사용하는 표준 분류 방법에 맞춰 특별히 적응되지 않았기 때문이라고 분석했다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q: ChatGPT-5가 이전 버전보다 유방암 검사에서 얼마나 더 나아졌나요?

A: 모든 검사 항목에서 이전 버전인 GPT-4o보다 좋아졌습니다. 예를 들어 EMBED 데이터에서 암 여부 판단에서 GPT-4o는 42.5%였는데 GPT-5는 52.8%를 기록했고, 혹 찾기에서도 GPT-4o가 50.0%인데 GPT-5는 64.5%로 향상됐습니다.

Q: ChatGPT-5가 유방암 진단에서 자주 하는 실수는 무엇인가요?

A: 연구진이 분석한 결과 두 가지 주요 실수 패턴을 보였습니다. 첫째, 매우 촘촘한 유방 조직을 덜 촘촘하다고 계속 잘못 판단했습니다. 둘째, 실제로는 암이 아닌 양성 변화를 암이라고 과도하게 진단하는 경향을 보였는데, 구조가 비틀어져 보이거나 혹의 경계가 불규칙하기만 해도 암이라고 판단하는 경우가 많았습니다.

Q: 왜 ChatGPT-5는 유방암 검사에서 의사만큼 정확하지 못한가요?

A: 연구진에 따르면 GPT-5가 고화질 유방 사진에 대한 전문 훈련이 부족하고, 의료진이 사용하는 표준 분류 방법에 맞춰 특별히 적응되지 않았기 때문입니다. 유방암 진단은 매우 미세하고 대조가 낮은 특징들을 구분해야 하는 어려운 작업이어서 전문적인 훈련이 필요합니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문 명: Is ChatGPT-5 Ready for Mammogram VQA?

이미지 출처: Is ChatGPT-5 Ready for Mammogram VQA?

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

스마일게이트 ‘카오스 제로 나이트메어’, 시즌4 ‘부서진 빛과 발톱’ 업데이트	게임동아
‘몬스터 헌터 나우’, 서울서 여름 오프라인 행사 ‘플레이 쿨!’ 개최한다	게임동아
고깃집처럼 굽고 싶다면…돼지고기 앞뒤 2분, 단면은 1분씩	뉴스탭
‘젯키즈’ 증정하고 ‘요요3’ 빌려준다…그랜드 조선 제주 키즈 패키지	뉴스탭
창덕궁에서 만나는 한국 세계유산…포토크루 사진전 8월 2일까지	뉴스탭
칼로리만 보던 시대 지났다…‘건강지능’ 높이는 식품 선택법	뉴스탭
‘고요한 자신감’을 입다…오타니 쇼헤이와 만난 보스	뉴스탭
K-쇼핑, 신발까지 번졌다…ABC마트 외국인 매출 40% 증가	뉴스탭
자외선 차단에 쿨링까지…폭염에 여름 뷰티 제품 매출 ‘쑥’	뉴스탭
애스턴마틴 발키리, 로드 아메리카 6시간 내구전 출격…밴티지는 GTD 선두 수성 도전	뉴스탭
방어 넘어 혁신 기반으로…기업이 사이버 보안에 투자하는 이유	뉴스탭
에어캐나다, 국제선 전 클래스 침구 개편…장거리 비행 편의 높인다	뉴스탭
폭염 속 작업자 쓰러짐까지 감지…하이크비전, AI 산업안전 강화	뉴스탭
고지원, 제주삼다수 마스터스 2연패 도전…8월 6일 개막	뉴스탭
“왜, 안 돼?”…김원훈이 보여준 ‘테라 제로’의 새로운 음용법	뉴스탭
크래프톤, 음성 AI ‘A.X K2 Raon-Speech’ 공개…한국어 종합 성능 1위	뉴스탭
시즌 3 챔피언 60종 구성, 리그 오브 레전드 클래식 출시	게임메카
3on3 프리스타일, GOTF 2026 개막 종목으로 참가한다	게임메카
서울대 나민애 교수, 게임 속 캐릭터로 변신… 학습만화 ‘국어 대모험’ 출간	게임동아
펄어비스 '검은사막' 신규 캐릭터 '에이전트' 정식 출시	게임동아
컴투스홀딩스, 中 게임쇼 '차이나조이 2026' 참가..'페이탈 클로' 출전	게임동아
위메이드 '미르의 전설2', 성장 특화 ‘승룡서버’ 사전 등록 실시	게임동아
‘니벨아레나 2026 KCS 1st 시즌 최종전’ 성료.. 하반기 '블루아카이브' 출시 발표	게임동아
13년째 얼리액세스인 ‘프로젝트 좀보이드’, 빌드 42 출시와 함께 또 가격 인상	게임동아
넷마블 '마블 퓨처파이트', ‘스파이더맨: 브랜드 뉴 데이’ 업데이트	게임동아
유니트리, 바퀴 달린 4족 로봇 ‘AS2-W’ 공개…시속 21.6km에 80cm 장애물 넘는다	AI matters
반려동물 울음소리를 문장으로…중국 ‘페티챗’ AI 목걸이, 사전주문 1만 건	AI matters
인도, 잭 도시의 블루투스 메신저 ‘비트챗’ 깃허브 저장소 차단 명령…3시간 시한 통보	AI matters
[순위분석] 다시 뛰는 검은사막, 9계단 껑충	게임메카
[오늘의 스팀] 출시 1주차, 드래곤소드: 어웨이크닝 호평	게임메카
퍼시스, 사무가구도 ‘구독’…도입부터 회수·재사용까지 한 번에	뉴스탭
팔릿, 용산에 ‘PALIT C/S Lounge’ 오픈…그래픽카드·AI 컴퓨터 통합 지원	뉴스탭
‘문명 VII’에 이순신 장군 합류…거북선 앞세운 조선 등장	뉴스탭
입문자에서 숙련자로…플레이 완성도 높이는 게이밍 기어 3선	뉴스탭
시즌 4 앞두고 밸런스 논란 인 카제나, 패치안 철회	게임메카
백악관, 프런티어 AI ‘출시 전 정부 제출’ 프레임워크 마무리…오픈AI·앤트로픽·구글이 수정안 제출	AI matters
메타, 10년 만에 RE100 탈퇴…가스 발전소 10기로 AI 데이터센터 돌린다 (1)	AI matters
오픈AI 침입 AI, 9일간 아무도 몰랐다…FBI가 먼저 알아챈 사건 (1)	AI matters
퀄컴, 9월부터 칩값 두 자릿수 인상…메모리 위기 스마트폰으로 번진다 (1)	AI matters
지역 축제도 게임처럼! 현실로 구현된 보물찾기와 지역 명소 관광의 자연스런 만남	게임동아
‘퐁’부터 ‘베르세르크’까지… 유니버설, 아타리 게임 10종 영화 계약 체결	게임동아
두 인디 대작의 만남! ‘메챠 카멜레온’, ‘8번 출구’ 컬래버 예고 (1)	게임동아
플랫폼 전문가 양주일 대표가 그리는 글로벌 슈퍼팬 생태계 ‘위버스’의 미래	게임동아
"수영복 코스튬도 있다", ‘이환’ 인기 캐릭터 ‘일로이’ 등장!	게임동아
쿠키런: 킹덤 ‘지하명왕 쿠키’ 등장... ‘망각의 타르트로스’ 업데이트	게임동아
중국 인기 FMV 배우 왕한, 한국 게임 첫 출연… 스토리타코 ‘두근두근 경비 일기!’ 공개	게임동아
비용 절감보다 새로운 경험을 추구! AI 활용 늘려가는 크래프톤	게임동아
넷마블 '몬길: 스타 다이브', 신규 5성 캐릭터 '메이벨' 추가	게임동아
비피엠지 자회사 아라코어, 버고페이와 스테이블코인 결제 서비스 협력	게임동아
‘니벨아레나 2026 KCS 1st 시즌 최종전’ 성황리 개최. 블루아카이브 합류도 발표	게임동아
신작 MMORPG, 편하게 더 편하게	게임동아
역대 미스오르카 전시, 라스트오리진 건대 팝업 연다	게임메카
9월 8일 개최, 전국 장애학생 e페스티벌 '딘딘'이 알린다	게임메카
베데스다 “인원 감축, 엘더스크롤 6에 영향 없다”	게임메카
르노코리아 그랑 콜레오스, 경찰청 다목적 순찰차 시장 첫 진입…공공부문 공략	오토헤럴드
BYD, 포춘 글로벌 500 91위 기록… 연구개발 투자 바탕 글로벌 공략 가속	글로벌오토뉴스
볼보 ES90의 파격적 가격 – SDV의 힘이 실현시킨 기적인가	글로벌오토뉴스
아우디, 최고급 풀사이즈 SUV ‘Q9’ 세계 최초 공개	글로벌오토뉴스
노래방도 ‘개인화’ 시대…TJ미디어 ‘마이 티제이’ MAU 47% 증가	뉴스탭
커피부터 야구·패션·맛집까지…식음료업계, ‘팬덤 컬래버’에 빠졌다	뉴스탭
장마철 빨래 냄새 잡아라…생활용품업계 ‘실내건조 세제’ 경쟁 (1)	뉴스탭
“덜 바를수록 예쁘다”…폭염 속 ‘파데프리’ 메이크업 확산 (1)	뉴스탭
먼데이닷컴, 직원 20%·630명 감원…”AI 업무 플랫폼으로 재편”	AI matters
사람 뇌파로 로봇을 가르친다…엔코드·잔더랩스, 새 학습 데이터 실험	AI matters
오픈AI, 워싱턴 로비 지출 2배로…상반기 약 33억 원 ‘역대 최대’	AI matters
“내 클로드 대화도?”…공유한 클로드 대화, 구글·빙 검색에 노출됐다	AI matters
MS·메타, 오늘 밤 2분기 실적 발표…AI 설비투자가 시험대에 오른다	AI matters
엔비디아, 수츠케버 세이프 슈퍼인텔리전스에 투자…GPU 공급 확대	AI matters
AI 종사자 1,100여 명 연명 서한…”정부가 AI 발전 속도를 조율해 달라”	AI matters
2026년 7월 29일 미국 AI 관련주 — 중국발 메모리 충격에 마이크론·AMD 8%대 하락, 엔비디아 재상승	AI matters
한국지엠 노사, 2026년 임ㆍ단협 완전 타결... 노조 56.5% 합의안 찬성 (1)	오토헤럴드
'왕자님 덕분 주가 20% 급등' 파산설까지 나돌았던 '루시드'에 무슨 일? (1)	오토헤럴드
[오늘의 스팀] 컨커러스 블레이드: 삼국, 압도적으로 부정적	게임메카
요시다 슈헤이가 ‘블러드본 PC판 미출시'에 대해 언급했다 (1)	게임메카
라인게임즈, ‘창세기전 모바일’에 시즈 대장 ‘벨제부르’ 추가	게임동아
넷마블 '스톤에이지 키우기'에 '부족전' 추가	게임동아
엔비디아, 카이스트와 국내 AI 혁신 가속화 위한 공동 AI 연구소 설립	다나와
랜드로버, 브랜드의 문턱을 낮춰준 '디스커버리 스포츠' 단종 결정	오토헤럴드
BMW, 중국 전용 iX5 롱휠베이스 공개 '1회 충전 1000km 이상'	오토헤럴드
자동차도 '시들시들 열사병'에 걸린다... 노후차량일수록 '폭염' 대비해야 (1)	오토헤럴드
KGM, 내수 19% 증가에도 영업이익 개선은 제한적…4년 연속 흑자	오토헤럴드
넷마블 ‘블레이드&소울 레볼루션’, 랭킹 던전 1인 콘텐츠로 개편	게임동아
더 파이널스 APAC 리그서 한국팀 '하이부' 2연승 기록	게임메카
테슬라, 단종한 모델 S·X '오픈소스' 추진…로드스터식 공개 실효성 의문	오토헤럴드
제네시스, 마그마보다 강력한 고성능 모델 검토 'AMG 블랙 시리즈 겨냥'	오토헤럴드
제네시스, 마릴린 먼로 100주년 기념 단편 영화 '플레시 임팩트' 첫 공개	오토헤럴드
포르쉐, 직원 5명 중 1명 줄인다... 中 판매 급락에 구조조정 폭 확대	오토헤럴드
현대차, '제1차 한·중앙아시아 정상회의'에 제네시스 의전 차량 33대 지원	글로벌오토뉴스
CATL 2026년 2분기 순이익 36.5% 증가… 에너지 저장 사업이 실적 견인	글로벌오토뉴스
현대차그룹, 청년 인재 육성 프로그램 'HINT' 1기 입교식 개최	글로벌오토뉴스
BYD, 글로벌 수출 폭발에 셴산 공장서 9,000명 대규모 채용… 연간 수출 150만 대 겨냥	글로벌오토뉴스
테슬라 로보택시 확장 지연… 시장 기대치 미달에 주가 급락	글로벌오토뉴스
태국, 최대 8만 대 노후 상용차 전기차 전환 추진	글로벌오토뉴스
전기차 만족도, 내연기관 압도…JD파워 조사서 가장 높은 소비자 만족도 기록	글로벌오토뉴스
AI 데이터센터 전력 난에 청정기술 투자 폭증	글로벌오토뉴스
MSI 챔피언과 EWC 챔피언이 만난다… LCK 3라운드 빅매치 예고 (1)	게임동아
테슬라 FSD 이용 차량 148만 대 돌파	글로벌오토뉴스
NHTSA, 전자식 도어 핸들 안전기준 검토 착수… 업계 전반 규제 가능성	글로벌오토뉴스
유럽 잠수함도 배터리 시대... 샤프트, 리튬이온 배터리로 세대교체	글로벌오토뉴스
정부, 중대형 상용차 온실가스 2030년까지 30% 감축 의무화 (1)	글로벌오토뉴스

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

챗GPT5, 유방암 검사 도전했더니... 분석 능력 의사 절반 수준에 그쳐

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

챗GPT5, 유방암 검사 도전했더니... 분석 능력 의사 절반 수준에 그쳐

공유하기

공감/비공감