비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

챗GPT5, 유방암 검사 도전했더니... 분석 능력 의사 절반 수준에 그쳐

2025.08.25. 18:52:38
조회 수
142
10

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

최신 AI 챗봇인 ChatGPT-5가 유방암 검사 사진을 분석하는 능력을 테스트한 결과, 이전 버전보다는 나아졌지만 여전히 의사를 대신하기에는 실력이 부족하다는 연구 결과가 나왔다. 미국 에모리대학교 의과대학 연구팀이 진행한 이 연구는 GPT-5가 의료 영상 전용 훈련 없이도 유방암 검사 이미지를 얼마나 잘 분석할 수 있는지 살펴본 첫 번째 종합적인 평가다.

연구진은 총 4개의 공개된 유방암 검사 데이터(EMBED, InBreast, CMMD, CBIS-DDSM)를 사용해 GPT-5가 유방암 위험도 평가, 이상한 부분 찾기, 암인지 아닌지 구분하기를 얼마나 잘하는지 확인했다. 결과적으로 GPT-5는 이전 버전들을 일관되게 앞섰으나, 실제 의사나 의료 전문 AI보다는 상당한 차이를 보였다. CBIS-DDSM 데이터에서 의사와 비교했을 때, 암을 제대로 찾아내는 능력에서 GPT-5는 63.5%로 의사의 86.9%보다 23.4% 낮았고, 정상을 정상으로 판단하는 능력에서는 52.3%로 의사의 88.9%보다 36.6% 낮은 성능을 기록했다.


EMBED 데이터에서 종양 찾기 64.5% 정확도, 전문 AI보다는 한참 부족

EMBED라는 유방암 검사 데이터를 가지고 테스트한 결과, GPT-5는 ChatGPT 시리즈 중에서는 가장 좋은 성과를 거뒀다. 유방 조직 밀도 구분에서 56.8%, 구조 변형 찾기에서 52.5%, 혹 분류에서 64.5%, 석회화 찾기에서 63.5%, 암 여부 판단에서 52.8%의 정확도를 보였다. 이는 GPT-5의 작은 버전들이나 이전 버전인 GPT-4보다 모두 나은 결과다.

그러나 유방암 검사만을 위해 특별히 만들어진 AI와 비교하면 아직 많이 부족했다. 유방암 전문 AI인 Mammo-CLIP은 암 판별에서 82.3%의 정확도를 보여 GPT-5보다 거의 30%나 높은 성능을 기록했다. 이는 모든 것을 다 할 수 있다고 하는 범용 AI가 의료 분야 같은 전문 영역에서는 아직 전문 AI를 이기기 어렵다는 것을 보여준다.

의사와 직접 비교하니 암 찾기 63.5%, 의사는 86.9%로 큰 차이

CBIS-DDSM이라는 유방암 검사 데이터를 통해 실제 의사와 GPT-5를 직접 비교해 본 결과, GPT-5의 한계가 더욱 명확하게 드러났다. 암을 제대로 찾아내는 능력에서 의사들은 86.9%의 정확도를 보인 반면, GPT-5는 63.5%에 그쳤다. 또한 정상을 정상으로 제대로 판단하는 능력에서도 의사는 88.9%였지만 GPT-5는 52.3%로 훨씬 떨어졌다.

더 작은 버전의 GPT 모델들은 성능이 더욱 걱정스러운 수준이었다. GPT-5-mini와 GPT-5-nano는 암 찾기에서 50% 이상 떨어지는 성능을 보였고, 정상 판단에서도 26% 가까이 의사보다 못했다. 이런 결과는 현재의 범용 AI가 의료 분야 전용 훈련 없이는 의사 수준의 정확도를 내기 어렵다는 점을 보여준다.

GPT-5가 자주 틀리는 패턴, 조직 촘촘한 유방을 덜 촘촘하다고 잘못 판단

연구진은 GPT-5가 어떤 실수를 자주 하는지 알아보기 위해 대표적인 사례들을 자세히 살펴봤다. 유방 조직 밀도를 판단할 때 GPT-5는 매우 촘촘한 유방(D등급)을 덜 촘촘한 유방(C등급)으로 계속 잘못 판단했다. 이는 AI가 조직이 매우 촘촘한 유방에서 실제보다 밀도를 낮게 평가하는 경향이 있다는 뜻이다.

암 여부를 판단할 때는 실제로는 암이 아닌 양성 변화를 암이라고 잘못 진단하는 과진단 문제를 보였다. 구조가 비틀어져 보이거나 혹의 경계가 불규칙해 보이기만 해도 다른 암의 징후가 없는데도 암이라고 판단하는 경우가 많았다. 연구진은 이런 오류가 GPT-5가 고화질 유방 사진에 대한 전문 훈련이 부족하고, 의료진이 사용하는 표준 분류 방법에 맞춰 특별히 적응되지 않았기 때문이라고 분석했다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q: ChatGPT-5가 이전 버전보다 유방암 검사에서 얼마나 더 나아졌나요?

A: 모든 검사 항목에서 이전 버전인 GPT-4o보다 좋아졌습니다. 예를 들어 EMBED 데이터에서 암 여부 판단에서 GPT-4o는 42.5%였는데 GPT-5는 52.8%를 기록했고, 혹 찾기에서도 GPT-4o가 50.0%인데 GPT-5는 64.5%로 향상됐습니다.

Q: ChatGPT-5가 유방암 진단에서 자주 하는 실수는 무엇인가요?

A: 연구진이 분석한 결과 두 가지 주요 실수 패턴을 보였습니다. 첫째, 매우 촘촘한 유방 조직을 덜 촘촘하다고 계속 잘못 판단했습니다. 둘째, 실제로는 암이 아닌 양성 변화를 암이라고 과도하게 진단하는 경향을 보였는데, 구조가 비틀어져 보이거나 혹의 경계가 불규칙하기만 해도 암이라고 판단하는 경우가 많았습니다.

Q: 왜 ChatGPT-5는 유방암 검사에서 의사만큼 정확하지 못한가요?

A: 연구진에 따르면 GPT-5가 고화질 유방 사진에 대한 전문 훈련이 부족하고, 의료진이 사용하는 표준 분류 방법에 맞춰 특별히 적응되지 않았기 때문입니다. 유방암 진단은 매우 미세하고 대조가 낮은 특징들을 구분해야 하는 어려운 작업이어서 전문적인 훈련이 필요합니다.


해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문 명: Is ChatGPT-5 Ready for Mammogram VQA?

이미지 출처: Is ChatGPT-5 Ready for Mammogram VQA?

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.





AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
5/1
생성형 AI 앱 Top 100 분석해봤더니... "그록-제미나이, 챗GPT 추격 가속화" AI matters
파마로보틱스 “주사제 자동 조제 로봇으로 병원 업무 환경 혁신할 것” [SBA x IT동아] IT동아
플리토, '초개인화' 실시간 통역으로 AI·데이터 시장 모두 잡는다 IT동아
Vibe-Hacking, AI 챗봇이 사이버범죄의 새로운 무기가 되다 (3) 다나와
DeepMind, 허리케인 예측 정확도에서 기존 모델 능가 (2) 다나와
LG유플러스 “AI로 IPTV 품질 개선…사전에 고장 잡아낸다” (1) IT동아
맥킨지가 알려주는 'AI로 실제 수익 내는 회사 vs 못 내는 회사'의 결정적 차이 AI matters
5년 후 구글 검색 이긴다… 챗GPT 트래픽 분석이 보여준 충격적 전망 AI matters
AI가 ‘고통’을 느낄 수 있을까? 윤리적·철학적 논쟁 본격화 (6) 다나와
사우디, 자국어 최적화 AI 챗봇 ‘HUMAIN Chat’ 출시 다나와
인류 멸망 위기가 닥치면 어떤 AI가 자기 파괴를 감수하고 희생할까? (1) AI matters
"챗GPT는 중립적이고, 라마는 낙관적"... AI마다 다른 '감정 DNA' 분석 (1) AI matters
“전 세계 모든 인구가 생성형 AI 앱 하루 평균 50회 써” 센서타워 연구 결과 충격 AI matters
삼성, 다시 애플 조롱 광고…“너 이거 돼?” (8) 다나와
AI뉴스 QwenImageEdit, 그록 2 오픈소스 공개, GPT6 소식, 딥시크 3.1, Mirage2, 일러스트 Turntable, Veo 3 무료 등 동영상 있음 조코딩 JoCoding
엔비디아, 로봇에 ‘AI 두뇌’ 심는다… 신형 컴퓨터 ‘Jetson Thor’ 공개 다나와
NVIDIA, AI의 미래는 소형 언어 모델(SLM) 이다 다나와
엘론 머스크, Apple과 OpenAI 상대로 반독점 소송 제기 다나와
AI로 치매 조기 발견할까? 혈액검사 없이 5분간 대화하고 치매 진단… 정확도 85% 돌파 AI matters
챗GPT5, 유방암 검사 도전했더니... 분석 능력 의사 절반 수준에 그쳐 AI matters
이 시간 HOT 댓글!
1/4