비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

챗GPT5, 유방암 검사 도전했더니... 분석 능력 의사 절반 수준에 그쳐

2025.08.25. 18:52:38
조회 수
306
13

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

최신 AI 챗봇인 ChatGPT-5가 유방암 검사 사진을 분석하는 능력을 테스트한 결과, 이전 버전보다는 나아졌지만 여전히 의사를 대신하기에는 실력이 부족하다는 연구 결과가 나왔다. 미국 에모리대학교 의과대학 연구팀이 진행한 이 연구는 GPT-5가 의료 영상 전용 훈련 없이도 유방암 검사 이미지를 얼마나 잘 분석할 수 있는지 살펴본 첫 번째 종합적인 평가다.

연구진은 총 4개의 공개된 유방암 검사 데이터(EMBED, InBreast, CMMD, CBIS-DDSM)를 사용해 GPT-5가 유방암 위험도 평가, 이상한 부분 찾기, 암인지 아닌지 구분하기를 얼마나 잘하는지 확인했다. 결과적으로 GPT-5는 이전 버전들을 일관되게 앞섰으나, 실제 의사나 의료 전문 AI보다는 상당한 차이를 보였다. CBIS-DDSM 데이터에서 의사와 비교했을 때, 암을 제대로 찾아내는 능력에서 GPT-5는 63.5%로 의사의 86.9%보다 23.4% 낮았고, 정상을 정상으로 판단하는 능력에서는 52.3%로 의사의 88.9%보다 36.6% 낮은 성능을 기록했다.


EMBED 데이터에서 종양 찾기 64.5% 정확도, 전문 AI보다는 한참 부족

EMBED라는 유방암 검사 데이터를 가지고 테스트한 결과, GPT-5는 ChatGPT 시리즈 중에서는 가장 좋은 성과를 거뒀다. 유방 조직 밀도 구분에서 56.8%, 구조 변형 찾기에서 52.5%, 혹 분류에서 64.5%, 석회화 찾기에서 63.5%, 암 여부 판단에서 52.8%의 정확도를 보였다. 이는 GPT-5의 작은 버전들이나 이전 버전인 GPT-4보다 모두 나은 결과다.

그러나 유방암 검사만을 위해 특별히 만들어진 AI와 비교하면 아직 많이 부족했다. 유방암 전문 AI인 Mammo-CLIP은 암 판별에서 82.3%의 정확도를 보여 GPT-5보다 거의 30%나 높은 성능을 기록했다. 이는 모든 것을 다 할 수 있다고 하는 범용 AI가 의료 분야 같은 전문 영역에서는 아직 전문 AI를 이기기 어렵다는 것을 보여준다.

의사와 직접 비교하니 암 찾기 63.5%, 의사는 86.9%로 큰 차이

CBIS-DDSM이라는 유방암 검사 데이터를 통해 실제 의사와 GPT-5를 직접 비교해 본 결과, GPT-5의 한계가 더욱 명확하게 드러났다. 암을 제대로 찾아내는 능력에서 의사들은 86.9%의 정확도를 보인 반면, GPT-5는 63.5%에 그쳤다. 또한 정상을 정상으로 제대로 판단하는 능력에서도 의사는 88.9%였지만 GPT-5는 52.3%로 훨씬 떨어졌다.

더 작은 버전의 GPT 모델들은 성능이 더욱 걱정스러운 수준이었다. GPT-5-mini와 GPT-5-nano는 암 찾기에서 50% 이상 떨어지는 성능을 보였고, 정상 판단에서도 26% 가까이 의사보다 못했다. 이런 결과는 현재의 범용 AI가 의료 분야 전용 훈련 없이는 의사 수준의 정확도를 내기 어렵다는 점을 보여준다.

GPT-5가 자주 틀리는 패턴, 조직 촘촘한 유방을 덜 촘촘하다고 잘못 판단

연구진은 GPT-5가 어떤 실수를 자주 하는지 알아보기 위해 대표적인 사례들을 자세히 살펴봤다. 유방 조직 밀도를 판단할 때 GPT-5는 매우 촘촘한 유방(D등급)을 덜 촘촘한 유방(C등급)으로 계속 잘못 판단했다. 이는 AI가 조직이 매우 촘촘한 유방에서 실제보다 밀도를 낮게 평가하는 경향이 있다는 뜻이다.

암 여부를 판단할 때는 실제로는 암이 아닌 양성 변화를 암이라고 잘못 진단하는 과진단 문제를 보였다. 구조가 비틀어져 보이거나 혹의 경계가 불규칙해 보이기만 해도 다른 암의 징후가 없는데도 암이라고 판단하는 경우가 많았다. 연구진은 이런 오류가 GPT-5가 고화질 유방 사진에 대한 전문 훈련이 부족하고, 의료진이 사용하는 표준 분류 방법에 맞춰 특별히 적응되지 않았기 때문이라고 분석했다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q: ChatGPT-5가 이전 버전보다 유방암 검사에서 얼마나 더 나아졌나요?

A: 모든 검사 항목에서 이전 버전인 GPT-4o보다 좋아졌습니다. 예를 들어 EMBED 데이터에서 암 여부 판단에서 GPT-4o는 42.5%였는데 GPT-5는 52.8%를 기록했고, 혹 찾기에서도 GPT-4o가 50.0%인데 GPT-5는 64.5%로 향상됐습니다.

Q: ChatGPT-5가 유방암 진단에서 자주 하는 실수는 무엇인가요?

A: 연구진이 분석한 결과 두 가지 주요 실수 패턴을 보였습니다. 첫째, 매우 촘촘한 유방 조직을 덜 촘촘하다고 계속 잘못 판단했습니다. 둘째, 실제로는 암이 아닌 양성 변화를 암이라고 과도하게 진단하는 경향을 보였는데, 구조가 비틀어져 보이거나 혹의 경계가 불규칙하기만 해도 암이라고 판단하는 경우가 많았습니다.

Q: 왜 ChatGPT-5는 유방암 검사에서 의사만큼 정확하지 못한가요?

A: 연구진에 따르면 GPT-5가 고화질 유방 사진에 대한 전문 훈련이 부족하고, 의료진이 사용하는 표준 분류 방법에 맞춰 특별히 적응되지 않았기 때문입니다. 유방암 진단은 매우 미세하고 대조가 낮은 특징들을 구분해야 하는 어려운 작업이어서 전문적인 훈련이 필요합니다.


해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문 명: Is ChatGPT-5 Ready for Mammogram VQA?

이미지 출처: Is ChatGPT-5 Ready for Mammogram VQA?

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.





AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
트론 DAO, 넥써쓰 크로쓰페이(CROSS Pay)와 연동 게임동아
콘진원, 2026년 게임콘텐츠 제작지원에 236억 원 투입.. 사업 참가사 모집 게임동아
‘씰M 온 크로쓰’, 글로벌 사전 예약 60만명 돌파 게임동아
원작자도 비판한 ‘갓 오브 워’ 신작, 메타크리틱 68점 ‘혹평’ 게임메카
웹젠, '드래곤소드' 첫 업데이트로 신규 캐릭터 '오네트' 출시 게임동아
넷마블 '신의 탑: 새로운 세계', 포 비더 가문의 3인자 '포 비더 뒤마' 추가 게임동아
넷마블, 방치형 RPG '스톤에이지 키우기' 3월 3일 글로벌 출시 게임동아
'스페셜포스 리마스터' 스팀 페이지 오픈, 3월 18일 출시 게임메카
SOOP, 롤 LEC·LPL 플레이오프 한국어 생중계 한다 게임메카
2D 액션 메트로배니아 ‘솔라테리아’ 3월 12일 스팀 출시 예고 게임동아
그라비티, 턴제 RPG 신작 ‘와이즈맨즈 월드 리트라이’ 글로벌 지역 출시 게임동아
크래프톤 5민랩, 모바일 신작 ‘템빨용사’ 사전예약 시작 게임동아
넷이즈 '연운' 모바일 버전 출시. 모든 플랫폼 크로스플레이 지원 게임동아
[순위분석] 25년 만의 신규 직업, 디아블로 2 TOP 10 목전 게임메카
펄어비스, 붉은사막에 소액결제와 유료 상점 없음 강조 게임메카
건전지 넣어 걷는, 니케 '도로롱 군단' 피규어 공개 게임메카
메모리 부족 사태에, 소니 PS6 출시 2029년으로 연기한다? 게임메카
동양풍 할로우 나이트 느낌 나는 신작 '아카토리' 데모 공개 게임메카
새 도시 구현한 최대 모드 ‘GTA 카서 시티’ 4월 데모 공개 게임메카
GTFO 개발사 10 챔버스, 설립자 포함 대규모 구조조정 게임메카
이 시간 HOT 댓글!
1/4