비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

AI 진단 정확도 92% vs 의사 76%...하지만 의료현장 도입은 '글쎄’

2024.12.31. 17:48:57
조회 수
410
19
댓글 수
6

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

Large Language Model Influence on Diagnostic Reasoning



50명의 의사 대상, AI 진단 보조 실험 진행

의료 진단 오류는 환자 안전을 위협하는 주요 문제로, 인지적 요인과 시스템적 요인이 복합적으로 작용한다. 대형언어모델(Large Language Model, LLM)은 복잡한 의료 사례 해결과 임상 추론에서 뛰어난 성능을 보여왔으나, 실제 의사의 진단 능력 향상에 미치는 영향은 불분명했다.

이를 검증하기 위해 스탠포드 대학교 의과대학이 주관하여 2023년 11월 29일부터 12월 29일까지 무작위 임상시험이 실시되었다. 해당 연구 논문에 따르면, 총 50명의 의사가 참여했으며, 전문의 26명, 레지던트 24명으로 구성되었다. 전공별로는 내과 44명(88%), 가정의학과 1명(2%), 응급의학과 5명(10%)이었다. 참가자들의 LLM 사용 경험도 다양했다. 전혀 사용해본 적 없는 의사가 8명(16%), 한 번 사용이 6명(12%), 드물게 사용(월 1회 미만) 15명(30%), 가끔 사용(월 1회 이상, 주간 미만) 13명(26%), 자주 사용(주간 이상) 8명(16%)이었다.

참가자들은 LLM과 기존 진단 자료를 함께 사용하는 그룹과 기존 자료만 사용하는 그룹으로 나뉘어 6개의 임상 사례를 60분 동안 분석했다. 총 244개의 케이스가 완료되었으며(LLM 그룹 125건, 대조군 119건), 참가자당 중앙값 5건(IQR, 4-6건)의 케이스를 분석했다.

AI 도입해도 진단 정확도 '제자리걸음'

해당 연구와 관련한 리포트에 따르면, 임상시험 결과, LLM 사용 그룹의 진단 정확도 중앙값은 76%(IQR, 66%-87%), 기존 자료 활용 그룹은 74%(IQR, 63%-84%)로 나타났다. 조정된 차이는 2퍼센트 포인트(95% CI, -4에서 8퍼센트 포인트; P = .60)에 불과했다.

최종 진단의 정확도에서 LLM 중재 그룹이 대조군보다 1.4배 높은 승산비를 보였으나(95% CI, 0.7-2.8; P = .39), 이를 이분법적으로 분석(정확 vs 부정확)했을 때도 통계적으로 유의미한 차이는 없었다(승산비 1.9; 95% CI, 0.9-4.0; P = .10). 케이스당 소요 시간도 LLM 그룹이 519초(IQR, 371-668초), 기존 자료 그룹이 565초(IQR, 456-788초)로, 유의미한 차이를 보이지 않았다(시간 차이 -82초; 95% CI, -195에서 31초; P = .20).



AI 홀로서기 성공...의사보다 16% 높은 정확도

주목할 만한 점은 LLM을 단독으로 3회 실행 테스트했을 때의 결과다. LLM 단독 사용시 케이스당 중앙값 점수가 92%(IQR, 82%-97%)로, 의사들보다 16퍼센트 포인트(95% CI, 2-30퍼센트 포인트; P = .03) 높은 성과를 보였다. 이는 프롬프트 설계 방식이 성능에 큰 영향을 미칠 수 있음을 시사한다.

경력·AI 경험 무관...협업 효과 '미미'

전문의와 레지던트 간, LLM 사용 경험에 따른 하위그룹 분석에서도 전체 결과와 유사한 패턴이 나타났다. 전문의 그룹의 경우 LLM 사용 시 79%(63-87%), 기존 자료만 사용 시 75%(61-87%)로 0.5퍼센트 포인트의 차이를 보였다. 레지던트 그룹에서는 LLM 사용 시 76%(68-84%), 기존 자료 사용 시 74%(63-84%)로 3퍼센트 포인트의 차이가 났다.

LLM 사용 경험에 따른 분석에서도 유의미한 차이는 발견되지 않았다. 월 1회 미만 사용자 그룹에서는 오히려 LLM 사용 시 0.5퍼센트 포인트 낮은 성과를 보였으며, 월 1회 이상 사용자 그룹에서도 5퍼센트 포인트의 차이에 그쳤다. 이러한 결과는 의사의 경력이나 AI 사용 경험과 관계없이 LLM의 진단 보조 효과가 제한적임을 보여준다.

의료 AI 도입 성공의 열쇠는 '교육과 시스템'

연구팀은 단일 LLM 제품만을 평가했다는 점과 참가자들에게 프롬프트 엔지니어링 교육을 제공하지 않았다는 점을 연구의 한계로 지적했다. 다만 이는 현재 의료 현장의 실제 상황을 반영한 것이다. 연구의 신뢰성 검증을 위해 구조화된 반영 도구의 평가자간 일치도(weighted Cohen κ)를 측정한 결과 0.66이었으며, Cronbach α 값은 0.64(최종 진단 제외시 0.67)로 나타났다.

연구진은 의료진의 LLM 활용 능력 향상을 위한 체계적인 교육과 임상 워크플로우에 맞는 프롬프트 설계의 필요성을 강조했다. 또한 LLM이 독자적으로 진단을 수행해서는 안 되며, 환자 면담과 데이터 수집 등 임상 추론의 다른 중요한 영역에 대한 추가 연구가 필요하다고 제언했다.

해당 논문의 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
황유민, KLPGA 챔피언십 첫날 선두…박현경·이예원 추격 연합뉴스
창안자동차, 상하이 모터쇼서 미래 전략 발표…신에너지·지능화·글로벌 확장 '삼각편대' 구축 (2) 글로벌오토뉴스
닛산, 중국 우한 공장 생산 중단…실적 부진 및 경쟁 심화 영향 (1) 글로벌오토뉴스
BYD, 1분기 순이익 두 배 증가…전기차·하이브리드 판매 호조 (1) 글로벌오토뉴스
메르세데스-마이바흐 S-클래스의 품격, 가장 안락한 퍼스트클래스급 승차감을 제공한다 (1) 글로벌오토뉴스
스트라드비젼-악세라, 자율주행 혁신 가속 위한 전략적 협력 체결 글로벌오토뉴스
중국 자율주행 스타트업 모멘타, 상하이 모터쇼서 글로벌 자동차 브랜드와 대규모 협력 계약 글로벌오토뉴스
비스테온-퀄컴, AI 기반 차세대 콕핏 시스템 공동 개발 글로벌오토뉴스
일렉트로비트-메톡, 소프트웨어 기반 차량 혁신 위해 전략적 파트너십 체결 글로벌오토뉴스
비스테온-볼케이노 엔진, AI 기반 스마트 콕핏 솔루션 공개…차량 내 경험 혁신 예고 글로벌오토뉴스
중국 세레스, 상하이 모터쇼서 지능형 안전 생태계 공개…미래 자동차 안전 표준 제시 글로벌오토뉴스
현대차, 'ACT 엑스포 2025'서 북미 수소 물류시장 본격 공략 (1) 글로벌오토뉴스
로터스자동차, 지난해 글로벌 차량 인도대수 74% 증가 글로벌오토뉴스
폴스타, 2025년형 폴스타 2 출시...300대 한정 신규 트림 추가, 4390만원부터 글로벌오토뉴스
프랑스, 전기차 등록 혜택 종료 임박…지역별 최대 750유로 부담 우려 글로벌오토뉴스
유럽연합, 'FULL-MAP' 프로젝트 출범…AI 기반 차세대 배터리 개발 박차 글로벌오토뉴스
메르세데스-벤츠 트럭, eActros 600으로 100km 후진 기네스 기록 도전 글로벌오토뉴스
빈패스트, 4분기 전기차 출하량 143% 급증…글로벌 성장 가속 글로벌오토뉴스
BYD, 초대형 운반선 '선전'호 출항…글로벌 전기차 시장 공략 가속 글로벌오토뉴스
BYD, 1분기 순이익 100% 폭증…해외 시장 공략 가속화 글로벌오토뉴스
이 시간 HOT 댓글!
1/4