
Large Language Models for Interpretable Mental Health Diagnosis
1000페이지 진단 매뉴얼의 복잡성 해결을 위한 혁신적 접근
남부 캘리포니아 대학교(USC) 연구진이 개발한 임상의사결정지원시스템(CDSS)이 대규모 언어모델(LLM)과 제약논리프로그래밍(CLP)을 결합해 정신건강 진단의 정확도를 100%까지 높였다는 연구 결과를 발표했다. 해당 논문에 따르면, DSM-5-TR과 ICD-11 CDDR과 같은 진단 매뉴얼은 1,000페이지가 넘는 방대한 분량으로, 과도한 업무에 시달리는 정신건강 전문가들의 부담을 가중시키고 진단 오류의 위험을 높이고 있었다.
데이터로그 기반의 3단계 정밀 진단 프로세스 구현
연구진이 개발한 시스템은 데이터로그(Datalog) 프로그래밍 언어를 활용해 3단계로 작동한다. 첫째, ICD-11 CDDR의 자연어 텍스트가 LLM에 입력되면 진단 규칙을 담은 후보 논리 프로그램이 생성된다. 둘째, 도메인 전문가가 이 프로그램을 검토하여 매뉴얼의 기준에 정확히 부합하도록 수정한다. 예를 들어, 혼재성 삽화(Mixed Episode)의 정의를 조정하고 현재 기분 삽화의 진단 로직을 개선하는 등의 작업이 이루어진다. 마지막으로, Soufflé라는 최신 데이터로그 엔진에서 완성된 논리 프로그램을 실행하여 진단 결과를 도출한다.

4가지 기분장애에 대한 30명의 환자 진단 결과 분석
연구팀은 4가지 주요 기분장애(양극성 장애 I형, 양극성 장애 II형, 단일 삽화 우울 장애, 재발성 우울 장애)에 대해 시스템을 평가했다. 30명의 환자 데이터 중 양극성 장애 I형 9명, 양극성 장애 II형 8명, 단일 삽화 우울 장애 5명, 재발성 우울 장애 4명을 정확하게 진단했으며, 나머지 4명은 진단 기준에 해당하지 않음을 올바르게 판별했다.
최신 LLM 3종의 성능 비교 분석 결과
2024년 5월 출시된 GPT-4O, GEMINI-1.5-FLASH, 2024년 9월 출시된 LLAMA-3.2를 대상으로 세 가지 접근법을 비교했다. LLM 단독 사용 시에는 GPT가 30명 중 22명(73.3%), Gemini와 Llama가 각각 19명(63.3%)을 정확하게 진단했다. LLM이 생성한 논리 프로그램만을 사용했을 때는 GPT 7/10, Gemini 4/10(부분 정확 포함), Llama 3/10의 정확도를 보였다. 특히 Gemini는 양극성 장애 I형과 II형을 동시에 진단하는 등의 오류를 보였다.
154줄의 코드로 구현된 정밀 진단 시스템
연구진은 프로그램 개선 과정에서 초기 107줄의 코드를 154줄로 확장했다. 구체적으로 47줄을 추가하고 6줄을 수정하여 순환 종속성과 임상적 비일관성을 해결했으며, 추가로 10줄을 추가하고 4줄을 제거하여 현재 기분 삽화 진단 로직을 개선했다. 이를 통해 GPT가 생성한 초기 코드의 한계를 극복하고 완벽한 진단 정확도를 달성했다.
환자 데이터 보안 강화와 진단 과정의 투명성 확보
이 시스템은 환자의 민감한 정보를 직접 LLM에 입력하지 않고 논리 프로그램을 통해 처리한다. 또한 모든 진단 과정이 명시적인 규칙으로 표현되어 있어 결과의 해석이 용이하다. 특히 진단 기준을 데이터로그 규칙으로 변환하는 과정에서 전문가의 검토가 가능하여, LLM의 환각 현상이나 일관성 부족 같은 문제를 효과적으로 방지할 수 있다.
윤리적 고려사항과 실제 임상 적용을 위한 제언
연구진은 이 시스템이 전문가의 진단을 완전히 대체하는 것이 아닌 보조 도구로 사용되어야 함을 강조했다. 또한 도메인별 LLM 미세조정, 실제 임상 데이터셋 평가, 더 세밀한 진단 기준 적용 등을 향후 연구 방향으로 제시했다. 이 연구는 AI 기술과 전문가 지식의 균형 잡힌 결합을 통해 정신건강 진단의 정확성과 신뢰성을 크게 향상시킬 수 있음을 입증했다.
해당 기사에서 인용한 논문은 링크에서 확인할 수 있다.
이미지출처: 이디오그램 생성
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기