
Health Sentinel: An AI Pipeline For Real-time Disease Outbreak Detection
인도의 비영리 독립 연구 기관 와드와니 AI(Wadhwani AI)와 인도 질병통제센터(NCDC)가 공동 개발한 헬스 센티넬(Health Sentinel)이 전통적인 질병 감시체계의 한계를 극복하며 주목받고 있다. 해당 논문에 따르면, 이 AI 파이프라인은 2022년 4월 도입 이후 3억 개 이상의 뉴스 기사를 처리하여 9만 5천 건의 고유한 보건 사건을 식별했으며, 이 중 3,500건이 공중보건 전문가들에 의해 잠재적 발생 사건으로 선별되었다.
GPT-4o-Mini가 68% 정확도로 기존 질의응답 방식 40% 압도한 비결
헬스 센티넬의 핵심은 대규모 언어모델(LLM)을 활용한 사건 추출 기술이다. 연구진이 다양한 모델을 비교 평가한 결과, GPT-4o-Mini가 68%의 F1 점수를 기록하며 최고 성능을 보였다. 이는 기존의 질의응답(QA)과 자연어추론(NLI) 기반 파이프라인의 40% F1 점수를 크게 상회하는 결과다. 라마3.1-8b(Llama3.1-8b)와 젬마2-9b(Gemma2-9b) 같은 오픈소스 모델들도 각각 50%와 52%의 F1 점수로 경쟁력 있는 성능을 보여주었다.

커먼 크롤과 구글 알람으로 매일 37만 5천 기사 수집, 13개 언어 동시 지원
헬스 센티넬의 차별화된 특징 중 하나는 다국어 지원 기능이다. 영어를 포함하여 힌디어, 텔루구어, 칸나다어, 구자라트어, 타밀어, 펀자브어, 벵골어, 마라티어, 말라얄람어, 오리야어, 아삼어, 우르두어 등 13개 언어를 지원한다. 이를 통해 기존에 소외되었던 지역의 보건 정보까지 포괄적으로 수집할 수 있게 되었다.
시스템은 매일 약 37만 5천 개의 뉴스 기사를 처리하며 약 150건의 고유한 보건 사건을 식별한다. 데이터 수집은 커먼 크롤(Common Crawl), 구글 알람(Google x-alerts), 맞춤형 크롤러를 통해 이루어진다. 특히 구글 알람의 경우 공중보건 전문가들이 122개 질병에 대해 12개 인도 언어로 선별한 키워드를 활용한다. 수집된 기사의 87%가 보건과 무관한 내용이므로, 로버타 베이스(RoBERTa-base) 등의 트랜스포머 기반 이진 분류기를 통해 1차 필터링을 수행한다.
로버타와 바이오버트 앙상블로 96% 정확도 달성, 인딕트랜스2로 다국어 번역
헬스 센티넬은 다단계 정보 추출 파이프라인을 통해 높은 정확도를 달성한다. 기사 분류 단계에서는 각 언어별로 최적화된 모델이 96%의 재현율과 F1 점수를 기록했다. 영어의 경우 로버타 베이스 모델이, 다른 언어들에서는 구글/무릴 베이스 케이스드(google/muril-base-cased)와 XLM-로버타 베이스(xlm-roberta-base) 모델이 최고 성능을 보였다.
번역 단계에서는 인딕트랜스2(IndicTrans2)를 사용하여 영어가 아닌 기사들을 영어로 번역한다. 이는 후속 ML 모델들이 영어에서 더 나은 성능을 보이기 때문이다. 질병과 위치 기반 필터링에서는 바이오버트(BioBERT) 질병 개체명 인식 모델과 키워드 검색을 결합한 앙상블 방식을 사용한다. 인도 내 주, 구, 소구역별 포괄적인 위치 목록을 구축하여 인도 내 사건만을 선별한다.
DFS 알고리즘으로 중복 제거, 전문가 검토로 150% 성과 향상 달성
사건 추출 후에는 중복 제거를 위한 클러스터링이 수행된다. 패러프레이즈-디스틸로버타-베이스-v2(paraphrase-distilroberta-base-v2) 문장 변환기를 사용하여 기사 임베딩을 생성하고, 코사인 유사도를 계산한다. 규칙 기반 접근법을 통해 임계값을 설정하고, 깊이 우선 탐색(DFS)을 수행하여 고유 사건 클러스터를 형성한다. 평가 결과 조정 랜드 지수(ARI) 0.89, 정규화 상호정보(NMI) 0.98, V-측정 0.98의 높은 성능을 달성했다.
최종적으로 추출된 보건 사건들은 NCDC의 공중보건 전문가들이 현장 역학 지표를 바탕으로 검토한다. 이러한 인간-AI 협업 모델을 통해 시스템의 신뢰성을 확보하고 있다. 헬스 센티넬 도입 후 발행된 사건 수는 기존 인간 기반 감시체계 대비 150% 증가했으며, 2024년에는 감시체계에서 발행된 보건 사건의 96%가 헬스 센티넬에 의해 추출되었다.
FAQ
Q: 헬스 센티넬이 기존 질병 감시체계와 다른 점은 무엇인가요?
A: 기존의 지표 기반 감시체계는 의료진과 보건소에서 보고하는 확진 사례에 의존하여 보고 지연이 발생했습니다. 헬스 센티넬은 온라인 뉴스 기사를 실시간으로 분석하여 질병 발생을 조기에 탐지할 수 있으며, 13개 인도 언어를 지원하여 지역 격차를 해소합니다.
Q: AI가 어떻게 뉴스 기사에서 질병 정보를 정확하게 추출하나요?
A: 대규모 언어모델(LLM)을 사용하여 기사에서 질병명, 위치, 사건 유형(사례/사망), 사건 종류(신규/누적), 수치 등 5가지 핵심 정보를 구조화된 형태로 추출합니다. GPT-4o-Mini 모델이 68%의 정확도로 최고 성능을 보였습니다.
Q: 헬스 센티넬의 실제 성과는 어떻게 평가할 수 있나요?
A: 2022년 4월 도입 이후 3억 개 기사에서 9만 5천 건의 고유 보건 사건을 식별했으며, 이 중 3,500건이 전문가에 의해 잠재적 발생 사건으로 선별되었습니다. 매일 37만 5천 개 기사를 처리하여 150건의 고유 보건 사건을 실시간으로 탐지하고 있습니다.
해당 기사에 인용된 논문 원문은 arxiv에서 확인 가능하다.
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기