미국 식품의약국(FDA)이 도입한 AI 기반 업무 지원 도구 ‘Elsa’가 신뢰성 논란에 휩싸였다. 최근 내부 직원들의 증언을 인용한 보도에 따르면, Elsa는 존재하지 않는 과학 연구 결과를 생성하거나, 데이터를 오해한 채 잘못된 분석을 제공하는 등 ‘hallucination(환각)’ 문제가 발생하고 있는 것으로 나타났다.
Elsa는 올해 6월부터 FDA 전 부서에 전면 도입된 AI 플랫폼이다. 당초 FDA는 해당 도구를 통해 임상 프로토콜 요약, 이상 반응 정리, 라벨링 비교, 내부 검색 시스템 개선 등 행정 효율을 높이겠다는 계획을 밝혔다. 실제로 일부 작업은 기존 2\~3일이 소요되던 과제가 6분 만에 처리됐다는 내부 평가도 있었다.
그러나 도입 초기부터 내부에서는 우려의 목소리가 나왔다. CNN과 Gizmodo 등에 따르면, 다수의 FDA 직원이 Elsa가 “없는 논문을 진짜처럼 요약하거나”, “데이터를 부정확하게 재구성한다”고 증언했다. 특히 정책적 판단의 참고 자료로 활용되기엔 위험성이 높다는 지적이 제기됐다.
이에 대해 FDA는 Elsa를 규제 판단의 도구가 아닌 보조 시스템이라고 해명하며, “사용자는 결과를 반드시 검증해야 하며, 자동으로 정책 결정에 반영되진 않는다”고 밝혔다. 또한, Elsa는 외부 산업체가 제출한 문서에는 접근하지 않으며, 오직 내부 문서만을 처리 대상으로 한다는 점을 강조했다.
그럼에도 불구하고 전문가들은 이 같은 해명이 충분치 않다고 본다. 메디컬 이코노믹스는 “FDA가 인력 부족을 Elsa로 보완하려는 시도 속에서, 도구의 안정성과 정확성 검토가 선행되지 않았다”고 지적했다. 일각에서는 Elsa 도입이 AI 기술의 효율성만을 추구하며, 실제 품질이나 책임 구조에 대한 논의는 소홀히 한 것 아니냐는 비판도 나온다.
FDA는 향후 Elsa에 문서 업로드 기능, 결과 감사 도구 등을 추가로 탑재해 정확도를 높이겠다는 계획이다. 동시에 사용자의 피드백을 수집해 알고리즘 개선에 반영한다는 방침이다.
이번 논란은 공공기관이 AI를 업무에 도입할 때 얼마나 높은 수준의 투명성과 신뢰성을 확보해야 하는지를 보여주는 대표적 사례다. AI 기술이 규제 영역으로 확산되는 상황에서, Elsa의 진화는 단순한 성능 개선을 넘어 AI 책임 거버넌스 정립의 출발점이 될 수 있다.
글 / 한만수 news@cowave.kr
(c) 비교하고 잘 사는, 다나와 www.danawa.com