가트너(Gartner)가 발표한 최신 보고서에 따르면, 2025년까지 생성형 AI(Generative AI) 프로젝트의 30%가 개념 증명(PoC) 단계에서 중단될 것으로 전망됐다. 주요 실패 원인으로는 데이터 품질 부족, 불충분한 위험 통제, 비용 상승, 모호한 비즈니스 가치 등이 지목됐다. AI를 위한 데이터 준비는 일회성 작업이 아니며, 모든 데이터를 미리 준비할 수도 없다. 대신 메타데이터를 기반으로 데이터를 정렬, 검증, 관리하는 지속적인 프로세스와 실행이 필요하다.
이미지 출처: Gartner
가트너가 제시하는 AI 데이터 준비를 위한 세 가지 핵심 요소는 다음과 같다.
정렬(Alignment)은 AI 사용 사례에 맞는 데이터 기반을 구축하는 것으로, 정량화와 의미론적 구조화, 품질 관리, 신뢰성과 공정성 확보, 다양성 보장, 데이터 계보 관리 등을 포함한다.
검증(Qualification)은 AI가 요구하는 신뢰도 요건을 충족시키는 작업으로, 일관성 평가, 검증 및 확인 프로세스, 운영 수준 협약(SLA) 관리, 버전 관리, 지속적인 회귀 테스트, 관찰 가능성 지표 모니터링 등이 포함된다.
거버넌스(Governance)는 AI 사용 사례 맥락에서 데이터를 관리하는 것으로, 데이터 스튜어드십 확립, 추론 및 파생 데이터 관리, 규제 준수, AI 표준 지원, 안전한 데이터 공유 체계 구축 등을 다룬다.
효과적인 AI 데이터 거버넌스를 위해서는 다섯 단계의 체계적인 접근이 필요하다. 첫째, 데이터 관리 준비도를 평가한다. 둘째, 이사회의 지지를 확보한다. 셋째, 데이터 관리 실무를 발전시킨다. 넷째, 데이터 관리 생태계를 확장한다. 다섯째, 규모를 확대하고 거버넌스를 강화한다.
특히 거버넌스 단계에서는 명확한 구조, 역할, 프로세스, 관행을 갖춘 거버넌스 이니셔티브를 수립해야 한다. 규제 변화를 지속적으로 모니터링하고 기업에 미치는 영향을 평가하여 AI 윤리와 책임 있는 사용 등의 이니셔티브를 가속화하고 조정하는 것도 중요하다. 또한 현재의 데이터 및 AI 리터러시 수준을 평가하고 체계적인 교육 커리큘럼을 마련하여 전 직원의 역량을 개발해야 한다.
가트너는 특히 검색 강화 생성(Retrieval-Augmented Generation, RAG) 시스템의 성공적인 구축을 위해서는 세 가지 핵심 요소에 주목해야 한다고 강조했다. 먼저 특정 사용 사례에 중점을 둔 범위 설정이 필요하다. 또한 구조화된 데이터, 반구조화된 데이터, 비구조화된 데이터 등 기반 데이터의 특성을 정확히 파악하여 처리 절차를 수립하고 잠재적 위험을 식별해야 한다. 마지막으로 메타데이터를 통한 데이터 강화가 필수적이며, 이는 현재 RAG 배포뿐만 아니라 향후 기반 기술의 발전을 위해서도 중요하다고 설명했다.
기사에 인용된 리포의 원문은 링크에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기