
From Payrolls to Patents: The Spectrum of Data Leaked into GenAI
"직원 48%가 기업 정보 무단 입력"... AI 도구로 인한 데이터 유출 실태
보안 전문기업 하모닉(Harmonic)이 발표한 '생성형 AI로 유출되는 데이터 현황' 보고서에 따르면, 직원들의 생성형 AI 도구 사용 과정에서 상당한 양의 민감 정보가 외부에 노출되고 있는 것으로 나타났다. 시스코(Cisco)의 연구에 따르면 기업의 48%가 직원들이 생성형 AI 도구에 비공개 기업 정보를 입력하고 있다고 보고했으며, 68%는 이러한 정보가 경쟁사나 대중에게 노출될 위험을 우려하고 있다.
직원들의 일상적 AI 사용이 기업 정보 유출로 이어져
하모닉은 마이크로소프트 코파일럿(Microsoft Copilot), 챗GPT(ChatGPT), 구글 제미니(Google Gemini), 앤스로픽 클로드(Anthropic Claude), 퍼플렉시티(Perplexity) 등 주요 생성형 AI 도구들의 입력 데이터 수만 건을 분석했다. 분석 결과에 따르면, 대부분의 직원들은 텍스트 요약, 블로그 편집, 코드 문서화 등 일상적인 작업을 위해 이러한 도구들을 사용하고 있었다. 그러나 전체 입력 데이터 중 8.5%가 민감정보를 포함하고 있었으며, 이는 기업 보안에 심각한 위험요소로 작용할 수 있다.
고객정보 45.7%, 직원정보 26.8%... 민감정보 유출 현황 분석
전체 민감정보 중 가장 큰 비중을 차지한 것은 고객 데이터로 45.77%에 달했다. 이를 세부적으로 살펴보면 고객 보고서가 65.8%, 고객 프로필이 20.9%, 결제 거래 정보가 8.9%, 신용카드 정보가 1.7%, 청구 정보가 2.0%, 고객 인증 정보가 0.5%, 분쟁 해결 데이터가 0.2%를 차지했다. 특히 보험 청구 정보와 같은 상세한 개인정보가 포함되어 있어 심각한 개인정보 유출 위험을 초래할 수 있는 것으로 나타났다.
직원 관련 데이터는 전체 민감정보의 26.83%를 차지했으며, 이는 성과 평가, 채용 결정, 보너스 계획 등과 관련된 정보였다. 구체적으로는 직원 급여 정보가 49.6%, 직원 개인식별정보가 49.6%, 고용 기록이 0.8%를 차지했다. 법률 및 재무 데이터는 14.88%를 차지했는데, 여기에는 영업 파이프라인 데이터(45.5%), 인수합병 정보(22.0%), 법률 문서(13.6%), 투자 포트폴리오 데이터(15.9%), 재무 전망(2.3%), 특허 정보(0.8%) 등이 포함되어 있었다.
"챗GPT 무료버전 사용자 63.8%"... 데이터 보안 위험 심각
보안 관련 정보는 전체의 6.88%를 차지했으며, 이는 특히 우려할 만한 수치다. 네트워크 구성이 34.4%, 보안사고 보고서가 31.1%, 사용자 접근 로그가 16.4%, 관리 시스템 설정이 8.2%, 보안 정책이 4.9%, 백업 계획이 3.3%, 접근 제어 정책이 1.7%를 차지했다. 이러한 정보들은 공격자들에게 취약점을 노출할 수 있는 중요한 정보들이다.
특히 재해 복구 계획과 같이 일견 무해해 보이는 정보조차 조직의 보안 태세에 대한 중요한 통찰을 제공할 수 있어 잠재적 공격자들에게 유용한 정보가 될 수 있다. 이는 겉보기에 안전해 보이는 정보도 보안 측면에서는 신중하게 다뤄야 함을 시사한다.
"민감 코드 5.64% 유출, 접근키가 82% 차지" ... 기업 보안 위험
전체 민감정보 중 5.64%를 차지한 민감한 코드에는 접근 키(82.0%)와 독점 소스 코드(18.0%)가 포함되어 있었다. 특히 우려되는 점은 챗GPT 사용자의 63.8%가 무료 버전을 사용하고 있으며, 이들이 입력한 데이터의 53.5%가 민감정보를 포함하고 있다는 사실이다. 제미니 사용자의 58.62%, 클로드 사용자의 75%, 퍼플렉시티 사용자의 50.48%도 무료 버전을 사용하고 있어 기업 데이터 보안에 큰 위험요소로 작용하고 있다.
"기업 96%가 AI 거버넌스 구축 중"... 아마존·삼성도 데이터 유출 사고
엔터프라이즈 스트래티지 그룹(Enterprise Strategy Group)의 연구에 따르면, 기업의 96%가 생성형 AI 사용을 위한 거버넌스 구조를 구축 중이며, 82%가 데이터 유출을 우려하고 있다. 기업들은 민감한 데이터 노출로 인한 경쟁력 상실과 생성형 AI를 도입하지 않았을 때의 기술적 낙오라는 이중고에 직면해 있다. 실제로 아마존과 삼성의 경우 직원들의 생성형 AI 도구 사용 과정에서 의도치 않은 데이터 노출 사고를 겪은 바 있다.
"실시간 모니터링 등 6대 통제방안 제시"... 하모닉의 AI 보안 가이드라인
하모닉은 기업들이 단순히 생성형 AI 사용을 차단하는 것이 아닌 더 지능적인 통제 방안을 도입해야 한다고 제안했다. 주요 대응 방안으로는 생성형 AI 도구 사용에 대한 실시간 모니터링 시스템 구축, 데이터를 학습하지 않는 유료 버전 사용 정책 수립, 프롬프트 수준의 가시성 확보, 데이터 유출 시점에서의 민감 데이터 분류 체계 수립, 부서별 맞춤형 스마트 규칙 실행, 생성형 AI의 책임있는 사용을 위한 직원 교육 등이 제시되었다.
하모닉은 이러한 통제 방안들이 단순히 생성형 AI 사용을 제한하는 것이 아니라, 조직이 생성형 AI의 이점을 안전하게 활용하면서도 데이터 프라이버시를 보호할 수 있게 해주는 균형잡힌 접근법이라고 강조했다. 이는 전 세계 조직들이 데이터 프라이버시 위험 없이 생성형 AI를 안전하게 도입할 수 있도록 지원하는 것을 목표로 한다.
해당 기사에서 인용한 리포트 원문은 링크에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기