데이터가 있는 곳 어디서나 AI를 연결하는 유일한 기업 클라우데라가 기업의 AI 활용 확대에 따른 리스크를 줄이기 위한 핵심 도구로 합성 데이터를 제시했다. 클라우데라는 합성 데이터를 체계적으로 관리하고 운영할 경우, 민감한 데이터 노출을 최소화하면서도 AI 개발과 고도화를 지속할 수 있다고 강조했다.
AI가 기업 운영 전반에 깊숙이 통합되면서 대규모언어모델은 고객 지원, 데이터 분석, 개발자 생산성, 지식 관리 등 다양한 업무 영역에서 활용되고 있다. 최근에는 AI 에이전트가 부상하며, AI가 단순한 정보 검색과 추론을 넘어 실제 업무를 수행하는 단계로 진화하고 있다.
이 같은 흐름 속에서 AI 활용이 확대될수록 프라이버시와 데이터 보호에 대한 우려도 커지고 있다. AI 모델의 성능을 높이기 위해 활용되는 데이터에는 고객 지원 대화 기록, 거래 내역, 운영 로그 등 개인식별정보와 규제 대상 정보, 기업 고유의 비즈니스 맥락이 포함되는 경우가 많기 때문이다.
클라우데라는 이러한 문제의 대안으로 합성 데이터를 제시했다. 합성 데이터는 실제 데이터셋의 핵심 패턴을 반영하면서도 개별 기록을 재현하지 않도록 알고리즘으로 생성된 데이터다. 이를 활용하면 기업은 민감한 정보 노출 위험을 줄이면서도 AI 모델 개발과 테스트를 진행할 수 있다.
합성 데이터는 이제 단순한 테이블 데이터 생성 단계를 넘어 실제 업무 흐름을 반영하는 수준으로 진화했다. 기업은 원본 데이터를 사용하지 않고도 합성 인스트럭션 데이터, 합성 대화 데이터, 합성 인시던트 티켓, 합성 질의응답 데이터 등을 생성할 수 있으며, 이는 AI 개발 전반에서 실질적인 활용 가치를 갖는다.
클라우데라는 합성 데이터가 특히 중요한 의미를 갖는 AI 개발 영역으로 지도 학습 기반 파인튜닝과 도메인 적응, 대규모 AI 모델 평가, 검색증강생성과 AI 에이전트 맞춤 데이터 큐레이션 등 세 가지를 꼽았다.
지도 학습 기반 파인튜닝과 도메인 적응의 경우, 기업은 AI 모델이 자사 고유의 용어와 정책, 제품 구조, 에스컬레이션 로직을 정확히 이해하길 원한다. 그러나 이러한 미세조정에 필요한 학습 데이터는 민감 정보를 포함하는 경우가 많아 활용에 제약이 따른다. 합성 데이터 세트는 실제 업무의 의도와 형식을 반영하면서도 개인정보 노출 위험을 최소화해 보다 안전한 학습 환경을 제공한다.
대규모 AI 모델 평가 역시 기업 환경에서 중요한 과제다. 기업용 AI 프로그램에서는 일상적인 질의부터 엣지 케이스, 오류 시나리오, 컴플라이언스에 민감한 주제까지 다양한 상황을 테스트해야 한다. 합성 작업 생성을 활용하면 수동 방식보다 빠르고 반복 가능한 평가 세트를 구축할 수 있어, 실제 서비스 적용 이전에 모델 동작에 대한 신뢰도를 높이는 동시에 민감한 원본 데이터 사용을 줄일 수 있다.
검색증강생성과 AI 에이전트 워크플로우 영역에서도 합성 데이터의 활용 가치는 크다. 이들 기술은 지식 기반과 테스트 프롬프트의 품질에 크게 좌우되는데, 합성 데이터는 현실적인 질의와 변형, 다단계 상호작용을 생성해 검색 및 도구 사용 행태를 정밀하게 검증할 수 있도록 돕는다. 이를 통해 실제 민감한 대화 데이터를 입력 데이터로 사용해야 하는 빈도를 낮출 수 있다.
세르지오 가고 클라우데라 CTO는 합성 데이터에 대해 체계적으로 관리될 때 개인정보 노출을 줄이면서 모델 개발을 지속할 수 있는 리스크 감소 도구라며, 대규모언어모델과 에이전트 AI 배포가 확대되는 환경에서 합성 데이터는 민감한 개인정보에 대한 의존도를 낮추는 현실적인 경로가 될 것이라고 밝혔다.
최승철 클라우데라코리아 지사장 역시 최근 연쇄적인 대형 데이터 유출 사고가 이어지는 상황에서 국내 기업들은 철저한 데이터 보안을 준수하면서 AI 혁신을 추진해야 하는 과제를 안고 있다며, 합성 데이터는 데이터 보안 리스크를 최소화하면서도 AI 경쟁력을 확보할 수 있는 전략적 수단이 될 것이라고 강조했다.
이준문 기자/jun@newstap.co.kr
ⓒ 뉴스탭(https://www.newstap.co.kr) 무단전재 및 재배포금지
[뉴스탭 인기 기사]
· 앱코, 10만 원대 120Hz IPS 모니터 출시…가성비 시장 정조준
· “윈도우11 최신 업데이트 설치 후 먹통?” KB5074109 오류 확산
· 샤오미코리아, ‘포코 M8 5G’ 국내 출시… 30만 원대 실속형 5G 스마트폰
· 조텍코리아, RTX 5080까지 VIP 멤버십 확대…골드 등급 신설
· 케이시, 이정 ‘그댈 위한 사랑’ 20년 만에 재해석…2월 1일 리메이크 음원 발매








