
Do Not Trust Licenses You See—Dataset Compliance Requires Massive-Scale AI-Powered Lifecycle Tracing
복잡화된 AI 데이터셋의 위험성, 법적 분쟁으로 현실화
LG AI리서치가 발표한 연구 논문에 따르면, AI 트레이닝 데이터셋의 법적 위험성은 단순히 라이선스 조건만으로는 정확하게 평가할 수 없다는 사실이 밝혀졌다. 특히 뉴욕타임스와 OpenAI의 소송(2023), Getty Images와 Stability AI의 소송(2023)와 같은 법적 분쟁들은 AI 개발과 규제 프레임워크 간의 긴장이 고조되고 있음을 보여준다. 아울러 최근 연구(Buick, 2024)는 AI 학습 데이터셋과 관련된 위험성을 강조하며, 책임 있는 AI 데이터 사용을 위한 법적 기준의 필요성을 제기했다.
18개 평가 기준 기반의 NEXUS 프레임워크로 법적 위험 평가 자동화
연구진은 이러한 문제를 해결하기 위해 AI 기반 데이터 준법성 평가 시스템 'NEXUS(넥서스)'를 개발했다. NEXUS는 저작권법, 개인정보보호, 불공정경쟁법을 포함한 주요 법적 측면을 통합하여 18개의 가중 기준에 따라 데이터셋을 평가한다. 각 평가 기준은 1점부터 5점까지의 척도로 평가되며, 5점이 가장 낮은 위험을, 1점이 가장 높은 위험을 나타낸다. 이 시스템은 라이선스 조건뿐만 아니라 데이터 출처, 변환 프로세스, 재배포 경로까지 포괄적으로 분석한다.

데이터셋 재배포의 심각한 법적 위험성: 17,429개 분석 결과
연구팀의 대규모 분석 결과, 3,612개의 대상 데이터셋 중 2,086개(57.8%)가 다층 구조를, 1,526개(42.2%)가 단일 구조를 가지고 있었다. 더욱 우려스러운 점은 25,266건의 파생-직접 종속성 관계 분석 중 8,952건만이 등급 역전 현상이 없었다는 것이다. 이는 엔티티가 법적 위험을 가질 때 62.6%의 확률로 이러한 위험이 재배포된 데이터셋에 명시적으로 반영되지 않는다는 것을 의미한다.
AutoCompliance의 놀라운 효율성: 처리시간 98% 단축, 비용 99% 절감
AutoCompliance는 종속성 찾기에서 81.04%, 라이선스 조건 찾기에서 95.83%의 정확도를 보여, 인간 전문가(각각 64.19%, 87.73%)를 크게 앞섰다. 특히 GCP a2-megagpu-16gpu 노드에서 실행된 AutoCompliance는 53.1초 만에 작업을 완료하고 0.29달러의 비용만 발생한 반면, 인간 전문가는 2,418초가 소요되고 207달러의 비용이 발생했다.
데이터셋 구성의 복잡성: 13,817개 종속성 엔티티 유형 분석
연구팀이 확인한 13,817개의 종속성 엔티티 중 데이터셋 유형이 33.9%로 가장 큰 비중을 차지했다. 소프트웨어/API, AI 모델, 플랫폼 서비스 제공자가 총 25.6%를 차지했으며, 이는 데이터 편집, 번역, 증강 활동이 활발함을 보여준다. 특히 다층 구조 데이터셋의 평균 깊이가 3단계이며, 가장 깊은 경우 16단계에 달하는 것으로 나타나 데이터셋의 복잡성이 매우 높은 것으로 확인되었다.
라이선스 준수 실태: 8,072개 라이선스 분석 결과
17,429개의 고유 엔티티 중 8,072개만이 라이선스 정보를 제공하고 있었다. 이는 AutoCompliance의 한계가 아닌 웹상의 라이선스 정보 부재로 인한 것으로, 인간 전문가도 마주하게 될 동일한 문제다. 이는 데이터, 플랫폼, 도구의 법적이고 윤리적인 사용에 있어 중요한 장벽이 될 수 있음을 시사한다.
데이터셋 라이선스의 3가지 유형과 법적 위험도
연구팀은 데이터셋의 라이선스 조건을 3가지 유형으로 분류했다. Type 1은 데이터를 자유롭게 배포, 사용, 수정, 결합할 수 있는 가장 자유로운 형태의 라이선스다. Type 2는 데이터 사용과 배포가 허용되지만 특정 조건을 충족해야 하는 경우로, 다섯 가지 하위 유형으로 세분화된다. 여기에는 저자, 출처, 저작권, 라이선스 정보 고지 의무(MIT, BSD, CC-BY), 수정 사항 통보 의무(Apache-2.0, GPL 시리즈), 대규모 작업 생성 시 저자 허가 필요(GPL v2.0, LGPL v2.1) 등이 포함된다.
특히 주목할 만한 점은 파생 작업 전체에 동일 라이선스 적용 의무(GPL 시리즈, CC-BY-SA)와 데이터 서브라이선싱만 허용하는 경우(상업용 라이선스)다. Type 3은 데이터 사용은 가능하지만 배포, 수정, 결합, 파생이 금지된 경우로, AI 모델 개발에 매우 제한적인 효용만을 제공한다.
17,429개의 고유 엔티티 중 Type 1이 8,781개(50.3%), Type 2가 2,136개(12.2%), Type 3이 6,512개(37.4%)로 나타났다. Type 2나 Type 3 조건을 준수하지 않은 재배포 사례는 총 9,905건이 발견되었는데, 이 중 8,268건(83.5%)은 재배포가 명시적으로 금지된 경우였고, 1,637건(16.5%)은 라이선스 조건 불일치로 인한 법적 문제가 있는 사례였다.
AI 데이터 거버넌스의 새로운 도전과제
이 연구는 AI 트레이닝 데이터셋의 법적 위험이 표면적인 라이선스 검토만으로는 판단할 수 없으며, 전체 수명주기에 걸친 분석이 필수적이라는 점을 입증했다. 연구진은 이러한 분석의 복잡성과 규모로 인해 AI 에이전트의 활용이 불가피하며, 자동화 없이는 중요한 법적 위험이 대부분 검토되지 않은 채 남게 될 것이라고 경고했다.
해당 기사에 인용된 논문 원문은 링크에서 확인 가능하다.
기사는 클로드 3.5 Sonnet과 챗GPT를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기