비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

AI 데이터셋 79%가 상업적 활용 불가... LG, 데이터셋 저작권 문제 파악하는 에이전트 '넥서스' 출시

2025.02.21. 11:14:01
조회 수
372
6
댓글 수
3

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

Do Not Trust Licenses You See—Dataset Compliance Requires Massive-Scale AI-Powered Lifecycle Tracing


복잡화된 AI 데이터셋의 위험성, 법적 분쟁으로 현실화

LG AI리서치가 발표한 연구 논문에 따르면, AI 트레이닝 데이터셋의 법적 위험성은 단순히 라이선스 조건만으로는 정확하게 평가할 수 없다는 사실이 밝혀졌다. 특히 뉴욕타임스와 OpenAI의 소송(2023), Getty Images와 Stability AI의 소송(2023)와 같은 법적 분쟁들은 AI 개발과 규제 프레임워크 간의 긴장이 고조되고 있음을 보여준다. 아울러 최근 연구(Buick, 2024)는 AI 학습 데이터셋과 관련된 위험성을 강조하며, 책임 있는 AI 데이터 사용을 위한 법적 기준의 필요성을 제기했다.

18개 평가 기준 기반의 NEXUS 프레임워크로 법적 위험 평가 자동화

연구진은 이러한 문제를 해결하기 위해 AI 기반 데이터 준법성 평가 시스템 'NEXUS(넥서스)'를 개발했다. NEXUS는 저작권법, 개인정보보호, 불공정경쟁법을 포함한 주요 법적 측면을 통합하여 18개의 가중 기준에 따라 데이터셋을 평가한다. 각 평가 기준은 1점부터 5점까지의 척도로 평가되며, 5점이 가장 낮은 위험을, 1점이 가장 높은 위험을 나타낸다. 이 시스템은 라이선스 조건뿐만 아니라 데이터 출처, 변환 프로세스, 재배포 경로까지 포괄적으로 분석한다.


데이터셋 재배포의 심각한 법적 위험성: 17,429개 분석 결과

연구팀의 대규모 분석 결과, 3,612개의 대상 데이터셋 중 2,086개(57.8%)가 다층 구조를, 1,526개(42.2%)가 단일 구조를 가지고 있었다. 더욱 우려스러운 점은 25,266건의 파생-직접 종속성 관계 분석 중 8,952건만이 등급 역전 현상이 없었다는 것이다. 이는 엔티티가 법적 위험을 가질 때 62.6%의 확률로 이러한 위험이 재배포된 데이터셋에 명시적으로 반영되지 않는다는 것을 의미한다.

AutoCompliance의 놀라운 효율성: 처리시간 98% 단축, 비용 99% 절감

AutoCompliance는 종속성 찾기에서 81.04%, 라이선스 조건 찾기에서 95.83%의 정확도를 보여, 인간 전문가(각각 64.19%, 87.73%)를 크게 앞섰다. 특히 GCP a2-megagpu-16gpu 노드에서 실행된 AutoCompliance는 53.1초 만에 작업을 완료하고 0.29달러의 비용만 발생한 반면, 인간 전문가는 2,418초가 소요되고 207달러의 비용이 발생했다.

데이터셋 구성의 복잡성: 13,817개 종속성 엔티티 유형 분석

연구팀이 확인한 13,817개의 종속성 엔티티 중 데이터셋 유형이 33.9%로 가장 큰 비중을 차지했다. 소프트웨어/API, AI 모델, 플랫폼 서비스 제공자가 총 25.6%를 차지했으며, 이는 데이터 편집, 번역, 증강 활동이 활발함을 보여준다. 특히 다층 구조 데이터셋의 평균 깊이가 3단계이며, 가장 깊은 경우 16단계에 달하는 것으로 나타나 데이터셋의 복잡성이 매우 높은 것으로 확인되었다.

라이선스 준수 실태: 8,072개 라이선스 분석 결과

17,429개의 고유 엔티티 중 8,072개만이 라이선스 정보를 제공하고 있었다. 이는 AutoCompliance의 한계가 아닌 웹상의 라이선스 정보 부재로 인한 것으로, 인간 전문가도 마주하게 될 동일한 문제다. 이는 데이터, 플랫폼, 도구의 법적이고 윤리적인 사용에 있어 중요한 장벽이 될 수 있음을 시사한다.

데이터셋 라이선스의 3가지 유형과 법적 위험도

연구팀은 데이터셋의 라이선스 조건을 3가지 유형으로 분류했다. Type 1은 데이터를 자유롭게 배포, 사용, 수정, 결합할 수 있는 가장 자유로운 형태의 라이선스다. Type 2는 데이터 사용과 배포가 허용되지만 특정 조건을 충족해야 하는 경우로, 다섯 가지 하위 유형으로 세분화된다. 여기에는 저자, 출처, 저작권, 라이선스 정보 고지 의무(MIT, BSD, CC-BY), 수정 사항 통보 의무(Apache-2.0, GPL 시리즈), 대규모 작업 생성 시 저자 허가 필요(GPL v2.0, LGPL v2.1) 등이 포함된다.

특히 주목할 만한 점은 파생 작업 전체에 동일 라이선스 적용 의무(GPL 시리즈, CC-BY-SA)와 데이터 서브라이선싱만 허용하는 경우(상업용 라이선스)다. Type 3은 데이터 사용은 가능하지만 배포, 수정, 결합, 파생이 금지된 경우로, AI 모델 개발에 매우 제한적인 효용만을 제공한다.

17,429개의 고유 엔티티 중 Type 1이 8,781개(50.3%), Type 2가 2,136개(12.2%), Type 3이 6,512개(37.4%)로 나타났다. Type 2나 Type 3 조건을 준수하지 않은 재배포 사례는 총 9,905건이 발견되었는데, 이 중 8,268건(83.5%)은 재배포가 명시적으로 금지된 경우였고, 1,637건(16.5%)은 라이선스 조건 불일치로 인한 법적 문제가 있는 사례였다.


AI 데이터 거버넌스의 새로운 도전과제

이 연구는 AI 트레이닝 데이터셋의 법적 위험이 표면적인 라이선스 검토만으로는 판단할 수 없으며, 전체 수명주기에 걸친 분석이 필수적이라는 점을 입증했다. 연구진은 이러한 분석의 복잡성과 규모로 인해 AI 에이전트의 활용이 불가피하며, 자동화 없이는 중요한 법적 위험이 대부분 검토되지 않은 채 남게 될 것이라고 경고했다.

해당 기사에 인용된 논문 원문은 링크에서 확인 가능하다.

기사는 클로드 3.5 Sonnet과 챗GPT를 활용해 작성되었습니다.





AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 신상품뉴스 전체 둘러보기
1/1
삼성 25년형 'HW-Q990F, HW-Q930F' 사운드바 출시 (1) 다나와
기가바이트, PCIe 5.0 지원하는 B760 GEN5 시리즈 메인보드 출시 예고 (1) 뉴스탭
2025, 3월의 주목할만 한 신제품 5개 : '낭만을 사세요' #신제품소개 동영상 있음 DmonkTV
오픈AI, '챗GPT 팀 플랜'에 내부 데이터 검색 기능 베타 출시... "기업 맞춤형 응답 가능" AI matters
서린씨앤아이 '서멀 그리즐리 듀로넛' 서멀 그래스 출시 다나와
제이씨현시스템, 고주사율 와이드 게이밍모니터 'GIGABYTE G34WQCP' 출시 다나와
에스티컴퓨터 'XFX 라데온 RX 9070 XT' 화이트 모델 3종 출시 다나와
알파스캔, 화이트 게이밍 모니터 '필립스 에브니아 27M2N5501' 출시 다나와
EFM네트웍스, AX3000급 와이파이6 공유기 ‘ipTIME AX3000Q’ 출시 다나와
아마존, 차세대 음성비서 ‘Alexa+’ 출시… 핵심 기능은 수개월 지연 전망 AI matters
칭따오, 710ml 라거 ‘빅캔’ 출시…대용량으로 청량함 더했다 (1) 뉴스탭
네파-보아 테크놀로지의 협업 신제품 ‘덱스터 듀얼 보아’ 출시 뉴스탭
봄 나들이에 딱, 마운티아 아토쉘 워킹화 신제품 공개 뉴스탭
일화, '레몬애사비스틱' 출시…휴대용 클렌즈 음료 시장 공략 뉴스탭
에스쁘아, 눈매 확장 전용 ‘아이 오프닝 펜슬’ 8종 출시 뉴스탭
구달, ‘청귤·어성초 겔 마스크’ 2종 출시… 잡티·수분 동시 케어 뉴스탭
세븐틴과 함께 만들었다. 하이브IM '퍼즐 세븐틴' 정식 출시 게임동아
이게 왜 진짜지? 실제로 출시됐던 만우절 게임들! (3) 게임동아
르노코리아, 쿠페형 SUV '아르카나' 업그레이드…2300만 원부터 시작 (1) 오토헤럴드
"전기차스럽게" 캐딜락 에스컬레이드 부분변경... 55인치 디스플레이 탑재 (3) 오토헤럴드
이 시간 HOT 댓글!
1/4