
오픈AI(OpenAI)의 인공지능 모델이 저작권이 있는 콘텐츠를 학습 데이터로 사용했다는 주장에 신빙성을 더하는 새로운 연구가 발표됐다. 테크크런치가 4일(현지 시간) 보도한 내용에 따르면, 워싱턴대학교, 코펜하겐대학교, 스탠퍼드대학교 연구진이 공동으로 발표한 이 연구는 오픈AI API 뒤에 있는 모델이 '기억한' 학습 데이터를 식별하는 새로운 방법을 제안했다.
현재 오픈AI는 저자, 프로그래머 및 기타 권리 소유자들로부터 자사의 인공지능 모델을 개발하기 위해 허가 없이 그들의 저작물(책, 코드베이스 등)을 사용했다는 혐의로 여러 소송에 휘말려 있다. 오픈AI는 오랫동안 공정 사용(fair use) 항변을 주장해왔지만, 원고들은 미국 저작권법에 학습 데이터를 위한 예외 조항이 없다고 주장하고 있다.
테크크런치에 따르면, 오픈AI의 GPT-4와 GPT-3.5를 포함한 여러 모델을 대상으로 한 연구 결과, GPT-4는 BookMIA라는 저작권이 있는 전자책 샘플을 포함하는 데이터셋의 인기 소설 일부를 기억한 징후를 보였다. 또한 이 모델이 뉴욕타임스 기사의 일부를 기억했다는 증거도 발견됐지만, 그 비율은 상대적으로 낮았다. 연구팀은 '높은 놀라움(high-surprisal)' 단어라고 부르는 용어에 의존하는 방법을 개발했다. 이는 더 큰 작품의 맥락에서 흔치 않은 것으로 두드러지는 단어를 말한다. 예를 들어, "잭과 나는 레이더(radar)가 윙윙거리는 소리를 내는 동안 완전히 가만히 앉아 있었다"라는 문장에서 '레이더'라는 단어는 '엔진'이나 '라디오'와 같은 단어보다 '윙윙거리는' 앞에 나타날 가능성이 통계적으로 낮기 때문에 높은 놀라움 단어로 간주된다.

연구진은 소설책과 뉴욕타임스 기사 일부에서 높은 놀라움 단어를 제거하고 모델에게 가려진 단어를 '추측'하도록 하여 기억의 징후를 조사했다. 모델이 정확하게 추측한다면, 학습 중에 해당 내용을 기억했을 가능성이 크다고 연구진은 결론지었다.
오픈AI는 오랫동안 저작권이 있는 데이터를 사용하여 모델을 개발하는 데 대한 제한을 완화하도록 주장해왔다. 회사는 특정 콘텐츠 라이선스 계약을 체결하고 저작권 소유자가 회사가 학습 목적으로 사용하지 않기를 원하는 콘텐츠를 표시할 수 있는 옵트아웃(opt-out) 메커니즘을 제공하고 있지만, 여러 정부에 AI 학습 접근 방식에 관한 '공정 사용' 규칙을 성문화하도록 로비해왔다.
이번 연구는 인공지능 개발에 있어서 데이터 투명성과 저작권 문제가 앞으로도 계속해서 중요한 논쟁점이 될 것임을 시사한다.
해당 기사 원문은 링크에서 확인할 수 있다.
이미지 출처: 오픈AI
기사는 클로드와 챗gpt를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기