
Nature: The AI revolution is running out of data. What can researchers do?
AI의 성장 동력, 데이터 고갈 위기 직면
챗GPT(ChatGPT)와 같은 대형 언어모델(LLM)의 폭발적 성장 뒤에는 더 큰 모델과 더 많은 데이터를 활용한 학습이 있었다. 하지만 이제 AI 개발자들이 인터넷의 텍스트 데이터를 거의 다 소진했다는 충격적인 연구 결과가 나왔다. 가상 연구소 에포크AI(Epoch AI)의 연구에 따르면, 2028년경이면 AI 모델 학습에 필요한 데이터셋 규모가 공개된 온라인 텍스트 전체 규모와 같아질 것으로 예측됐다. 매사추세츠공과대학(MIT)의 AI 연구원 셰인 롱프레는 "데이터 부족 현상이 이미 시작됐을 가능성이 크다"고 경고했다. AI 학습에 사용되는 토큰(단어 부분) 수는 2020년 이후 수천억 개에서 수십 조 개로 100배 증가했다.
데이터 접근성 악화되는 상황
상황을 더욱 악화시키는 것은 뉴욕타임스를 비롯한 콘텐츠 제공업체들이 자사 콘텐츠의 AI 학습 사용을 차단하고 있다는 점이다. MIT의 데이터 출처 이니셔티브가 발표한 연구에 따르면, 고품질 웹 콘텐츠의 크롤러 차단 비율이 2023년 3% 미만에서 2024년 20-33%로 급증했다. 2023년 12월 뉴욕타임스가 오픈AI와 마이크로소프트를 상대로 저작권 침해 소송을 제기했고, 2024년 4월에는 Alden Global Capital 소유의 8개 신문사가 추가로 소송을 제기했다. 이에 대해 오픈AI는 "AI도 인간처럼 온라인 콘텐츠를 읽고 학습할 권리가 있다"며 뉴욕타임스의 소송이 "근거가 없다"고 반박했다.

AI 기업들의 대응 전략
주요 AI 기업들은 이미 이 문제를 인식하고 다양한 해결책을 모색 중이다. 오픈AI는 공개 데이터와 비공개 데이터 파트너십, 합성 데이터 생성, AI 트레이너의 데이터 등을 활용하고 있다고 밝혔다. 특히 하루 1,000억 단어, 연간 36조 단어에 달하는 합성 데이터를 생성하고 있다는 점이 주목된다. 에포크AI의 마드리드 기반 연구원 파블로 빌라로보스는 "대형 AI 기업들은 패닉 상태는 아닌 것 같다. 적어도 내게 패닉 이메일을 보내지는 않는다"며 기업들의 대응을 평가했다.
비공개 데이터의 활용 가능성
메타는 자사의 가상현실 헤드셋 메타 퀘스트에서 수집한 오디오와 이미지를 AI 학습에 활용하고 있다고 밝혔다. 하지만 에포크AI의 빌라로보스 연구원은 이러한 비공개 데이터를 모두 합쳐도 약 1,000조 개의 텍스트 토큰에 불과하며, 이는 데이터 고갈을 1년 반 정도 늦출 수 있는 수준이라고 설명했다. 기업들의 데이터 정책도 엇갈린다. 화상회의 플랫폼 Zoom은 고객 콘텐츠를 AI 학습에 사용하지 않는다는 방침인 반면, 전사 서비스 OtterAI는 비식별화되고 암호화된 오디오와 전사본을 AI 학습에 활용한다고 밝혔다.
전문 분야 데이터와 감각 데이터 주목
스탠퍼드대학의 페이페이 리 교수는 천문학이나 유전체학 같은 전문 분야의 데이터, 그리고 의료, 환경, 교육 분야의 미개발 데이터에 주목했다. 메타의 AI 수석과학자 얀 르쿤은 2024년 2월 밴쿠버에서 열린 AI 학회 연례 회의에서 더 충격적인 수치를 공개했다. 현대 AI가 학습하는 10¹³ 토큰은 한 사람이 읽으려면 170,000년이 걸리는 양이지만, 4세 아동은 깨어있는 시간 동안 이보다 50배 많은 감각 데이터를 접한다는 것이다. 르쿤은 이를 근거로 로봇형 AI 시스템을 통한 감각 경험 학습의 가능성을 제시했다.
AI가 AI를 위한 데이터 만든다
AI로 AI 학습용 데이터를 만드는 '합성 데이터' 전략도 주목받고 있다. 이미 체스, 수학, 컴퓨터 코딩과 같이 명확한 규칙이 있는 분야에서는 합성 데이터가 효과적으로 작동하고 있다. 알파지오메트리는 1억 개의 합성 예제만으로 기하학 문제를 해결하는 데 성공했다. 의료 데이터의 프라이버시 문제 해결이나 자율주행차의 안전한 사고 시뮬레이션에도 합성 데이터가 활용되고 있다. 다만 연구진들은 합성 데이터가 오류를 증폭시키거나 품질을 저하시킬 수 있다는 '모델 자가포식 장애' 현상을 경고하고 있다. 실제로 합성 데이터로 학습한 얼굴 생성 AI가 이상한 해시 마크가 포함된 얼굴을 그리기 시작한 사례가 발견됐다.
AI 개발 방향의 대전환 예고
데이터 부족 문제는 AI 개발의 새로운 전환점이 될 전망이다. 최근 연구에 따르면 AI 알고리즘의 개선으로 동일한 성능을 달성하는 데 필요한 컴퓨팅 파워가 8개월마다 절반으로 줄어들고 있다. 스탠퍼드대학의 니클라스 뮌니호프 연구진은 같은 데이터를 4번 반복해서 학습하는 것이 4배 많은 새로운 데이터를 한 번 학습하는 것과 동일한 효과를 낸다는 것을 발견했다.
오픈AI의 최신 모델 o1은 대규모 데이터셋을 통한 사전학습보다 강화학습과 응답 생성 시간에 더 중점을 두는 방식으로 전환했다. 이는 산업계가 거대 범용 AI에서 작고 전문화된 모델로 전환할 수 있다는 신호로 해석된다. 카네기멜런대학의 앤디 조우는 "이제 AI는 어떤 개인보다 더 큰 기초 지식을 갖게 됐다"며, "이제는 더 많은 데이터보다 '생각하는 시간'이 필요할 수 있다"고 말했다.
해당 리포트의 원문은 네이처에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기