비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

"챗GPT가 배울 게 없다"...2028년이면 학습할 데이터 바닥난다

2024.12.18. 09:10:33
조회 수
520
5

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

Nature: The AI revolution is running out of data. What can researchers do?


AI의 성장 동력, 데이터 고갈 위기 직면

챗GPT(ChatGPT)와 같은 대형 언어모델(LLM)의 폭발적 성장 뒤에는 더 큰 모델과 더 많은 데이터를 활용한 학습이 있었다. 하지만 이제 AI 개발자들이 인터넷의 텍스트 데이터를 거의 다 소진했다는 충격적인 연구 결과가 나왔다. 가상 연구소 에포크AI(Epoch AI)의 연구에 따르면, 2028년경이면 AI 모델 학습에 필요한 데이터셋 규모가 공개된 온라인 텍스트 전체 규모와 같아질 것으로 예측됐다. 매사추세츠공과대학(MIT)의 AI 연구원 셰인 롱프레는 "데이터 부족 현상이 이미 시작됐을 가능성이 크다"고 경고했다. AI 학습에 사용되는 토큰(단어 부분) 수는 2020년 이후 수천억 개에서 수십 조 개로 100배 증가했다.


데이터 접근성 악화되는 상황

상황을 더욱 악화시키는 것은 뉴욕타임스를 비롯한 콘텐츠 제공업체들이 자사 콘텐츠의 AI 학습 사용을 차단하고 있다는 점이다. MIT의 데이터 출처 이니셔티브가 발표한 연구에 따르면, 고품질 웹 콘텐츠의 크롤러 차단 비율이 2023년 3% 미만에서 2024년 20-33%로 급증했다. 2023년 12월 뉴욕타임스가 오픈AI와 마이크로소프트를 상대로 저작권 침해 소송을 제기했고, 2024년 4월에는 Alden Global Capital 소유의 8개 신문사가 추가로 소송을 제기했다. 이에 대해 오픈AI는 "AI도 인간처럼 온라인 콘텐츠를 읽고 학습할 권리가 있다"며 뉴욕타임스의 소송이 "근거가 없다"고 반박했다.


AI 기업들의 대응 전략

주요 AI 기업들은 이미 이 문제를 인식하고 다양한 해결책을 모색 중이다. 오픈AI는 공개 데이터와 비공개 데이터 파트너십, 합성 데이터 생성, AI 트레이너의 데이터 등을 활용하고 있다고 밝혔다. 특히 하루 1,000억 단어, 연간 36조 단어에 달하는 합성 데이터를 생성하고 있다는 점이 주목된다. 에포크AI의 마드리드 기반 연구원 파블로 빌라로보스는 "대형 AI 기업들은 패닉 상태는 아닌 것 같다. 적어도 내게 패닉 이메일을 보내지는 않는다"며 기업들의 대응을 평가했다.


비공개 데이터의 활용 가능성

메타는 자사의 가상현실 헤드셋 메타 퀘스트에서 수집한 오디오와 이미지를 AI 학습에 활용하고 있다고 밝혔다. 하지만 에포크AI의 빌라로보스 연구원은 이러한 비공개 데이터를 모두 합쳐도 약 1,000조 개의 텍스트 토큰에 불과하며, 이는 데이터 고갈을 1년 반 정도 늦출 수 있는 수준이라고 설명했다. 기업들의 데이터 정책도 엇갈린다. 화상회의 플랫폼 Zoom은 고객 콘텐츠를 AI 학습에 사용하지 않는다는 방침인 반면, 전사 서비스 OtterAI는 비식별화되고 암호화된 오디오와 전사본을 AI 학습에 활용한다고 밝혔다.


전문 분야 데이터와 감각 데이터 주목

스탠퍼드대학의 페이페이 리 교수는 천문학이나 유전체학 같은 전문 분야의 데이터, 그리고 의료, 환경, 교육 분야의 미개발 데이터에 주목했다. 메타의 AI 수석과학자 얀 르쿤은 2024년 2월 밴쿠버에서 열린 AI 학회 연례 회의에서 더 충격적인 수치를 공개했다. 현대 AI가 학습하는 10¹³ 토큰은 한 사람이 읽으려면 170,000년이 걸리는 양이지만, 4세 아동은 깨어있는 시간 동안 이보다 50배 많은 감각 데이터를 접한다는 것이다. 르쿤은 이를 근거로 로봇형 AI 시스템을 통한 감각 경험 학습의 가능성을 제시했다.


AI가 AI를 위한 데이터 만든다

AI로 AI 학습용 데이터를 만드는 '합성 데이터' 전략도 주목받고 있다. 이미 체스, 수학, 컴퓨터 코딩과 같이 명확한 규칙이 있는 분야에서는 합성 데이터가 효과적으로 작동하고 있다. 알파지오메트리는 1억 개의 합성 예제만으로 기하학 문제를 해결하는 데 성공했다. 의료 데이터의 프라이버시 문제 해결이나 자율주행차의 안전한 사고 시뮬레이션에도 합성 데이터가 활용되고 있다. 다만 연구진들은 합성 데이터가 오류를 증폭시키거나 품질을 저하시킬 수 있다는 '모델 자가포식 장애' 현상을 경고하고 있다. 실제로 합성 데이터로 학습한 얼굴 생성 AI가 이상한 해시 마크가 포함된 얼굴을 그리기 시작한 사례가 발견됐다.


AI 개발 방향의 대전환 예고

데이터 부족 문제는 AI 개발의 새로운 전환점이 될 전망이다. 최근 연구에 따르면 AI 알고리즘의 개선으로 동일한 성능을 달성하는 데 필요한 컴퓨팅 파워가 8개월마다 절반으로 줄어들고 있다. 스탠퍼드대학의 니클라스 뮌니호프 연구진은 같은 데이터를 4번 반복해서 학습하는 것이 4배 많은 새로운 데이터를 한 번 학습하는 것과 동일한 효과를 낸다는 것을 발견했다.

오픈AI의 최신 모델 o1은 대규모 데이터셋을 통한 사전학습보다 강화학습과 응답 생성 시간에 더 중점을 두는 방식으로 전환했다. 이는 산업계가 거대 범용 AI에서 작고 전문화된 모델로 전환할 수 있다는 신호로 해석된다. 카네기멜런대학의 앤디 조우는 "이제 AI는 어떤 개인보다 더 큰 기초 지식을 갖게 됐다"며, "이제는 더 많은 데이터보다 '생각하는 시간'이 필요할 수 있다"고 말했다.

해당 리포트의 원문은 네이처에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
오버워치 x 요아소비 컬래버 음원 '오리온' 공개 (1) 게임메카
SOOP, 텐센트와 슈팅게임 '델타포스' e스포츠 협력 확대 게임동아
엘리멘타 '실버 팰리스', 2차 테스트 참가자 모집 게임동아
정부의 정보 검열과 감시에 맞서 싸운 게임 속 영웅들 (1) 게임동아
도깨비의 이야기를 파는 개발팀. '망량기담' 개발한 '망량상회' 게임동아
숨바꼭질 게임 '멧챠 카멜레온' 순식간에 1,000만 장 판매 게임메카
제네시스, 부산모빌리티쇼서 마그마 GT 콘셉트·GMR-001 하이퍼카 아시아 최초 공개 (1) 글로벌오토뉴스
기아, 부산모빌리티쇼서 PV5 신규 라인업 및 맞춤형 협업 모델 대거 공개 (1) 글로벌오토뉴스
현대차, 부산모빌리티쇼서 8세대 완전변경 ‘디 올 뉴 아반떼’ 세계 최초 공개 글로벌오토뉴스
차봇모터스, 부산모빌리티쇼서 이네오스 그레나디어 홍보대사 이대호와 포토세션 진행 글로벌오토뉴스
BMW 그룹 코리아, 부산모빌리티쇼서 한정판 7시리즈 등 총 13종 라인업 출격 글로벌오토뉴스
BYD코리아, 부산모빌리티쇼서 전기차 기반 하이브리드 ‘씨라이언 6 DM-i’ 최초 공개 글로벌오토뉴스
현대차 호세 무뇨스 사장 “엔트리 고객이 평생 고객으로… 모빌리티 본연에 충실할 것” 글로벌오토뉴스
위메이드 '레전드 오브 이미르' 두 번째 국제 대회, 27일 개최 게임메카
"성의 없는 우려먹기" DOA 6 완전판 평가 '대체로 부정적' (1) 게임메카
SOOP, 텐센트와 FPS '델타 포스' e스포츠 협력 확대 게임메카
"데스티니 2 접은 이유가?" 소니 , 번지 스튜디오 292명 감축 게임동아
시라노 번스타인 출격! '창세기전 키우기' 서비스 100일 기념 업데이트 게임동아
엑스박스 콘솔 가격 또 오른다.. "2TB 모델은 단종" 게임동아
"발더스3, 스텔라블레이드, 콜옵"... 스팀 여름 할인 돌입! 게임동아
이 시간 HOT 댓글!
1/4