비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

"챗GPT가 배울 게 없다"...2028년이면 학습할 데이터 바닥난다

2024.12.18. 09:10:33
조회 수
465
5

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

Nature: The AI revolution is running out of data. What can researchers do?


AI의 성장 동력, 데이터 고갈 위기 직면

챗GPT(ChatGPT)와 같은 대형 언어모델(LLM)의 폭발적 성장 뒤에는 더 큰 모델과 더 많은 데이터를 활용한 학습이 있었다. 하지만 이제 AI 개발자들이 인터넷의 텍스트 데이터를 거의 다 소진했다는 충격적인 연구 결과가 나왔다. 가상 연구소 에포크AI(Epoch AI)의 연구에 따르면, 2028년경이면 AI 모델 학습에 필요한 데이터셋 규모가 공개된 온라인 텍스트 전체 규모와 같아질 것으로 예측됐다. 매사추세츠공과대학(MIT)의 AI 연구원 셰인 롱프레는 "데이터 부족 현상이 이미 시작됐을 가능성이 크다"고 경고했다. AI 학습에 사용되는 토큰(단어 부분) 수는 2020년 이후 수천억 개에서 수십 조 개로 100배 증가했다.


데이터 접근성 악화되는 상황

상황을 더욱 악화시키는 것은 뉴욕타임스를 비롯한 콘텐츠 제공업체들이 자사 콘텐츠의 AI 학습 사용을 차단하고 있다는 점이다. MIT의 데이터 출처 이니셔티브가 발표한 연구에 따르면, 고품질 웹 콘텐츠의 크롤러 차단 비율이 2023년 3% 미만에서 2024년 20-33%로 급증했다. 2023년 12월 뉴욕타임스가 오픈AI와 마이크로소프트를 상대로 저작권 침해 소송을 제기했고, 2024년 4월에는 Alden Global Capital 소유의 8개 신문사가 추가로 소송을 제기했다. 이에 대해 오픈AI는 "AI도 인간처럼 온라인 콘텐츠를 읽고 학습할 권리가 있다"며 뉴욕타임스의 소송이 "근거가 없다"고 반박했다.


AI 기업들의 대응 전략

주요 AI 기업들은 이미 이 문제를 인식하고 다양한 해결책을 모색 중이다. 오픈AI는 공개 데이터와 비공개 데이터 파트너십, 합성 데이터 생성, AI 트레이너의 데이터 등을 활용하고 있다고 밝혔다. 특히 하루 1,000억 단어, 연간 36조 단어에 달하는 합성 데이터를 생성하고 있다는 점이 주목된다. 에포크AI의 마드리드 기반 연구원 파블로 빌라로보스는 "대형 AI 기업들은 패닉 상태는 아닌 것 같다. 적어도 내게 패닉 이메일을 보내지는 않는다"며 기업들의 대응을 평가했다.


비공개 데이터의 활용 가능성

메타는 자사의 가상현실 헤드셋 메타 퀘스트에서 수집한 오디오와 이미지를 AI 학습에 활용하고 있다고 밝혔다. 하지만 에포크AI의 빌라로보스 연구원은 이러한 비공개 데이터를 모두 합쳐도 약 1,000조 개의 텍스트 토큰에 불과하며, 이는 데이터 고갈을 1년 반 정도 늦출 수 있는 수준이라고 설명했다. 기업들의 데이터 정책도 엇갈린다. 화상회의 플랫폼 Zoom은 고객 콘텐츠를 AI 학습에 사용하지 않는다는 방침인 반면, 전사 서비스 OtterAI는 비식별화되고 암호화된 오디오와 전사본을 AI 학습에 활용한다고 밝혔다.


전문 분야 데이터와 감각 데이터 주목

스탠퍼드대학의 페이페이 리 교수는 천문학이나 유전체학 같은 전문 분야의 데이터, 그리고 의료, 환경, 교육 분야의 미개발 데이터에 주목했다. 메타의 AI 수석과학자 얀 르쿤은 2024년 2월 밴쿠버에서 열린 AI 학회 연례 회의에서 더 충격적인 수치를 공개했다. 현대 AI가 학습하는 10¹³ 토큰은 한 사람이 읽으려면 170,000년이 걸리는 양이지만, 4세 아동은 깨어있는 시간 동안 이보다 50배 많은 감각 데이터를 접한다는 것이다. 르쿤은 이를 근거로 로봇형 AI 시스템을 통한 감각 경험 학습의 가능성을 제시했다.


AI가 AI를 위한 데이터 만든다

AI로 AI 학습용 데이터를 만드는 '합성 데이터' 전략도 주목받고 있다. 이미 체스, 수학, 컴퓨터 코딩과 같이 명확한 규칙이 있는 분야에서는 합성 데이터가 효과적으로 작동하고 있다. 알파지오메트리는 1억 개의 합성 예제만으로 기하학 문제를 해결하는 데 성공했다. 의료 데이터의 프라이버시 문제 해결이나 자율주행차의 안전한 사고 시뮬레이션에도 합성 데이터가 활용되고 있다. 다만 연구진들은 합성 데이터가 오류를 증폭시키거나 품질을 저하시킬 수 있다는 '모델 자가포식 장애' 현상을 경고하고 있다. 실제로 합성 데이터로 학습한 얼굴 생성 AI가 이상한 해시 마크가 포함된 얼굴을 그리기 시작한 사례가 발견됐다.


AI 개발 방향의 대전환 예고

데이터 부족 문제는 AI 개발의 새로운 전환점이 될 전망이다. 최근 연구에 따르면 AI 알고리즘의 개선으로 동일한 성능을 달성하는 데 필요한 컴퓨팅 파워가 8개월마다 절반으로 줄어들고 있다. 스탠퍼드대학의 니클라스 뮌니호프 연구진은 같은 데이터를 4번 반복해서 학습하는 것이 4배 많은 새로운 데이터를 한 번 학습하는 것과 동일한 효과를 낸다는 것을 발견했다.

오픈AI의 최신 모델 o1은 대규모 데이터셋을 통한 사전학습보다 강화학습과 응답 생성 시간에 더 중점을 두는 방식으로 전환했다. 이는 산업계가 거대 범용 AI에서 작고 전문화된 모델로 전환할 수 있다는 신호로 해석된다. 카네기멜런대학의 앤디 조우는 "이제 AI는 어떤 개인보다 더 큰 기초 지식을 갖게 됐다"며, "이제는 더 많은 데이터보다 '생각하는 시간'이 필요할 수 있다"고 말했다.

해당 리포트의 원문은 네이처에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
스팀에서도 세기말 쿠팡맨 되어보자, ‘데스 스트랜딩 2’ 오는 3월 PC 출시 (1) 게임동아
"우리우리 설날은 연휴래요~" 넥슨, 모바일게임 7종 설 맞이 이벤트 진행 게임동아
[이구동성] 밑 빠진 독에 구멍 두 개 더 (1) 게임메카
“설 선물도 K-전통이 대세”…식품업계, 한복·한과·보자기 입고 소비자 공략 뉴스탭
영화 원작부터 오디오웹소설까지… 설 연휴 ‘정주행’ 책임질 콘텐츠는? 뉴스탭
설 맞아 최대 50% 할인…더네이쳐홀딩스, 브랜드별 파격 혜택 쏜다 뉴스탭
설 연휴 스타필드 하남에 뜬 BYD…씨라이언 7부터 돌핀까지 총출동 뉴스탭
서울시·월드비전, 기후위기 취약아동 통합지원 나선다…‘햇살가득 꿈가득’ 7억 원 투입 뉴스탭
“설 급찐살은 2주 안에 빼라”…삼천리자전거, 체지방 잡는 투 트랙 루틴 공개 뉴스탭
미송자의 노래, 신규 영웅 '에이르' 더한 대규모 업데이트 게임메카
레메디 신작 '컨트롤 레조넌트' 상세 플레이 정보 공개 (1) 게임메카
전기요금 최대 40% 지원…오텍캐리어, 1등급 냉난방기로 소상공인 부담 던다 뉴스탭
스토케, 2026 서울리빙디자인페어 참가…‘레몬 옐로우’ 트립트랩 국내 최초 공개 뉴스탭
대구 수달·83타워 담았다…배럴, 신세계 대구점서 ‘로컬 한정 수모’ 공개 뉴스탭
“누아르에서 오즈까지”…코치, 뉴욕서 2026 가을 컬렉션으로 ‘미국 패션의 미래’ 제시 뉴스탭
“58년 중식 대가가 버거를 만들면?”…맘스터치, 후덕죽 셰프 컬렉션 3월 출격 (1) 뉴스탭
“설 술상도 ‘헬시 플레저’”…당·퓨린 낮춘 맥주부터 오크 숙성 증류주까지 뉴스탭
10승 신화 잇는다…와이드앵글, 2026 시즌 ‘최정예 7인’ 공개 뉴스탭
전기차로 떠나는 프리미엄 쉼…폴스타, 스테이폴리오와 ‘폴스타 스테이’ 론칭 뉴스탭
프랙탈디자인 사면 무선 헤드셋이 공짜? 서린씨앤아이 2월 한정 이벤트 뉴스탭
이 시간 HOT 댓글!
1/4