비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

"챗GPT가 배울 게 없다"...2028년이면 학습할 데이터 바닥난다

2024.12.18. 09:10:33
조회 수
456
5

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

Nature: The AI revolution is running out of data. What can researchers do?


AI의 성장 동력, 데이터 고갈 위기 직면

챗GPT(ChatGPT)와 같은 대형 언어모델(LLM)의 폭발적 성장 뒤에는 더 큰 모델과 더 많은 데이터를 활용한 학습이 있었다. 하지만 이제 AI 개발자들이 인터넷의 텍스트 데이터를 거의 다 소진했다는 충격적인 연구 결과가 나왔다. 가상 연구소 에포크AI(Epoch AI)의 연구에 따르면, 2028년경이면 AI 모델 학습에 필요한 데이터셋 규모가 공개된 온라인 텍스트 전체 규모와 같아질 것으로 예측됐다. 매사추세츠공과대학(MIT)의 AI 연구원 셰인 롱프레는 "데이터 부족 현상이 이미 시작됐을 가능성이 크다"고 경고했다. AI 학습에 사용되는 토큰(단어 부분) 수는 2020년 이후 수천억 개에서 수십 조 개로 100배 증가했다.


데이터 접근성 악화되는 상황

상황을 더욱 악화시키는 것은 뉴욕타임스를 비롯한 콘텐츠 제공업체들이 자사 콘텐츠의 AI 학습 사용을 차단하고 있다는 점이다. MIT의 데이터 출처 이니셔티브가 발표한 연구에 따르면, 고품질 웹 콘텐츠의 크롤러 차단 비율이 2023년 3% 미만에서 2024년 20-33%로 급증했다. 2023년 12월 뉴욕타임스가 오픈AI와 마이크로소프트를 상대로 저작권 침해 소송을 제기했고, 2024년 4월에는 Alden Global Capital 소유의 8개 신문사가 추가로 소송을 제기했다. 이에 대해 오픈AI는 "AI도 인간처럼 온라인 콘텐츠를 읽고 학습할 권리가 있다"며 뉴욕타임스의 소송이 "근거가 없다"고 반박했다.


AI 기업들의 대응 전략

주요 AI 기업들은 이미 이 문제를 인식하고 다양한 해결책을 모색 중이다. 오픈AI는 공개 데이터와 비공개 데이터 파트너십, 합성 데이터 생성, AI 트레이너의 데이터 등을 활용하고 있다고 밝혔다. 특히 하루 1,000억 단어, 연간 36조 단어에 달하는 합성 데이터를 생성하고 있다는 점이 주목된다. 에포크AI의 마드리드 기반 연구원 파블로 빌라로보스는 "대형 AI 기업들은 패닉 상태는 아닌 것 같다. 적어도 내게 패닉 이메일을 보내지는 않는다"며 기업들의 대응을 평가했다.


비공개 데이터의 활용 가능성

메타는 자사의 가상현실 헤드셋 메타 퀘스트에서 수집한 오디오와 이미지를 AI 학습에 활용하고 있다고 밝혔다. 하지만 에포크AI의 빌라로보스 연구원은 이러한 비공개 데이터를 모두 합쳐도 약 1,000조 개의 텍스트 토큰에 불과하며, 이는 데이터 고갈을 1년 반 정도 늦출 수 있는 수준이라고 설명했다. 기업들의 데이터 정책도 엇갈린다. 화상회의 플랫폼 Zoom은 고객 콘텐츠를 AI 학습에 사용하지 않는다는 방침인 반면, 전사 서비스 OtterAI는 비식별화되고 암호화된 오디오와 전사본을 AI 학습에 활용한다고 밝혔다.


전문 분야 데이터와 감각 데이터 주목

스탠퍼드대학의 페이페이 리 교수는 천문학이나 유전체학 같은 전문 분야의 데이터, 그리고 의료, 환경, 교육 분야의 미개발 데이터에 주목했다. 메타의 AI 수석과학자 얀 르쿤은 2024년 2월 밴쿠버에서 열린 AI 학회 연례 회의에서 더 충격적인 수치를 공개했다. 현대 AI가 학습하는 10¹³ 토큰은 한 사람이 읽으려면 170,000년이 걸리는 양이지만, 4세 아동은 깨어있는 시간 동안 이보다 50배 많은 감각 데이터를 접한다는 것이다. 르쿤은 이를 근거로 로봇형 AI 시스템을 통한 감각 경험 학습의 가능성을 제시했다.


AI가 AI를 위한 데이터 만든다

AI로 AI 학습용 데이터를 만드는 '합성 데이터' 전략도 주목받고 있다. 이미 체스, 수학, 컴퓨터 코딩과 같이 명확한 규칙이 있는 분야에서는 합성 데이터가 효과적으로 작동하고 있다. 알파지오메트리는 1억 개의 합성 예제만으로 기하학 문제를 해결하는 데 성공했다. 의료 데이터의 프라이버시 문제 해결이나 자율주행차의 안전한 사고 시뮬레이션에도 합성 데이터가 활용되고 있다. 다만 연구진들은 합성 데이터가 오류를 증폭시키거나 품질을 저하시킬 수 있다는 '모델 자가포식 장애' 현상을 경고하고 있다. 실제로 합성 데이터로 학습한 얼굴 생성 AI가 이상한 해시 마크가 포함된 얼굴을 그리기 시작한 사례가 발견됐다.


AI 개발 방향의 대전환 예고

데이터 부족 문제는 AI 개발의 새로운 전환점이 될 전망이다. 최근 연구에 따르면 AI 알고리즘의 개선으로 동일한 성능을 달성하는 데 필요한 컴퓨팅 파워가 8개월마다 절반으로 줄어들고 있다. 스탠퍼드대학의 니클라스 뮌니호프 연구진은 같은 데이터를 4번 반복해서 학습하는 것이 4배 많은 새로운 데이터를 한 번 학습하는 것과 동일한 효과를 낸다는 것을 발견했다.

오픈AI의 최신 모델 o1은 대규모 데이터셋을 통한 사전학습보다 강화학습과 응답 생성 시간에 더 중점을 두는 방식으로 전환했다. 이는 산업계가 거대 범용 AI에서 작고 전문화된 모델로 전환할 수 있다는 신호로 해석된다. 카네기멜런대학의 앤디 조우는 "이제 AI는 어떤 개인보다 더 큰 기초 지식을 갖게 됐다"며, "이제는 더 많은 데이터보다 '생각하는 시간'이 필요할 수 있다"고 말했다.

해당 리포트의 원문은 네이처에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
SIEK, 르세라핌 김채원과 함께하는 플레이스테이션 이벤트 'Love of Play' 캠페인 진행 게임동아
매치3 지겹잖아! 인디 열정으로 만든 방과 문의 두뇌 유희. ‘도어퍼즐’ 게임동아
글로벌 순방 마치고 오는 '바이오하자드 서바이벌 유닛' 기대감 UP 게임동아
현대차 팰리세이드, ‘북미 올해의 차’ 석권하며 글로벌 연간 판매 신기록 달성 (1) 글로벌오토뉴스
[컨슈머인사이트] 커넥티드 카 보급률 97% 달성… 하지만 AI 기능은 여전히 ‘불모지’ 글로벌오토뉴스
오토노머스에이투지-택시연합회, 법인택시 자율주행 전환 위한 업무협약 체결 글로벌오토뉴스
테슬라, 미국서 4만 1990달러 ‘모델 Y’ 신규 트림 출시 글로벌오토뉴스
"글로벌 1위의 굴욕" BYD, 1월 판매 30% 급감하며 5개월째 내리막 글로벌오토뉴스
현대자동차, 러시아 공장 ‘재매입’ 포기… 15년 만에 현지 생산 마침표 글로벌오토뉴스
ZF-BMW, 8단 자동변속기 장기 공급 계약 체결 글로벌오토뉴스
기아의 연간 300만대 생산과 37년 전의 30만대 생산 글로벌오토뉴스
현대차, 1월 글로벌 판매 1.0% 감소…국내는 9% 성장 오토헤럴드
르노코리아 1월 판매 3,732대…국내 감소·해외 수출 증가 오토헤럴드
GM 한국사업장 1월 판매 4만4,703대…전년 대비 41.4% 급증 오토헤럴드
기아 1월 판매 ‘국내 회복·해외 안정’…글로벌 24만대 돌파 오토헤럴드
KG 모빌리티 1월 판매 8,836대…무쏘 효과로 전년 대비 9.5% 증가 오토헤럴드
국내 완성차 5개사 1월 판매 61만대 돌파…전년 대비 2.7% 증가 오토헤럴드
현대차 팰리세이드, 차세대 하이브리드 날개 달고 연간 최다 판매 신기록 오토헤럴드
디 올-일렉트릭 MINI 쿠퍼, 유로 NCAP ‘2025 가장 안전한 도심형 소형차’ 오토헤럴드
차량 커넥티드카 서비스 '무료→유료' 전환율 6%... AI는 ‘개점휴업’ 오토헤럴드
이 시간 HOT 댓글!
1/4