AI 자동화 공포, 과장됐다... 실제 업무 중 겨우 2.5%만 해내 : 다나와 DPG는 내맘을 디피지

인공지능이 지식과 추론 벤치마크에서 빠르게 발전하고 있지만, 실제 경제적 가치를 창출하는 업무를 자동화하는 능력은 여전히 바닥 수준에 머물러 있다는 연구 결과가 나왔다. AI 안전 센터(Center for AI Safety)와 스케일AI(Scale AI)가 공동 개발한 원격 노동 지수(Remote Labor Index, RLI)는 AI 에이전트가 실제 온라인 업무를 완수할 수 있는지를 측정하는 최초의 표준화된 벤치마크다.

온라인 프리랜서 플랫폼에서 수집한 240개 실제 프로젝트

연구 논문에 따르면, RLI는 온라인 프리랜서 플랫폼에서 직접 수집한 240개의 프로젝트로 구성됐다. 각 프로젝트는 작업 설명서(Brief), 프로젝트 완수에 필요한 입력 파일(Input files), 그리고 인간 프리랜서가 제작한 골드 스탠다드 결과물(Human deliverable)로 이뤄져 있다. 이 구조는 AI 에이전트가 경제적으로 가치 있는 작업을 생산할 수 있는지 직접 평가할 수 있게 한다. 벤치마크는 게임 개발, 제품 디자인, 건축, 데이터 분석 등을 포함해 업워크(Upwork) 분류 체계의 23개 카테고리를 포괄한다. 프로젝트 완료에 소요된 평균 시간은 28.9시간, 중간값은 11.5시간이었다. 평균 비용은 632.6달러, 중간값은 200달러였다. 전체적으로 RLI의 프로젝트들은 6,000시간 이상의 실제 작업과 14만 달러 이상의 가치를 대표한다.

기존 벤치마크보다 2배 이상 복잡하고 다양한 업무 유형

RLI는 기존 벤치마크들보다 실제 프리랜서 업무의 복잡성과 다양성에 훨씬 가깝다. 완료 시간 측면에서 RLI 프로젝트는 기존 비교 가능한 벤치마크들보다 2배 이상 길다. 업무 유형 분포에서도 차이가 크다. 이전 에이전트 벤치마크들은 주로 소프트웨어 엔지니어링이나 웹 기반 연구 및 작성 업무에 초점을 맞췄지만, 실제 온라인 업무 시장은 훨씬 더 다양하다. RLI는 이러한 더 넓은 현실을 반영하도록 설계됐다. 디자인, 운영, 마케팅, 관리, 데이터 및 비즈니스 인텔리전스, 오디오-비디오 제작 등을 상당 부분 포괄하며, 작업 복잡도와 결과물 유형을 샘플링해 종단간(end-to-end) 프리랜서 온라인 업무를 반영한다. 입력 파일과 결과물이 포괄하는 파일 형식도 이전 벤치마크들보다 훨씬 다양하다.

최고 성능 AI도 자동화율 2.5%... 대부분 프로젝트 완수 실패

연구팀은 챗GPT 에이전트(ChatGPT agent), GPT-5, 클로드 소네트 4.5(Claude Sonnet 4.5), 그록 4(Grok 4), 제미나이 2.5 프로(Gemini 2.5 Pro), 마누스(Manus) 등 여러 최첨단 AI 에이전트 프레임워크를 평가했다. 평가는 AI 결과물을 인간 골드 스탠다드와 비교하는 엄격한 수동 평가 프로세스를 사용했다. 결과는 벤치마크에서의 성능이 현재 바닥 근처에 있음을 보여준다. 현재 최고 성능 AI 에이전트는 자동화율 2.5%를 달성했으며, 현실적인 프리랜싱 환경에서 의뢰받은 작업으로 받아들여질 수준으로 대부분의 프로젝트를 완수하지 못했다. 이는 지식과 추론 벤치마크에서의 빠른 진전에도 불구하고 현대 AI 시스템이 온라인 업무의 다양한 요구를 자율적으로 수행하는 것과는 거리가 멀다는 것을 보여준다.

품질 저하 45.6%, 불완전한 결과물 35.7%... 주요 실패 원인 분석

현재 시스템의 한계와 낮은 자동화율의 이유를 이해하기 위해 연구팀은 평가자들이 제공한 서면 평가를 클러스터링해 에이전트 실패에 대한 질적 분석을 수행했다. 약 400개의 평가에 걸친 질적 분석은 거부가 주로 다음과 같은 주요 실패 범주로 집중됨을 보여준다. 기술적 및 파일 무결성 문제로, 많은 실패가 손상되거나 빈 파일 생성, 잘못되거나 사용할 수 없는 형식으로 작업물 전달 같은 기본적인 기술적 문제 때문이었다(17.6%). 불완전하거나 형식이 잘못된 결과물로, 에이전트들이 자주 누락된 구성 요소, 잘린 비디오, 또는 소스 자산이 없는 불완전한 작업을 제출했다(35.7%). 품질 문제로, 에이전트가 완전한 결과물을 생성하더라도 작업의 품질이 자주 낮아 전문적 기준을 충족하지 못했다(45.6%). 불일치로, 특히 AI 생성 도구를 사용할 때 AI 작업이 종종 결과물 파일 간 불일치를 보였다(14.8%).

오디오 편집과 이미지 생성에서는 인간 수준 달성

소수의 프로젝트에서 AI 결과물이 인간 결과물과 비교 가능하거나 더 나은 것으로 평가됐다. 이들은 주로 창의적 프로젝트, 특히 오디오 및 이미지 관련 작업과 작문 및 데이터 검색 및 웹 스크래핑이었다. 구체적으로 연구팀이 테스트한 모든 모델에 걸쳐 성능이 여러 오디오 편집, 믹싱 및 제작 작업(예: 레트로 비디오 게임용 맞춤 음향 효과 생성, 단일 트랙에서 보컬과 반주 분리, 인트로 및 아웃트로 음악과 보이스오버 병합)과 이미지 생성 작업(예: 광고 및 로고 생성)에서 인간 기준선과 일치하거나 초과했다. AI는 또한 보고서 작성과 대화형 데이터 시각화용 코드 생성에서도 좋은 성과를 보였다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. 원격 노동 지수(RLI)는 어떻게 만들어졌나요?

A: RLI는 업워크 같은 프리랜서 플랫폼에서 실제로 거래된 프로젝트들을 수집해 만들어졌습니다. 358명의 검증된 프리랜서로부터 550개의 초기 프로젝트를 수집했고, 여러 단계의 검토와 정제 과정을 거쳐 최종 240개 프로젝트를 선정했습니다. 각 프로젝트는 자체 완결적이고 재현 가능한 벤치마크가 되도록 철저히 점검됐습니다.

Q2. AI 결과물은 어떻게 평가하나요?

A: 훈련된 평가자들이 AI 결과물을 인간이 만든 골드 스탠다드와 비교해 수동으로 평가합니다. 평가자들은 "합리적인 고객" 관점에서 AI 결과물이 의뢰받은 작업으로 받아들여질지 판단합니다. 평가자 간 일치율은 94.4%로 높은 신뢰성을 보입니다. 자동 평가 시스템으로는 불가능한 복잡한 멀티미디어 결과물을 평가하기 위해 이 방식을 사용합니다.

Q3. RLI는 모든 온라인 업무를 대표하나요?

A: 아니요. RLI는 고객과의 상호작용이 필요한 업무(예: 과외), 팀 작업이 필요한 업무(예: 프로젝트 관리), 웹 기반 평가 플랫폼에서 렌더링할 수 없는 결과물(예: 데스크톱 애플리케이션 개발) 등은 제외합니다. 따라서 AI가 RLI에서 100% 자동화율을 달성하더라도 평가하지 않는 업무 유형에서는 여전히 인간보다 낮은 성과를 낼 수 있습니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: Remote Labor Index: Measuring AI Automation of Remote Work

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

[오늘의 스팀] “라이트 타르코프“ 아크 레이더스 순항	게임메카
지포스 RTX 5060 Ti가 단 10만원? 조텍코리아 11월 래플 이벤트 열린다	뉴스탭
“단 하나의 카메라, 단 하나의 순간”… 소니 ‘ONE AND ONLY’ 전시 개막	뉴스탭
MSI, 게이밍기어 후기만 써도 네이버페이 쏜다!	뉴스탭
맥킨지 "3번째 벤처부터 대박 난다"... 반복 구축 기업, AI 활용해 투자 대비 수익 1.9배	AI matters
[11월 5일 AI 뉴스 브리핑] WSC Sports, 손흥민 이적 통해 본 ‘AI 기반 글로벌 팬덤 확장’ 리포트 발표 외	AI matters
AI 모델끼리 '생각'을 직접 주고받는다… 텍스트 없이 소통하는 신기술 등장	AI matters
"50% 확률로 CCTV 회피"... AI 감시 시스템 무력화하는 '마법의 패턴' 화제	AI matters
아마존, AI 쇼핑봇 ‘코멧’ 퇴출 경고... 퍼플렉시티에 경고장 보내	AI matters
함샤우트 글로벌, 경기소방재난본부 화재조사관 대상국내 최초 ‘화재 조사 특화 생성형 AI 교육’ 실시	AI matters
기아, 2026년 신차 공세 예고…EV·HEV 5종으로 주요 거점 공략 (1)	오토헤럴드
두카티, 내년 창립 100주년...열정ㆍ스타일ㆍ혁신의 기념 ‘로고’ 공개 (1)	오토헤럴드
GM, ‘눈을 떼는 운전’ 시대 선언… 2028년 캐딜락부터 레벨3 자율주행 도입 (1)	글로벌오토뉴스
막스 베르스타펜, 시즌 막판 반격 시동	글로벌오토뉴스
레드불, 메키스 체제에서 부활… 조직 문화 바꾸며 5연속 챔피언 정조준	글로벌오토뉴스
넷이즈 '역수한' 사전 다운로드 및 캐릭터 사전 생성 시작	게임동아
OLED와 3D 모니터까지 '삼성 오디세이 존' 갖춘 넥슨의 '메이플 아지트' (1)	게임동아
8세대 칩 자랑한 머스크…하지만 3세대 FSD 약속은 여전히 미완 (1)	오토헤럴드
"1차로가 어디?" 구글 실시간 차선 인식 길안내... 폴스타, 세계 최초 탑재 (1)	오토헤럴드
[EV 트렌드] 2000만원대 ‘초소형 전기차’ 르노 신형 트윙고 디자인 유출 (1)	오토헤럴드
차세대 푸조 208, ‘폴리곤’ 콘셉트 공개…스티어-바이-와이어 최초 탑재 (1)	오토헤럴드
마세라티·알파 로메오, 보테가푸오리세리에 출범…이탈리아 코치빌드 새 장	오토헤럴드
현대차·기아, 헝가리 교통소외지역 발 역할 셔클 첫 해외 시범사업 성료	오토헤럴드
메르세데스-벤츠, 3세대 MBUX OTA 업데이트…한국 전용 서비스 강화	오토헤럴드
BMW·벤츠, 10월 수입차 시장 주도…테슬라·BYD 주춤 속 독일차 재반등	오토헤럴드
볼보트럭, 대형 트럭에 스톱ㆍ스타트 기능 추가 차세대 'I-Roll' 기술 공개 (1)	오토헤럴드
샤오펑, 세계 첫 플라잉카 양산라인 가동…내년 고객 인도 개시	오토헤럴드
이렇게 하면 아이오닉 9 전비 4.1kWh→7.5kWh로 80% 'UP' (1)	오토헤럴드
현대차 아이오닉 6 N '침묵의 폭발' 고성능 전기차의 새로운 기준	오토헤럴드
[시승기] 포르쉐 GTS, 제주에서 만난 주행의 본능 – 파나메라 GTS & 타이칸 GTS	오토헤럴드
테슬라도 긴장?…리비안의 폭발적 성장 'R2·AI까지 한 방에 공개'	오토헤럴드
미국 배터리 시장 양극화… 전기차 침체 속 ESS 수요 ‘폭발’ (1)	글로벌오토뉴스
리비안, 4만 5,000달러 소형 SUV R2로 테슬라 모델 Y에 정면 도전 선언	글로벌오토뉴스
테슬라, 유럽 시장서 수요 급감... 10월 등록 대수 전년 대비 36% 감소	글로벌오토뉴스
중국 체리자동차 올해 수출 100만대 돌파,... 유럽 시장서 240% 폭풍 성장	글로벌오토뉴스
르노와 지리, 브라질서 신에너지차 합작 생산·판매	글로벌오토뉴스
중국 BYD, 10월 글로벌 판매 12% 감소... 플러그인 하이브리드 수요 급락 영향	글로벌오토뉴스
자율주행 기술 경쟁 속, 레벨 3 상용화 2035년 전망... 레벨 4 현실화는 아직 멀어	글로벌오토뉴스
10월 수입차 등록 24,064대…전월 대비 26.7% 감소, 전년 대비 13.2% 증가	글로벌오토뉴스
후니건과 트래비스 패스트라나, 670마력 괴물 ‘서브루 브라타루(Brataroo)’ 공개	글로벌오토뉴스
현대차, 10월 미국 시장 전기차 판매 급감... 세액 공제 만료 여파	글로벌오토뉴스
볼보트럭, 세계 최초 대형 트럭용 스톱/스타트 기능 탑재한 차세대 ‘I-Roll’ 공개	글로벌오토뉴스
DJI, 950m 장거리 정밀 라이다 탑재 ‘Zenmuse L3’ 공개	글로벌오토뉴스
할리데이비슨 코리아, ‘2025 할리마차 in 제주’ 개최	글로벌오토뉴스
한온시스템, ‘AAPEX 2025’ 첫 참가…한국앤컴퍼니그룹과 공동 부스 운영	글로벌오토뉴스
메르세데스-벤츠 코리아, 3세대 MBUX OTA 업데이트 실시	글로벌오토뉴스
폭스바겐코리아, ‘투아렉 오너 클럽’ 화보 공개	글로벌오토뉴스
아우디 코리아, 전국 시승 이벤트 개최	글로벌오토뉴스
쏠라이트 인디고 레이싱, 2025 TCR 유럽 종합 3위 달성	글로벌오토뉴스
주한독일상공회의소, ‘2026 아우스빌둥 채용설명회’ 개최	글로벌오토뉴스
한국타이어, ‘SEMA 쇼 2025’ 참가…북미 SUV·픽업 시장 공략 강화	글로벌오토뉴스
NXP, 업계 최초 하드웨어 기반 EIS 통합 배터리 관리 칩셋 공개	글로벌오토뉴스
2025 래디컬 컵 코리아, 용인서 시즌 피날레	글로벌오토뉴스
마쓰다, 새 엠블럼 공개…자동차 디자인계 강타한 ‘플랫 로고’ 대열 합류	글로벌오토뉴스
노르웨이 국부펀드, 일론 머스크의 ‘1조 달러 급여 패키지’에 반대표 선언	글로벌오토뉴스
폴스타 4, 구글 ‘라이브 차선 안내’ 최초 탑재	글로벌오토뉴스
두카티, 2026년 창립 100주년 기념 로고 공개	글로벌오토뉴스
BMW M, ‘컴패티션’ 배지 역사 속으로… 수동변속기 시대도 저물어	글로벌오토뉴스
푸조, 차세대 e-208 예고하는 ‘폴리곤 콘셉트’ 공개	글로벌오토뉴스
[순위분석] 장르 대중화 여나, 아크 레이더스 33위 진입	게임메카
FN e스포츠, 더 파이널스 국내 공식 대회 2연속 우승	게임메카
2025 LCK 아카데미 시리즈, 8일 플레이오프 돌입한다	게임메카
넷마블 'RF 온라인 넥스트', 첫 공성전 '알베른 포트리스' 등 대규모 업데이트	게임동아
‘더 파이널스’, 내셔널 리그 서킷3 ‘FN e스포츠’ 최종 우승	게임동아
원작 팬을 위한 오픈월드 RPG '일곱 개의 대죄: 오리진' CBT 해보니	게임동아
디앤디, ASRock 메인보드 ‘최대 4년 보증 연장’ 및 ‘나의 스토리 챌린지’ 동시 진행	뉴스탭
“한 번의 비행으로 100km² 스캔”... DJI, 초정밀 라이다 ‘Zenmuse L3’ 공개	뉴스탭
닌텐도 스위치2, 1000만 대 판매... “전작보다 빠른 판매 속도”	게임동아
“대규모 인력 감축 여파”... 아마존, ‘반지의 제왕’ MMO 프로젝트 개발 취소	게임동아
카카오게임즈, 3분기 매출액 1,275억, 적자폭 줄이고 신작 준비 박차	게임동아
웹젠, 오픈월드 기대작 '드래곤소드' 사전 등록 돌입	게임동아
AI뉴스 엔비디아 26만장, 오픈AI AGI 계획, 오픈소스 나노바나나, Emu3.5, 커서 2.0, 휴머노이드 X1, 구글 믹스보드, Pomelli, Minimax 신모델 등 동영상 있음	조코딩 JoCoding
MSI 클로에도 ‘엑박’ 풀스크린 뜬다… MS, 윈도우 휴대용 게임기 정식 카테고리화 신호	뉴스탭
크래프톤, 3분기 누적 영업이익 첫 1조 돌파…‘PUBG 2.0’과 AI가 이끌었다	뉴스탭
“집이 곧 골프장!” 부모님 선물로 불티나는 ‘텔몬파크골프홈’	뉴스탭
기가바이트, 지마켓 빅스마일데이서 32인치 4K 게이밍 모니터 ‘M32U’ 역대가 판매	뉴스탭
서린씨앤아이, 겨울맞이 조립PC 프로모션 진행…쿠거 5종 세트 증정	뉴스탭
33 원정대·킹덤컴 2 등, 골든 조이스틱 GOTY 후보 공개	게임메카
필라스 오브 이터니티, 10년 만에 공식 ‘턴제 모드’ 추가	게임메카
와우 ‘유령게’가 만들던 MMO 신작, 개발사 폐쇄된다	게임메카
아크 레이더스 “핵 유저 때문에 잃은 아이템 찾아드립니다”	게임메카
한·중·유럽 더비, 배그 e스포츠 PGC 2025 진출팀 확정	게임메카
제작사 경영난, '가디스오더' 출시 한 달 만에 개발 종료	게임메카
닌텐도 게임 불법 복제해 미리 방송한 스트리머, 배상 판결	게임메카
배틀그라운드 프로팀 DN프릭스, 벤큐 '조위'와 파트너십	게임메카
[오늘의 스팀] 칼 문 공룡소울 '다이노블레이드' 데모 극찬	게임메카
내년 출시되는 파피 플레이타임 챕터 5, 티저 영상 발표	게임메카
신규 맵과 눈보라, 아크 레이더스 올해 로드맵 공개	게임메카
크래프톤, 지스타서 '팰월드' 부스 운영한다	게임메카
[롤짤] 2022 '중꺾마' 재현? 젠지 잡은 비디디의 소년만화	게임메카
AI, 상황 따라 법적 책임질 수도... 구글이 제시한 'AI 인격'의 미래	AI matters
"AI가 잘못 판단하면 누구 책임?"... 800년 전 마그나카르타가 제시한 해법	AI matters
[11월 4일 AI 뉴스 브리핑] MSI, 강남서 AI 노트북 체험 팝업스토어 오픈 외	AI matters
애피어-유한킴벌리, AI로 광고 제작 속도 높인다… 'AdCreative.ai’ 도입으로 성과 극대화	AI matters
AI, 스스로 '도와주세요' 말하는 법 배웠다... 스탠퍼드 연구진, 배포 후 사고 막는 새 기술 개발	AI matters
AI 투자왕 엘라드 길 "AI 시장 절반은 게임 끝… 기회 남은 분야는 ‘금융·회계·AI 보안’”	AI matters
오픈AI-AWS, 55조 규모 파트너십 체결… 2026년까지 대규모 인프라 구축	AI matters
AI 업계 뜨는 직업은 '파견형 엔지니어'... 오픈AI·앤트로픽 채용 급증	AI matters
AI에게 "전기요금 아껴줘" 한마디면 끝... 라마 AI, 가정용 에너지 100% 최적화 성공	AI matters
챗GPT, 8명이 반대하자 99.9% 의견 바꿔... AI도 '눈치' 본다	AI matters

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

AI 자동화 공포, 과장됐다... 실제 업무 중 겨우 2.5%만 해내

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

AI 자동화 공포, 과장됐다... 실제 업무 중 겨우 2.5%만 해내

공유하기

공감/비공감