OECD가 제시한 AI 능력 측정 새 기준, 정책 결정을 위한 종합 프레임워크 공개 : 다나와 DPG는 내맘을 디피지

Introducing the OECD AI Capability Indicators

5년 연구 끝에 탄생한 AI 능력 평가의 글로벌 표준

경제협력개발기구(OECD)가 인공지능(AI) 능력을 체계적으로 측정할 수 있는 종합 프레임워크를 발표했다. 'OECD AI 능력 지표(AI Capability Indicators)'는 5년간의 연구와 50여 명의 AI 연구자, 심리학자, 평가 전문가의 협력으로 개발된 베타 버전으로, AI의 발전 수준을 인간 능력과 직접 비교할 수 있는 새로운 측정 도구다.

이 프레임워크는 단순히 AI 성능을 벤치마크로 평가하는 기존 방식과 달리, 정책 입안자들이 이해하기 쉬운 형태로 AI의 사회적 영향을 예측할 수 있게 설계됐다. 언어, 사회적 상호작용, 문제해결, 창의성, 메타인지와 비판적 사고, 지식과 학습 및 기억, 시각, 조작, 로봇 지능 등 9개 핵심 영역에서 AI 능력을 5단계로 평가하며, 각 단계는 인간 능력과의 격차를 명확히 보여준다.

OECD는 이 지표가 정부, 학계, 산업계가 AI 발전을 모니터링하고 정책을 수립하는 데 활용할 수 있는 글로벌 기준점이 될 것이라고 밝혔다. 특히 유럽연합(EU)의 AI법과 OECD AI 권고안 같은 주요 정책 이니셔티브 실행에 필요한 증거 기반 도구로 기능할 예정이다.

현재 AI는 '중급 수준'... 대부분 레벨 2-3에 머물러

2024년 11월 기준 최첨단 AI 시스템들의 능력 평가 결과, 대부분이 5단계 척도에서 2-3 레벨에 위치하고 있어 아직 인간 수준에는 상당한 격차가 있는 것으로 나타났다. 레벨 1은 이미 해결된 단순한 AI 과제를, 레벨 5는 해당 영역에서 인간의 모든 능력을 재현할 수 있는 수준을 의미한다.

언어 능력에서 챗GPT(ChatGPT)에 사용되는 GPT-4o 같은 대형 언어모델(LLM)은 레벨 3 수준을 보여준다. 이들은 다중 언어 지원과 광범위한 세계 지식 접근에서 뛰어난 성능을 보이지만, 여전히 체계적인 분석 추론과 정보의 정확성 검증에서 한계를 드러낸다. 특히 환각 현상(hallucination)으로 불리는 잘못된 정보 생성 문제가 지속되고 있다.

창의성 영역에서는 구글의 알파제로(AlphaZero)가 레벨 3에 도달했다. 이 시스템은 신경-기호 아키텍처를 활용해 기존 인간 지식과 크게 다른 효율적이고 놀라운 전략을 생성할 수 있다. 반면 LLM은 확률적 구조와 기존 훈련 데이터에 의존하기 때문에 인간 지식과 실질적으로 구별되는 결과물을 만들어내지 못해 주로 레벨 2 수준에 그치고 있다.

작업 기반에서 능력 기반 평가로의 패러다임 전환

OECD가 개발한 이 프레임워크의 핵심 혁신은 기존의 '작업 기반' 분석에서 '능력 기반' 접근법으로의 전환이다. 기존 노동경제학 연구들이 수만 개의 개별 작업을 분석하는 방식을 사용했다면, OECD는 이러한 작업들의 기반이 되는 핵심 인간 능력에 초점을 맞췄다. 개별 작업은 보통 여러 능력을 동시에 요구하기 때문에, 능력 기반 접근법이 AI 발전의 영향을 더 명확하게 파악할 수 있다는 판단이다.

이 방법론은 인간 심리학에 근거해 구조화된 고수준 관점에서 AI 발전을 조망할 수 있게 한다. 각 지표는 해당 능력에서 AI가 완전한 인간 동등성을 달성하기까지의 발전 과정을 설명하며, 5단계 척도에서 가장 도전적인 능력들이 상위 단계에 위치한다. 이러한 설계는 AI 전문가가 아닌 정책 입안자들도 AI 발전의 진행 상황과 의미를 쉽게 이해할 수 있게 한다.

AGI 측정과 정책적 활용을 위한 다각적 접근

OECD AI 능력 지표는 범용 인공지능(AGI) 정의와 측정을 위한 프레임워크로도 활용될 수 있다. 기존 AGI 정의 시도들이 추상적이고 실무적 측정이 어려웠던 반면, 이 지표는 인간 능력 영역 전반에 걸쳐 AI 발전을 체계적으로 비교할 수 있는 구체적 틀을 제공한다. 모든 척도에서 레벨 5 성능을 달성하는 것이 인간 수준 범용 지능의 벤치마크가 될 수 있다.

정책 활용 측면에서 이 지표들은 직업별 AI 대체 가능성 분석, 경제 전반의 자동화 영향 예측, 교육 시스템의 변화 필요성 파악 등 다양한 영역에서 활용될 예정이다. OECD는 미국의 O*NET 직업 정보 시스템과 연계하여 약 900개 직업의 요구 능력과 AI 성능 간 격차를 분석하는 방법론도 제시했다. 이를 통해 어떤 직업이나 업무에서 AI가 인간을 완전히 대체할 수 있는지, 또는 인간-AI 협업이 가능한 영역은 어디인지 파악할 수 있다.

지속적 업데이트와 글로벌 협력체계 구축

OECD는 이번에 공개한 지표가 베타 버전임을 강조하며, AI 연구자와 정책 입안자 양쪽으로부터의 피드백을 바탕으로 지속적인 개선을 진행할 계획이라고 밝혔다. 2025년 하반기부터는 정기적인 업데이트 체계를 도입하여 급속한 AI 발전에 대응할 예정이며, 2026년 초 첫 번째 공식 업데이트가 예정되어 있다.

또한 AI 분야의 잠재적 돌파구를 예측하기 위한 전문가 그룹 분석, 시카고 대학 경제 전문가 패널을 모델로 한 정기 전문가 설문조사, 새로운 벤치마크 테스트 개발 등의 후속 활동도 계획하고 있다. OECD는 온라인(https://aicapabilityindicators.oecd.org)을 통해 AI 연구자들이 관련 벤치마크와 평가 결과를 제출할 수 있는 시스템도 구축했다.

FAQ

Q: OECD AI 능력 지표가 기존 AI 평가 방법과 다른 점은 무엇인가요?
A: 기존 평가 방법들이 벤치마크 성능만을 제시했다면, OECD 지표는 AI 능력을 인간 능력과 직접 비교하여 정책 입안자들이 이해하기 쉬운 형태로 제공합니다. 또한 단순한 성능 측정을 넘어 경제, 교육, 사회 전반에 미칠 영향을 예측할 수 있는 포괄적 프레임워크입니다.

Q: 현재 AI 기술 수준으로 어떤 분야에서 인간을 대체할 수 있나요?
A: 현재 대부분의 AI가 레벨 2-3 수준에 있어 완전한 인간 대체보다는 특정 업무에서의 보조 역할이 더 현실적입니다. 다만 정형화된 환경에서의 제조업 로봇이나 특정 영역의 데이터 분석 등에서는 이미 실질적인 활용이 이뤄지고 있습니다.

Q: AGI(범용 인공지능) 달성 시점을 이 지표로 예측할 수 있나요?
A: 9개 영역 모두에서 레벨 5에 도달하는 것이 AGI의 하나의 기준이 될 수 있지만, 현재 어떤 AI도 레벨 4에 안정적으로 도달하지 못한 상황입니다. OECD는 예측보다는 현재 능력을 정확히 측정하고 발전 과정을 추적하는 데 초점을 맞추고 있습니다.

기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.

이미지 출처: 챗GPT 생성

AI Matters 뉴스레터 구독하기

롤 TCG 리프트바운드, T1 우승 기념 컬렉션 공개 (1)	게임메카
대통령배 아마추어 e스포츠 대회, 광주 대표 선발전 모집	게임메카
소프트뱅크, 오픈AI 지분 담보 15조 원 대출 협상 재개…기업 보증 추가	AI matters
구글 탄소배출 1년 새 25% 급증…아마존도 16% 늘었다 (2)	AI matters
AI 데이터센터 크루소, 4조 7천억 원 조달 협의…기업가치 46조 원 거론 (1)	AI matters
테슬라, 직원 AI 지출 주 31만 원으로 제한…xAI 제품은 예외	AI matters
오픈AI, 미 정부에 지분 5% 제안…66조 원 규모	AI matters
[오늘의 스팀] 새로운 안전지대? 러스트 ‘아파트’ 생겼다	게임메카
소니에 이어, MS도 Xbox에서 실물 디스크 없앤다?	게임메카
[리뷰] 독특한 구성 속 탄탄한 기본기, 에이수스 프로아트 PZ14	IT동아
"10년 타기는 옛 말" 폐차 직전까지 21만km... LPG, 가장 오래 타는 차 (1)	오토헤럴드
현대차·기아, 美 상반기 88만대 돌파... 하이브리드로 역대급 기록 (1)	오토헤럴드
트럼프, USMCA 연장 거부 '자동차 원산지 규정 강화 가능성'	오토헤럴드
"브레이크 페달 없는 테슬라 나온다" 美 자율주행 규제 대수술	오토헤럴드
기아, 해양 폐플라스틱 EV3 트렁크 매트로 재탄생…오션클린업 협력 확대	오토헤럴드
[EV 트렌드] 'EV9·아이오닉 9 정조준' 테슬라 모델 Y L 미국 판매 시작	오토헤럴드
지커, 유럽서 EREV 카드 '들썩' 전기차 시장 둔화에 전략 수정	오토헤럴드
테슬라 독주·BYD 돌풍…6월 수입차 시장 판도 바꾼 전기차 50% 돌파	오토헤럴드
스텔란티스코리아, 개소세 인하 종료 대응 지프·푸조 7월 특별 프로모션 전개	글로벌오토뉴스
가상 세계에서 태어나는 자동차, 현대차 남양연구소 AMS동을 가다 (1)	글로벌오토뉴스
캐나다·중국 관세 장벽 완화… 지리자동차 로터스 EV 이 달 첫 상륙	글로벌오토뉴스
철도 선로 사이 틈새 메운 태양광 패널… 토지 파괴 없는 이중 용도 인프라 혁신 (1)	글로벌오토뉴스
미국 코넬대, 배터리 비용 56% 줄이는 DEER 공법 개발 (1)	글로벌오토뉴스
토요타와 조비 에비에이션 전기 비행 택시 합작회사 설립 (1)	글로벌오토뉴스
중국 체리자동차, 4개 독립 브랜드 앞세워 영국시장 확대	글로벌오토뉴스
중국, 세계 최고 수준 전기차 및 배터리 안전 기준 시행… 화재·폭발 제로화 조치	글로벌오토뉴스
노르웨이 전기차 등록 대수 100만 대 돌파, 상반기 전기차 점유율 97.6%	글로벌오토뉴스
피아트, 토폴리노/트리스/멀티플리나 등 도심 마이크로모빌리티 라인업 발표	글로벌오토뉴스
BYD, 2분기 전 세계 판매 1위 탈환…상반기 전체 판매는 6년만에 감소	글로벌오토뉴스
중국차, 유럽 시장서 처음으로 일본차 추월… BYD가 선두 견인	글로벌오토뉴스
브리지스톤 코리아, 상용차 타이어 구매 고객 대상 경품 프로모션 ‘타또’ 진행	글로벌오토뉴스
6월 수입 승용차 신규 등록 3만8059대 기록, 전년 동월 대비 37.0% 급증	글로벌오토뉴스
메르세데스-벤츠 공식 딜러 한성모터스, 여름맞이 고객 감사 캠페인 실시	글로벌오토뉴스
폴스타코리아, 배우 김우빈과 함께한 ‘폴스타 3’ TVC 온에어 및 국내 출시 캠페인 본격화	글로벌오토뉴스
아우디 코리아, FC 바이에른 뮌헨 친선 경기 ‘플레이어 에스코트’ 어린이 모집	글로벌오토뉴스
한국타이어 아이온 레이스, 포뮬러 E 시즌 12 상하이 더블헤더 출격	글로벌오토뉴스
기아, 오션클린업에 전기차 4대 추가 지원…해양 폐플라스틱 재자원화 확대	글로벌오토뉴스
르노코리아, 찾아가는 ‘차가옴 시승서비스’ 및 openR 게임 대회 개최	글로벌오토뉴스
미국 6월 경상용차 시장, 전년 대비 7.9% 성장… 137만 대 판매 기록	글로벌오토뉴스
메르세데스-벤츠 코리아, 전국 서비스센터서 ‘수해 차량 특별 지원 프로그램’ 운영	글로벌오토뉴스
토요타, 렉서스 전기 세단 LF-ZC 개발 전격 취소…부품사에 수백억 엔 보상	글로벌오토뉴스
고유가 직격탄 맞은 아시아 자동차 시장, 에너지 위기가 불러온 판도 변화	글로벌오토뉴스
중국 보상판매 보조금 정률제 전환, 자동차 시장 고부가가치 중심 재편 촉진	글로벌오토뉴스
"단순 녹화는 끝났다" 블랙박스 업계 구세대 AI 버려야 사는 이유 (3)	글로벌오토뉴스
스마일게이트, 2026 애니메 엑스포서 ‘카제나’·‘미래시’ 부스 오픈	게임동아
고립된 것은 몸일까, 마음일까? 이야기를 담은 방탈출 '아이솔레이션'	게임동아
하이브로, '드래곤빌리지3' 14년 뚝심으로 애플 매출 2위 등 '조용한 돌풍'	게임동아
모바일게임 출시량 전년比 2배 급증, 원인은 '바이브 코딩' (1)	게임메카
에픽게임즈, 고전 SF 호러 ‘나는 입이 없다...’ 무료 배포 (1)	게임메카
[이구동성] 떠나는 ‘미르’ (1)	게임메카
[오늘의 스팀] D-7, 어크 블랙 플래그 리싱크드 순위권 진입	게임메카
[순정남] 스팀에서 가장 인기 없는 태그 TOP 5	게임메카
[기획] 인디 게임사들, 어떻게 게임 마케팅을 해야 효과적일까	게임동아
“아이들 울겠는데?” 케데헌 ‘스타일’ 게임 출시 예정	게임동아
“iOS 게임 118% 증가” AI 바이브 코딩으로 모바일 게임 '홍수'	게임동아
크로쓰 발행 1주년, 어떤 성과 남겼나?	게임동아
함께 만드는 음악의 감동 '더 파이널 잼'	게임동아
'월드 오브 탱크: 히트’, 시즌1: 몰락한 에덴 공개	게임동아
3주 앞당겼다, 귀무자: 검의 길 9월 4일로 출시일 변경 (1)	게임메카
기가바이트 4K QD-OLED 모니터 3종, 쿠팡서 10일간 특가 판매	뉴스탭
웰메이드, 인디안·데일리스트 여름 베스트 모아 ‘특가전’ 연다	뉴스탭
여름 성수기 예약 68% 증가…제헌절 연휴가 여행 수요 끌었다	뉴스탭
퍼실, 최은경과 손잡고 여름철 세탁 고민 공략	뉴스탭
더샘, ‘피부 온도 -4.9℃’ 쿨링 토너 올리브영 오특 진행	뉴스탭
생활맥주·KHEE 손잡은 ‘키소맥’, 편의점 RTD 소맥 시장 정조준	뉴스탭
130년 역사 유니버설 제네브, 한국서 다시 문 열었다	뉴스탭
이젠 LED를 넘어 LCD로. 앱코 UD51L 엑시드 LCD 강화유리 ARGB BTF	기글하드웨어
컴투스홀딩스, 추론형 모바일 퍼즐 게임 '컬러스위퍼' 글로벌 출시 (1)	게임동아
“동북공정 ‘그’ 회사” 러브앤딥스페이스, 731 부대 연상 숫자로 자충수 (2)	게임동아
퍼스트 디센던트, '시즌4 대격변' 하반기 업데이트 로드맵 공개	게임동아
플레이위드코리아, 실적 부진 속 ‘씰M2’로 반등 노린다	게임동아
일러스트레이터 NAKDI 님이 소중히 여기는 풍부한 표정의 캐릭터 표현과 제작 ‘과정’을 보여주는 남다른 진심	게임동아
넷마블 '나 혼자만 레벨업:어라이즈', 짙은 밤의 주인 ‘아그네스 리베라’ 등장	게임동아
티파에 켄시로까지 캐릭터 대거 참전으로 뜨거워지는 격투 게임 시장	게임동아
[창간] “나만을 위한 퀘스트?” AI가 만드는 무한 콘텐츠 시대	게임동아
중국 자본 받은 해외 게임사들이 정리되고 있다	게임동아
넷마블 '몬길: STAR DIVE', 방송 통해 여름 업데이트 공개	게임동아
시프트업 '승리의 여신: 니케', 신규 스토리 이벤트 ‘WAVE TO YOU’ 적용	게임동아
애스턴마틴 밴티지, IMSA 5전 연속 포디움…GTD 선두 굳혔다	뉴스탭
고려은단, 단 하루 ‘오늘의 팝업’…관절·비타민 제품 한자리에 (1)	뉴스탭
크린랩, 일본 금속 가공 기술 담은 ‘미래인’ 법인인감 국내 첫 공개 (1)	뉴스탭
장마철 신발 선택 기준 달라졌다…방수 넘어 접지력·쾌적함까지 본다	뉴스탭
고소득 Z세대가 바꾼 럭셔리 여행 공식, 핵심은 ‘과시’보다 ‘의미’	뉴스탭
벤틀리 크루 본사 ‘CW1 하우스’, 이제 누구나 찾는다	뉴스탭
캐논코리아, KLPGA 롯데 오픈서 ‘파워샷 골프’ 체험 부스 운영 (1)	뉴스탭
포켓몬 생태도감 특별판, 예약판매만으로 예스24 주간 1위	뉴스탭
‘승리의 여신: 니케’, 여름 한정 SSR 2종 추가…신규 풀 보이스 이벤트 개막	뉴스탭
MSI 그래픽카드, 2026 상반기 다나와 히트브랜드 엔비디아 부문 선정	뉴스탭
사진이 조각이 되는 순간, 권오상 개인전 파티클서 개막	뉴스탭
14형 게이밍 노트북부터 AI UMPC까지…에스라이즈, ASUS 게이밍 프로모션 진행	뉴스탭
11억 기기 연결한 샤오미, 베를린서 ‘사람·자동차·집’ 비전 선보인다	뉴스탭
한컴타자 ‘산성비’에 허니버터칩이 내린다…해태 가루비와 이색 협업 (1)	뉴스탭
블랙야크, 순토와 청계산 트레일 러닝 클래스 연다	뉴스탭
장마철 앞두고 세탁세제 매출 21% 증가…실내건조 냄새 잡는 기능성 제품 강세	뉴스탭
세일즈포스, ‘에이전트포스 헬프 에이전트’ 공개…문제 해결한 만큼만 과금	AI matters
아카마이·엔비디아, AI 팩토리에 제로 트러스트 내장…블루필드-4로 성능 저하 없이 보안	AI matters
메타, 남는 연산력 판다…’메타 컴퓨트’ 클라우드 사업 검토에 주가 6%↑	AI matters
에어컨 대신 비행기! 올여름 떠나기 좋은 시원한 여행지 10 (1)	트래비
암태도, 사진만 찍고 떠나신다고요?	트래비
우리 구단 응원하며 레이싱 즐기기, 제주 9.81파크	트래비

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

OECD가 제시한 AI 능력 측정 새 기준, 정책 결정을 위한 종합 프레임워크 공개

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

OECD가 제시한 AI 능력 측정 새 기준, 정책 결정을 위한 종합 프레임워크 공개

공유하기

공감/비공감