
Introducing the OECD AI Capability Indicators
5년 연구 끝에 탄생한 AI 능력 평가의 글로벌 표준
경제협력개발기구(OECD)가 인공지능(AI) 능력을 체계적으로 측정할 수 있는 종합 프레임워크를 발표했다. 'OECD AI 능력 지표(AI Capability Indicators)'는 5년간의 연구와 50여 명의 AI 연구자, 심리학자, 평가 전문가의 협력으로 개발된 베타 버전으로, AI의 발전 수준을 인간 능력과 직접 비교할 수 있는 새로운 측정 도구다.
이 프레임워크는 단순히 AI 성능을 벤치마크로 평가하는 기존 방식과 달리, 정책 입안자들이 이해하기 쉬운 형태로 AI의 사회적 영향을 예측할 수 있게 설계됐다. 언어, 사회적 상호작용, 문제해결, 창의성, 메타인지와 비판적 사고, 지식과 학습 및 기억, 시각, 조작, 로봇 지능 등 9개 핵심 영역에서 AI 능력을 5단계로 평가하며, 각 단계는 인간 능력과의 격차를 명확히 보여준다.
OECD는 이 지표가 정부, 학계, 산업계가 AI 발전을 모니터링하고 정책을 수립하는 데 활용할 수 있는 글로벌 기준점이 될 것이라고 밝혔다. 특히 유럽연합(EU)의 AI법과 OECD AI 권고안 같은 주요 정책 이니셔티브 실행에 필요한 증거 기반 도구로 기능할 예정이다.
현재 AI는 '중급 수준'... 대부분 레벨 2-3에 머물러
2024년 11월 기준 최첨단 AI 시스템들의 능력 평가 결과, 대부분이 5단계 척도에서 2-3 레벨에 위치하고 있어 아직 인간 수준에는 상당한 격차가 있는 것으로 나타났다. 레벨 1은 이미 해결된 단순한 AI 과제를, 레벨 5는 해당 영역에서 인간의 모든 능력을 재현할 수 있는 수준을 의미한다.
언어 능력에서 챗GPT(ChatGPT)에 사용되는 GPT-4o 같은 대형 언어모델(LLM)은 레벨 3 수준을 보여준다. 이들은 다중 언어 지원과 광범위한 세계 지식 접근에서 뛰어난 성능을 보이지만, 여전히 체계적인 분석 추론과 정보의 정확성 검증에서 한계를 드러낸다. 특히 환각 현상(hallucination)으로 불리는 잘못된 정보 생성 문제가 지속되고 있다.
창의성 영역에서는 구글의 알파제로(AlphaZero)가 레벨 3에 도달했다. 이 시스템은 신경-기호 아키텍처를 활용해 기존 인간 지식과 크게 다른 효율적이고 놀라운 전략을 생성할 수 있다. 반면 LLM은 확률적 구조와 기존 훈련 데이터에 의존하기 때문에 인간 지식과 실질적으로 구별되는 결과물을 만들어내지 못해 주로 레벨 2 수준에 그치고 있다.
작업 기반에서 능력 기반 평가로의 패러다임 전환
OECD가 개발한 이 프레임워크의 핵심 혁신은 기존의 '작업 기반' 분석에서 '능력 기반' 접근법으로의 전환이다. 기존 노동경제학 연구들이 수만 개의 개별 작업을 분석하는 방식을 사용했다면, OECD는 이러한 작업들의 기반이 되는 핵심 인간 능력에 초점을 맞췄다. 개별 작업은 보통 여러 능력을 동시에 요구하기 때문에, 능력 기반 접근법이 AI 발전의 영향을 더 명확하게 파악할 수 있다는 판단이다.
이 방법론은 인간 심리학에 근거해 구조화된 고수준 관점에서 AI 발전을 조망할 수 있게 한다. 각 지표는 해당 능력에서 AI가 완전한 인간 동등성을 달성하기까지의 발전 과정을 설명하며, 5단계 척도에서 가장 도전적인 능력들이 상위 단계에 위치한다. 이러한 설계는 AI 전문가가 아닌 정책 입안자들도 AI 발전의 진행 상황과 의미를 쉽게 이해할 수 있게 한다.
AGI 측정과 정책적 활용을 위한 다각적 접근
OECD AI 능력 지표는 범용 인공지능(AGI) 정의와 측정을 위한 프레임워크로도 활용될 수 있다. 기존 AGI 정의 시도들이 추상적이고 실무적 측정이 어려웠던 반면, 이 지표는 인간 능력 영역 전반에 걸쳐 AI 발전을 체계적으로 비교할 수 있는 구체적 틀을 제공한다. 모든 척도에서 레벨 5 성능을 달성하는 것이 인간 수준 범용 지능의 벤치마크가 될 수 있다.
정책 활용 측면에서 이 지표들은 직업별 AI 대체 가능성 분석, 경제 전반의 자동화 영향 예측, 교육 시스템의 변화 필요성 파악 등 다양한 영역에서 활용될 예정이다. OECD는 미국의 O*NET 직업 정보 시스템과 연계하여 약 900개 직업의 요구 능력과 AI 성능 간 격차를 분석하는 방법론도 제시했다. 이를 통해 어떤 직업이나 업무에서 AI가 인간을 완전히 대체할 수 있는지, 또는 인간-AI 협업이 가능한 영역은 어디인지 파악할 수 있다.
지속적 업데이트와 글로벌 협력체계 구축
OECD는 이번에 공개한 지표가 베타 버전임을 강조하며, AI 연구자와 정책 입안자 양쪽으로부터의 피드백을 바탕으로 지속적인 개선을 진행할 계획이라고 밝혔다. 2025년 하반기부터는 정기적인 업데이트 체계를 도입하여 급속한 AI 발전에 대응할 예정이며, 2026년 초 첫 번째 공식 업데이트가 예정되어 있다.
또한 AI 분야의 잠재적 돌파구를 예측하기 위한 전문가 그룹 분석, 시카고 대학 경제 전문가 패널을 모델로 한 정기 전문가 설문조사, 새로운 벤치마크 테스트 개발 등의 후속 활동도 계획하고 있다. OECD는 온라인(https://aicapabilityindicators.oecd.org)을 통해 AI 연구자들이 관련 벤치마크와 평가 결과를 제출할 수 있는 시스템도 구축했다.
FAQ
Q: OECD AI 능력 지표가 기존 AI 평가 방법과 다른 점은 무엇인가요?
A: 기존 평가 방법들이 벤치마크 성능만을 제시했다면, OECD 지표는 AI 능력을 인간 능력과 직접 비교하여 정책 입안자들이 이해하기 쉬운 형태로 제공합니다. 또한 단순한 성능 측정을 넘어 경제, 교육, 사회 전반에 미칠 영향을 예측할 수 있는 포괄적 프레임워크입니다.
Q: 현재 AI 기술 수준으로 어떤 분야에서 인간을 대체할 수 있나요?
A: 현재 대부분의 AI가 레벨 2-3 수준에 있어 완전한 인간 대체보다는 특정 업무에서의 보조 역할이 더 현실적입니다. 다만 정형화된 환경에서의 제조업 로봇이나 특정 영역의 데이터 분석 등에서는 이미 실질적인 활용이 이뤄지고 있습니다.
Q: AGI(범용 인공지능) 달성 시점을 이 지표로 예측할 수 있나요?
A: 9개 영역 모두에서 레벨 5에 도달하는 것이 AGI의 하나의 기준이 될 수 있지만, 현재 어떤 AI도 레벨 4에 안정적으로 도달하지 못한 상황입니다. OECD는 예측보다는 현재 능력을 정확히 측정하고 발전 과정을 추적하는 데 초점을 맞추고 있습니다.
기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.
이미지 출처: 챗GPT 생성
AI Matters 뉴스레터 구독하기