OECD가 제시한 AI 능력 측정 새 기준, 정책 결정을 위한 종합 프레임워크 공개 : 다나와 DPG는 내맘을 디피지

Introducing the OECD AI Capability Indicators

5년 연구 끝에 탄생한 AI 능력 평가의 글로벌 표준

경제협력개발기구(OECD)가 인공지능(AI) 능력을 체계적으로 측정할 수 있는 종합 프레임워크를 발표했다. 'OECD AI 능력 지표(AI Capability Indicators)'는 5년간의 연구와 50여 명의 AI 연구자, 심리학자, 평가 전문가의 협력으로 개발된 베타 버전으로, AI의 발전 수준을 인간 능력과 직접 비교할 수 있는 새로운 측정 도구다.

이 프레임워크는 단순히 AI 성능을 벤치마크로 평가하는 기존 방식과 달리, 정책 입안자들이 이해하기 쉬운 형태로 AI의 사회적 영향을 예측할 수 있게 설계됐다. 언어, 사회적 상호작용, 문제해결, 창의성, 메타인지와 비판적 사고, 지식과 학습 및 기억, 시각, 조작, 로봇 지능 등 9개 핵심 영역에서 AI 능력을 5단계로 평가하며, 각 단계는 인간 능력과의 격차를 명확히 보여준다.

OECD는 이 지표가 정부, 학계, 산업계가 AI 발전을 모니터링하고 정책을 수립하는 데 활용할 수 있는 글로벌 기준점이 될 것이라고 밝혔다. 특히 유럽연합(EU)의 AI법과 OECD AI 권고안 같은 주요 정책 이니셔티브 실행에 필요한 증거 기반 도구로 기능할 예정이다.

현재 AI는 '중급 수준'... 대부분 레벨 2-3에 머물러

2024년 11월 기준 최첨단 AI 시스템들의 능력 평가 결과, 대부분이 5단계 척도에서 2-3 레벨에 위치하고 있어 아직 인간 수준에는 상당한 격차가 있는 것으로 나타났다. 레벨 1은 이미 해결된 단순한 AI 과제를, 레벨 5는 해당 영역에서 인간의 모든 능력을 재현할 수 있는 수준을 의미한다.

언어 능력에서 챗GPT(ChatGPT)에 사용되는 GPT-4o 같은 대형 언어모델(LLM)은 레벨 3 수준을 보여준다. 이들은 다중 언어 지원과 광범위한 세계 지식 접근에서 뛰어난 성능을 보이지만, 여전히 체계적인 분석 추론과 정보의 정확성 검증에서 한계를 드러낸다. 특히 환각 현상(hallucination)으로 불리는 잘못된 정보 생성 문제가 지속되고 있다.

창의성 영역에서는 구글의 알파제로(AlphaZero)가 레벨 3에 도달했다. 이 시스템은 신경-기호 아키텍처를 활용해 기존 인간 지식과 크게 다른 효율적이고 놀라운 전략을 생성할 수 있다. 반면 LLM은 확률적 구조와 기존 훈련 데이터에 의존하기 때문에 인간 지식과 실질적으로 구별되는 결과물을 만들어내지 못해 주로 레벨 2 수준에 그치고 있다.

작업 기반에서 능력 기반 평가로의 패러다임 전환

OECD가 개발한 이 프레임워크의 핵심 혁신은 기존의 '작업 기반' 분석에서 '능력 기반' 접근법으로의 전환이다. 기존 노동경제학 연구들이 수만 개의 개별 작업을 분석하는 방식을 사용했다면, OECD는 이러한 작업들의 기반이 되는 핵심 인간 능력에 초점을 맞췄다. 개별 작업은 보통 여러 능력을 동시에 요구하기 때문에, 능력 기반 접근법이 AI 발전의 영향을 더 명확하게 파악할 수 있다는 판단이다.

이 방법론은 인간 심리학에 근거해 구조화된 고수준 관점에서 AI 발전을 조망할 수 있게 한다. 각 지표는 해당 능력에서 AI가 완전한 인간 동등성을 달성하기까지의 발전 과정을 설명하며, 5단계 척도에서 가장 도전적인 능력들이 상위 단계에 위치한다. 이러한 설계는 AI 전문가가 아닌 정책 입안자들도 AI 발전의 진행 상황과 의미를 쉽게 이해할 수 있게 한다.

AGI 측정과 정책적 활용을 위한 다각적 접근

OECD AI 능력 지표는 범용 인공지능(AGI) 정의와 측정을 위한 프레임워크로도 활용될 수 있다. 기존 AGI 정의 시도들이 추상적이고 실무적 측정이 어려웠던 반면, 이 지표는 인간 능력 영역 전반에 걸쳐 AI 발전을 체계적으로 비교할 수 있는 구체적 틀을 제공한다. 모든 척도에서 레벨 5 성능을 달성하는 것이 인간 수준 범용 지능의 벤치마크가 될 수 있다.

정책 활용 측면에서 이 지표들은 직업별 AI 대체 가능성 분석, 경제 전반의 자동화 영향 예측, 교육 시스템의 변화 필요성 파악 등 다양한 영역에서 활용될 예정이다. OECD는 미국의 O*NET 직업 정보 시스템과 연계하여 약 900개 직업의 요구 능력과 AI 성능 간 격차를 분석하는 방법론도 제시했다. 이를 통해 어떤 직업이나 업무에서 AI가 인간을 완전히 대체할 수 있는지, 또는 인간-AI 협업이 가능한 영역은 어디인지 파악할 수 있다.

지속적 업데이트와 글로벌 협력체계 구축

OECD는 이번에 공개한 지표가 베타 버전임을 강조하며, AI 연구자와 정책 입안자 양쪽으로부터의 피드백을 바탕으로 지속적인 개선을 진행할 계획이라고 밝혔다. 2025년 하반기부터는 정기적인 업데이트 체계를 도입하여 급속한 AI 발전에 대응할 예정이며, 2026년 초 첫 번째 공식 업데이트가 예정되어 있다.

또한 AI 분야의 잠재적 돌파구를 예측하기 위한 전문가 그룹 분석, 시카고 대학 경제 전문가 패널을 모델로 한 정기 전문가 설문조사, 새로운 벤치마크 테스트 개발 등의 후속 활동도 계획하고 있다. OECD는 온라인(https://aicapabilityindicators.oecd.org)을 통해 AI 연구자들이 관련 벤치마크와 평가 결과를 제출할 수 있는 시스템도 구축했다.

FAQ

Q: OECD AI 능력 지표가 기존 AI 평가 방법과 다른 점은 무엇인가요?
A: 기존 평가 방법들이 벤치마크 성능만을 제시했다면, OECD 지표는 AI 능력을 인간 능력과 직접 비교하여 정책 입안자들이 이해하기 쉬운 형태로 제공합니다. 또한 단순한 성능 측정을 넘어 경제, 교육, 사회 전반에 미칠 영향을 예측할 수 있는 포괄적 프레임워크입니다.

Q: 현재 AI 기술 수준으로 어떤 분야에서 인간을 대체할 수 있나요?
A: 현재 대부분의 AI가 레벨 2-3 수준에 있어 완전한 인간 대체보다는 특정 업무에서의 보조 역할이 더 현실적입니다. 다만 정형화된 환경에서의 제조업 로봇이나 특정 영역의 데이터 분석 등에서는 이미 실질적인 활용이 이뤄지고 있습니다.

Q: AGI(범용 인공지능) 달성 시점을 이 지표로 예측할 수 있나요?
A: 9개 영역 모두에서 레벨 5에 도달하는 것이 AGI의 하나의 기준이 될 수 있지만, 현재 어떤 AI도 레벨 4에 안정적으로 도달하지 못한 상황입니다. OECD는 예측보다는 현재 능력을 정확히 측정하고 발전 과정을 추적하는 데 초점을 맞추고 있습니다.

기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.

이미지 출처: 챗GPT 생성

AI Matters 뉴스레터 구독하기

“AI가 가짜뉴스 잡는다”… X, 커뮤니티 노트에 AI 챗봇 투입 (1)	AI matters
아마존, 창고 로봇 누적 100만 대 배치… AI 모델로 창고 자율주행 10% 향상	AI matters
플리토와 협력 나선 퓨리오사AI, AI 반도체는 왜 언어 데이터가 필요할까?	IT동아
세컨드팀, "슈퍼코더, AI가 면접관이 되는 시대 연다”	IT동아
'챗GPT는 제 고객관리의 핵심이예요' LLM, 성인 산업의 판도를 바꾸다	다나와
애플, ‘개인화 시리’ 자체 개발 한계로 오픈AI·앤트로픽과 제휴 검토	다나와
'지금 자판기 쪽으로 와. 내가 진짜라는 걸 보여주지' AI의 웃기지만 섬뜩한 '착각'	다나와
KRDS 준수해야 하는 공공 웹, AI 기반 검증 기술에도 ‘주목’	IT동아
구글, 가상 착장 앱 ‘도플’ 출시… “스타일 탐색을 더 쉽게” (2)	다나와
퓨리오사AI NPU 도입 앞둔 딥노이드, "운영비용 최적화·서비스 응용에 기대"	IT동아
작곡 AI 수노, 편집 기능 강화 위해 ‘웨이브툴’ 인수… 음반사와 법적 분쟁은 지속	AI matters
스플렁크, AI 시대 데이터 관리 강조…“데이터 연합 전략이 대안”	IT동아
[생성AI길라잡이] 구글 제미나이로 '고품질 음식 사진' 생성하기	IT동아
테슬라 로보택시, 출시 초반부터 사고 속출	다나와
넥스트라이즈 2025, 우주/방산/콘텐츠 부문 AI 스타트업 '눈길'	IT동아
AI 무인 회수기, 페트병·캔 재활용으로 포인트 적립까지…선순환 효과 ‘톡톡’	IT동아
“형태보다 판단력이 중요하다" FCA, AI 금융 규제 패러다임 개혁 요구 (1)	다나와
리벨리온, SKT와 함께 AI 서비스 구현 나서··· '핵심은 AI 주권 확보'	IT동아
AI 챗봇 또타24, 서울지하철 민원 접수 간단하고 빠르게 (4)	IT동아
구글 AI 검색, 영국 경쟁당국 조사 착수…“시장 왜곡 우려”	다나와
업스테이지·퓨리오사AI 맞손, '국산NPU에 국산 LLM 올린다'	IT동아
과기정통부·중기부 장관에 ‘AI 전문가’ 전면 배치… “국가 디지털 전략 가속화”	다나와
美 유통업계 '도난 피해' 연 57조에 달해....해결 위해 프랑스 AI 나선다 (3)	다나와
BBC, AI 스타트업 '퍼플렉시티'에 '무단 콘텐츠 사용'에 따른 법적 조치 경고	다나와
"너 말투, ChatGPT 같아"…AI가 우리의 말하는 방식을 바꾸고 있다 (6)	다나와
인고의 시간 거친 티맥스 ANC, 슈퍼앱 '가이아'에 사활 걸어 (1)	IT동아
공공 AI의 주축으로 떠오른 '소버린 AI', 해외 주요 국가 동향은	IT동아
MS, 수천명 추가 감원…AI 집중 전략 위한 조직 재편 (1)	다나와
애플, 검색 패권 흔든다. Perplexity 인수 검토로 본 전략 전환	다나와
"AI 투자 3배 늘리는데 인재는 홀대"... 액센추어가 경고한 기업 회복력의 함정	AI matters
아마존·구글·MS 324조 원 쏟아부었다... 'AI 인프라 전쟁' 분석 보고서	AI matters
파일럿부터 전면 도입까지… AI로 생산성 7.8% 높인 기업들의 성공 공식	AI matters
터치스크린 고장부터 튀김기 오류까지… 전 세계 패스트푸드 매장의 AI 활용법	AI matters
국민 3명 중 2명 “AI 서비스, 삶에 긍정적 영향”… 60대 이상은 거리감 여전 (1)	AI matters
에이전틱 AI가 바꾸는 4가지 비즈니스 혁신… 내가 놓친 업무 조각 찾아낸다	AI matters
데이터 분석 1위, 콘텐츠 제작 2위... MZ 직장인이 AI 사용하는 방법	AI matters
오픈AI, 기업 대상 챗GPT 할인 나서… MS와의 관계 악영향 때문? (1)	AI matters
中 AI 아바타, 라이브 커머스서 7시간 만에 76억원 매출… 인간 인플루언서 압도 (3)	AI matters
알리바바 클라우드, 한국에 두 번째 데이터센터 개설… “AI 수요 급증에 대비”	AI matters
애플, AI로 자체 칩 설계 가속화... "설계 속도 대폭 향상 기대"	AI matters
어도비, 핀터레스트와 개인화 AI 스타일 분석 '스타일 리딩' 체험 선보여	AI matters
하정우 AI수석 첫 브리핑… “AI 골든타임 3~5년… 이공계 인재 육성 책무 강화할 것”	AI matters
엔비디아, AI 스타트업 투자 광폭 확대… 2년간 80곳 이상 (1)	AI matters
[생성 AI 길라잡이] 바짝 앞으로 다가온 6G 시대, AI가 핵심? (1)	IT동아
인공지능 공세에 '애플 프리미엄' 가치 위협 받는다	IT동아
‘다크웹 전문가’ S2W, 사이버 범죄 AI 추적 기술 세계로	IT동아
영국 환경청, AI 데이터센터 급증에 "물 부족 위기 경고" (2)	다나와
OpenAI, 미 국방부와 2억 달러 초대형 계약 체결	다나와
라틴아메리카 최초의 AI 언어 모델 ‘Latam-GPT’, 2025년 출시 예정	다나와
메타, 오클리·프라다와 손잡고 AI 스마트 글라스 확장…패션 브랜드 협업 본격화 (3)	다나와
AI와 실사 촬영의 만남, 단편 영화 ‘ANCESTRA’	다나와
일반인이 AI로 법률문제 해결한다? 변호사 63% “위험하다” (5)	AI matters
빅테크가 'AI' 기술 깎을 때, 세일즈포스는 '도입 가능성'에 집중했다	IT동아
최신 AI 에이전트도 현실 업무 성공률 58%... 기밀 유지 성능은 0% 수준 (1)	AI matters
시청·병원·학교까지 AI 바람... 공공기관 94% AI 활용하지만 ‘보안’은 엉망	AI matters
챗GPT 많이 쓸수록 멍청해진다? MIT의 실험 결과 충격 (1)	AI matters
속도냐 안전이냐, AI 기업들의 딜레마… 절반이 '빠른 출시' 택했다	AI matters
中, 챗GPT·메타 AI 군에 투입... “군사정보 전 과정 자동화 시도” (1)	AI matters
"AI만으로 상업 포스터 완성" 바이트댄스, 풀스택 편집 가능한 디자인 시스템 공개	AI matters
AI 규제 완화냐 vs. 연구비 삭감이냐, 트럼프 2기 AI 정책 동향 분석	AI matters
과기정통부, 국내 AI 스타트업 8곳 해외 실증 지원… 6개국서 사업 실증	AI matters
英, 세계 최초 AI 기반 로펌 공식 승인… 법률 서비스 혁신 신호탄	AI matters
AI 코딩 툴 ‘커서’, 월 200달러 ‘울트라 요금제’ 출시… 기업 고객 공략 가속화 (1)	AI matters
샘 알트만, "메타, 오픈AI 인재 영입 위해 1억 달러 제안했지만 실패"	AI matters
G7, AI·핵심 광물·퀀텀 등 6대 글로벌 협정 채택 (1)	다나와
오픈AI, 美 국방부와 최대 2억 달러 계약… MS-정부 사업과 충돌 우려 (1)	AI matters
韓 기업 AI 도입 현주소는?...“인재·데이터 확보가 고민” (1)	IT동아
오픈AI도 한다, 美 정부용 ‘OpenAI for Government’ 공식 출범 (1)	AI matters
어도비, '파이어 플라이' 모바일 앱 출시… 이동 중 작업 가능해진다 (1)	AI matters
아마존 CEO "AI 도입으로 인력 감축 불가피"... 사무직 인력 줄인다 (2)	AI matters
메타, AI 스마트 글래스 오클리·프라다로 출시한다 (1)	AI matters
[기고] AI와 미래 산업기술 - 4. AI 시대, 세상을 바꾸는 산업 기술 전문가의 미래	IT동아
AI, 전 인류 위협할 수 있다 (6)	다나와
DISCO, 유럽 시장 공략 본격화…생성 AI로 법률 문서 검토 서비스 시작	다나와
Adobe, AI 기반 웹·모바일 트래픽 분석 툴 발표…마케팅 자동화에 속도	다나와
'AI에 의한 대규모 재난 미리 방지한다' 뉴욕주, AI 재앙 방지 위한 'RAISE 법안' 통과	다나와
'명화 복원도 이제 AI로 하세요' 전문가의 수작업보다 최대 66배 빨라 (4)	다나와
ABBA의 뵈른 울바에우스, AI로 새로운 뮤지컬 작업 중… “AI는 환상적인 도구이자 창작 파트너”	다나와
마텔, 오픈AI와 손잡고 AI 기반 장난감 개발…올해 첫 출시 예정	다나와
“클릭없는 세상 올 것” — 웹을 장악하는 새로운 'AI 검색 봇'	다나와
ChatGPT 최신 모델이 47년 전 아타리 체스 엔진에 완패	다나와
Meta, Scale AI에 대규모 투자 검토… 기존 파트너십 균열 조짐	다나와
‘통합검색을 통합 에이전트로’, 네이버 키워드·생성 AI 검색 두마리 토끼 잡을까	IT동아
[생성 AI 길라잡이] 8년간 공방 ‘로톡 사태’ 계기로 마련된 후속조치 살펴보니	IT동아
'영상 편집이 이렇게 쉽다고?' 메타, 생성형 AI 기반 영상 편집 기능 출시 (3)	다나와
현대백화점, 외국인 고객 위한 AI 쇼핑 어시스턴트 '헤이디' 출시한다	다나와
OpenAI, 차세대 지능형 모델 ‘o3-pro’ 출시… ChatGPT 유료 이용자 대상 제공 시작	다나와
아마존, 광고주 위해 비디오 생성기 등 AI 광고 도구 발표 (1)	다나와
ChatGPT 성장에 힘입어 오픈AI, 연간 반복 매출 100억 달러 돌파...'2029년 매출 4배 목표' (2)	다나와
구글, 제미나이 앱에 ‘예약 작업’ 기능 도입…AI 비서 전쟁 본격화 (1)	다나와
AI가 만든 아이스크림에 맞춤형 서비스까지···배스킨라빈스 청담점 가보니 (3)	IT동아
2025 대한민국 AI 50 발표…포티투닷·뷰노·스트라드비젼 등 혁신 주역 부상 (1)	다나와
일런 머스크, 오랜 숙원인 '로보택시' 서비스 드디어 출시...이번엔 진짜 '완전자율주행'? (1)	다나와
美 정부 백신 홈페이지, 해킹으로 인해 AI 생성 스팸 콘텐츠로 도배 (1)	AI matters
위키피디아, AI 자동 요약 실험 중단… 편집자들의 강력 반발 영향	AI matters
디즈니·유니버설, AI 이미지 생성 플랫폼 ‘미드저니’ 고소…“무단 저작물 활용” (1)	AI matters
사람처럼 행동 전 생각... 메타 AI 모델 ‘V-JEPA 2’ 공개 "로봇에 적용한다면?"	AI matters
前 오픈AI 연구원 “챗GPT, 생명 위협 상황에서도 종료 거부”	AI matters
美 정부가 선택할 정도의 보안 성능, 앤트로픽 '클로드 Gov' 배포	AI matters
데이터 유출 54% 폰에서 발생…기업용 안드로이드에 AI 보안·협업 기능 강화	AI matters

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

OECD가 제시한 AI 능력 측정 새 기준, 정책 결정을 위한 종합 프레임워크 공개

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

OECD가 제시한 AI 능력 측정 새 기준, 정책 결정을 위한 종합 프레임워크 공개

공유하기

공감/비공감