비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

OECD가 제시한 AI 능력 측정 새 기준, 정책 결정을 위한 종합 프레임워크 공개

2025.06.05. 14:11:10
조회 수
449
11

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

Introducing the OECD AI Capability Indicators

5년 연구 끝에 탄생한 AI 능력 평가의 글로벌 표준

경제협력개발기구(OECD)가 인공지능(AI) 능력을 체계적으로 측정할 수 있는 종합 프레임워크를 발표했다. 'OECD AI 능력 지표(AI Capability Indicators)'는 5년간의 연구와 50여 명의 AI 연구자, 심리학자, 평가 전문가의 협력으로 개발된 베타 버전으로, AI의 발전 수준을 인간 능력과 직접 비교할 수 있는 새로운 측정 도구다.

이 프레임워크는 단순히 AI 성능을 벤치마크로 평가하는 기존 방식과 달리, 정책 입안자들이 이해하기 쉬운 형태로 AI의 사회적 영향을 예측할 수 있게 설계됐다. 언어, 사회적 상호작용, 문제해결, 창의성, 메타인지와 비판적 사고, 지식과 학습 및 기억, 시각, 조작, 로봇 지능 등 9개 핵심 영역에서 AI 능력을 5단계로 평가하며, 각 단계는 인간 능력과의 격차를 명확히 보여준다.

OECD는 이 지표가 정부, 학계, 산업계가 AI 발전을 모니터링하고 정책을 수립하는 데 활용할 수 있는 글로벌 기준점이 될 것이라고 밝혔다. 특히 유럽연합(EU)의 AI법과 OECD AI 권고안 같은 주요 정책 이니셔티브 실행에 필요한 증거 기반 도구로 기능할 예정이다.

현재 AI는 '중급 수준'... 대부분 레벨 2-3에 머물러

2024년 11월 기준 최첨단 AI 시스템들의 능력 평가 결과, 대부분이 5단계 척도에서 2-3 레벨에 위치하고 있어 아직 인간 수준에는 상당한 격차가 있는 것으로 나타났다. 레벨 1은 이미 해결된 단순한 AI 과제를, 레벨 5는 해당 영역에서 인간의 모든 능력을 재현할 수 있는 수준을 의미한다.

언어 능력에서 챗GPT(ChatGPT)에 사용되는 GPT-4o 같은 대형 언어모델(LLM)은 레벨 3 수준을 보여준다. 이들은 다중 언어 지원과 광범위한 세계 지식 접근에서 뛰어난 성능을 보이지만, 여전히 체계적인 분석 추론과 정보의 정확성 검증에서 한계를 드러낸다. 특히 환각 현상(hallucination)으로 불리는 잘못된 정보 생성 문제가 지속되고 있다.

창의성 영역에서는 구글의 알파제로(AlphaZero)가 레벨 3에 도달했다. 이 시스템은 신경-기호 아키텍처를 활용해 기존 인간 지식과 크게 다른 효율적이고 놀라운 전략을 생성할 수 있다. 반면 LLM은 확률적 구조와 기존 훈련 데이터에 의존하기 때문에 인간 지식과 실질적으로 구별되는 결과물을 만들어내지 못해 주로 레벨 2 수준에 그치고 있다.

작업 기반에서 능력 기반 평가로의 패러다임 전환

OECD가 개발한 이 프레임워크의 핵심 혁신은 기존의 '작업 기반' 분석에서 '능력 기반' 접근법으로의 전환이다. 기존 노동경제학 연구들이 수만 개의 개별 작업을 분석하는 방식을 사용했다면, OECD는 이러한 작업들의 기반이 되는 핵심 인간 능력에 초점을 맞췄다. 개별 작업은 보통 여러 능력을 동시에 요구하기 때문에, 능력 기반 접근법이 AI 발전의 영향을 더 명확하게 파악할 수 있다는 판단이다.

이 방법론은 인간 심리학에 근거해 구조화된 고수준 관점에서 AI 발전을 조망할 수 있게 한다. 각 지표는 해당 능력에서 AI가 완전한 인간 동등성을 달성하기까지의 발전 과정을 설명하며, 5단계 척도에서 가장 도전적인 능력들이 상위 단계에 위치한다. 이러한 설계는 AI 전문가가 아닌 정책 입안자들도 AI 발전의 진행 상황과 의미를 쉽게 이해할 수 있게 한다.

AGI 측정과 정책적 활용을 위한 다각적 접근

OECD AI 능력 지표는 범용 인공지능(AGI) 정의와 측정을 위한 프레임워크로도 활용될 수 있다. 기존 AGI 정의 시도들이 추상적이고 실무적 측정이 어려웠던 반면, 이 지표는 인간 능력 영역 전반에 걸쳐 AI 발전을 체계적으로 비교할 수 있는 구체적 틀을 제공한다. 모든 척도에서 레벨 5 성능을 달성하는 것이 인간 수준 범용 지능의 벤치마크가 될 수 있다.

정책 활용 측면에서 이 지표들은 직업별 AI 대체 가능성 분석, 경제 전반의 자동화 영향 예측, 교육 시스템의 변화 필요성 파악 등 다양한 영역에서 활용될 예정이다. OECD는 미국의 O*NET 직업 정보 시스템과 연계하여 약 900개 직업의 요구 능력과 AI 성능 간 격차를 분석하는 방법론도 제시했다. 이를 통해 어떤 직업이나 업무에서 AI가 인간을 완전히 대체할 수 있는지, 또는 인간-AI 협업이 가능한 영역은 어디인지 파악할 수 있다.

지속적 업데이트와 글로벌 협력체계 구축

OECD는 이번에 공개한 지표가 베타 버전임을 강조하며, AI 연구자와 정책 입안자 양쪽으로부터의 피드백을 바탕으로 지속적인 개선을 진행할 계획이라고 밝혔다. 2025년 하반기부터는 정기적인 업데이트 체계를 도입하여 급속한 AI 발전에 대응할 예정이며, 2026년 초 첫 번째 공식 업데이트가 예정되어 있다.

또한 AI 분야의 잠재적 돌파구를 예측하기 위한 전문가 그룹 분석, 시카고 대학 경제 전문가 패널을 모델로 한 정기 전문가 설문조사, 새로운 벤치마크 테스트 개발 등의 후속 활동도 계획하고 있다. OECD는 온라인(https://aicapabilityindicators.oecd.org)을 통해 AI 연구자들이 관련 벤치마크와 평가 결과를 제출할 수 있는 시스템도 구축했다.


FAQ

Q: OECD AI 능력 지표가 기존 AI 평가 방법과 다른 점은 무엇인가요?
A: 기존 평가 방법들이 벤치마크 성능만을 제시했다면, OECD 지표는 AI 능력을 인간 능력과 직접 비교하여 정책 입안자들이 이해하기 쉬운 형태로 제공합니다. 또한 단순한 성능 측정을 넘어 경제, 교육, 사회 전반에 미칠 영향을 예측할 수 있는 포괄적 프레임워크입니다.

Q: 현재 AI 기술 수준으로 어떤 분야에서 인간을 대체할 수 있나요?
A: 현재 대부분의 AI가 레벨 2-3 수준에 있어 완전한 인간 대체보다는 특정 업무에서의 보조 역할이 더 현실적입니다. 다만 정형화된 환경에서의 제조업 로봇이나 특정 영역의 데이터 분석 등에서는 이미 실질적인 활용이 이뤄지고 있습니다.

Q: AGI(범용 인공지능) 달성 시점을 이 지표로 예측할 수 있나요?
A: 9개 영역 모두에서 레벨 5에 도달하는 것이 AGI의 하나의 기준이 될 수 있지만, 현재 어떤 AI도 레벨 4에 안정적으로 도달하지 못한 상황입니다. OECD는 예측보다는 현재 능력을 정확히 측정하고 발전 과정을 추적하는 데 초점을 맞추고 있습니다.

기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.

이미지 출처: 챗GPT 생성




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
슈퍼캣 ‘돌 키우기 온라인’, 서버 이용자들 협동하는 ‘도시 복구 이벤트’ 26일 업데이트 예고! 게임동아
스마일게이트 ‘로드나인’, 장비 각성 및 신규 사냥터 추가 등 시즌2 첫 업데이트 진행 게임동아
SOOP, 누적 시청자 2300만명 '2026 LoL 멸망전 시즌 1' 개최 게임동아
넷마블 '레이븐2', '사역마 원정대' 등 업데이트 실시 게임동아
SM엔터 아이돌과 함께 퍼즐삼매경! 카카오게임즈, SMiniz(슴미니즈) 정식 출시 게임동아
메르세데스-벤츠 코리아, '한국여자오픈' 타이틀 스폰서 참여 글로벌오토뉴스
AI뉴스 2배 넘게 좋아진 Gemini 3.1 Pro, Lyria 3, Sonnet 4.6, Claude Code 업데이트, 보안주 급락, Grok 4.2, Qwen3.5 등 동영상 있음 조코딩 JoCoding
폭스바겐 '시세 이하 미끼, 유령차 주의' 가짜 중고차 사이트 사기 경고 오토헤럴드
기아 美 조지아 공장 2009년 가동, 16년만 누적 생산 500만대 돌파 오토헤럴드
'엄마의 마음으로 뽑은 최고의 패밀리카' 현대차, 4개 모델 수상 오토헤럴드
픽업트럭 제왕 '램' 차봇모터스와 손잡고 한국 상륙… 4월 ‘램 1500’ 출시 오토헤럴드
아우디 레볼루트 F1팀, 아디다스와 협업한 팀웨어 및 팬웨어 컬렉션 공개 오토헤럴드
현대모비스, 20년 이어온 사회공헌 결실...미호강 일대 멸종 위기 동물 포착 오토헤럴드
배터리 교체 비용만 '2억 달러' 볼보 EX30, 4만여 대 대규모 리콜 오토헤럴드
한국자동차전문기자협회, 신임 회장에 이다일 대표 선출 오토헤럴드
현대차그룹, 전천후 활동 기대 원격 화재 진압장비 ‘무인소방로봇’ 기증 오토헤럴드
람보르기니, 페노메노 에너지와 예술적 영감 조명 ‘영혼을 조각하다’ 공개 오토헤럴드
체리자동차, 세계 최초 디젤 PHEV 픽업트럭 KP31 공개… 호주 시장 정조준 글로벌오토뉴스
테슬라, 미국 캘리포니아 자동차국 상대 허위 광고 판결 불복 소송 글로벌오토뉴스
중국, 주차장 천장 달리는 충전 로봇 상용화 가속 글로벌오토뉴스
이 시간 HOT 댓글!
1/4