비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

OECD가 제시한 AI 능력 측정 새 기준, 정책 결정을 위한 종합 프레임워크 공개

2025.06.05. 14:11:10
조회 수
170
10

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

Introducing the OECD AI Capability Indicators

5년 연구 끝에 탄생한 AI 능력 평가의 글로벌 표준

경제협력개발기구(OECD)가 인공지능(AI) 능력을 체계적으로 측정할 수 있는 종합 프레임워크를 발표했다. 'OECD AI 능력 지표(AI Capability Indicators)'는 5년간의 연구와 50여 명의 AI 연구자, 심리학자, 평가 전문가의 협력으로 개발된 베타 버전으로, AI의 발전 수준을 인간 능력과 직접 비교할 수 있는 새로운 측정 도구다.

이 프레임워크는 단순히 AI 성능을 벤치마크로 평가하는 기존 방식과 달리, 정책 입안자들이 이해하기 쉬운 형태로 AI의 사회적 영향을 예측할 수 있게 설계됐다. 언어, 사회적 상호작용, 문제해결, 창의성, 메타인지와 비판적 사고, 지식과 학습 및 기억, 시각, 조작, 로봇 지능 등 9개 핵심 영역에서 AI 능력을 5단계로 평가하며, 각 단계는 인간 능력과의 격차를 명확히 보여준다.

OECD는 이 지표가 정부, 학계, 산업계가 AI 발전을 모니터링하고 정책을 수립하는 데 활용할 수 있는 글로벌 기준점이 될 것이라고 밝혔다. 특히 유럽연합(EU)의 AI법과 OECD AI 권고안 같은 주요 정책 이니셔티브 실행에 필요한 증거 기반 도구로 기능할 예정이다.

현재 AI는 '중급 수준'... 대부분 레벨 2-3에 머물러

2024년 11월 기준 최첨단 AI 시스템들의 능력 평가 결과, 대부분이 5단계 척도에서 2-3 레벨에 위치하고 있어 아직 인간 수준에는 상당한 격차가 있는 것으로 나타났다. 레벨 1은 이미 해결된 단순한 AI 과제를, 레벨 5는 해당 영역에서 인간의 모든 능력을 재현할 수 있는 수준을 의미한다.

언어 능력에서 챗GPT(ChatGPT)에 사용되는 GPT-4o 같은 대형 언어모델(LLM)은 레벨 3 수준을 보여준다. 이들은 다중 언어 지원과 광범위한 세계 지식 접근에서 뛰어난 성능을 보이지만, 여전히 체계적인 분석 추론과 정보의 정확성 검증에서 한계를 드러낸다. 특히 환각 현상(hallucination)으로 불리는 잘못된 정보 생성 문제가 지속되고 있다.

창의성 영역에서는 구글의 알파제로(AlphaZero)가 레벨 3에 도달했다. 이 시스템은 신경-기호 아키텍처를 활용해 기존 인간 지식과 크게 다른 효율적이고 놀라운 전략을 생성할 수 있다. 반면 LLM은 확률적 구조와 기존 훈련 데이터에 의존하기 때문에 인간 지식과 실질적으로 구별되는 결과물을 만들어내지 못해 주로 레벨 2 수준에 그치고 있다.

작업 기반에서 능력 기반 평가로의 패러다임 전환

OECD가 개발한 이 프레임워크의 핵심 혁신은 기존의 '작업 기반' 분석에서 '능력 기반' 접근법으로의 전환이다. 기존 노동경제학 연구들이 수만 개의 개별 작업을 분석하는 방식을 사용했다면, OECD는 이러한 작업들의 기반이 되는 핵심 인간 능력에 초점을 맞췄다. 개별 작업은 보통 여러 능력을 동시에 요구하기 때문에, 능력 기반 접근법이 AI 발전의 영향을 더 명확하게 파악할 수 있다는 판단이다.

이 방법론은 인간 심리학에 근거해 구조화된 고수준 관점에서 AI 발전을 조망할 수 있게 한다. 각 지표는 해당 능력에서 AI가 완전한 인간 동등성을 달성하기까지의 발전 과정을 설명하며, 5단계 척도에서 가장 도전적인 능력들이 상위 단계에 위치한다. 이러한 설계는 AI 전문가가 아닌 정책 입안자들도 AI 발전의 진행 상황과 의미를 쉽게 이해할 수 있게 한다.

AGI 측정과 정책적 활용을 위한 다각적 접근

OECD AI 능력 지표는 범용 인공지능(AGI) 정의와 측정을 위한 프레임워크로도 활용될 수 있다. 기존 AGI 정의 시도들이 추상적이고 실무적 측정이 어려웠던 반면, 이 지표는 인간 능력 영역 전반에 걸쳐 AI 발전을 체계적으로 비교할 수 있는 구체적 틀을 제공한다. 모든 척도에서 레벨 5 성능을 달성하는 것이 인간 수준 범용 지능의 벤치마크가 될 수 있다.

정책 활용 측면에서 이 지표들은 직업별 AI 대체 가능성 분석, 경제 전반의 자동화 영향 예측, 교육 시스템의 변화 필요성 파악 등 다양한 영역에서 활용될 예정이다. OECD는 미국의 O*NET 직업 정보 시스템과 연계하여 약 900개 직업의 요구 능력과 AI 성능 간 격차를 분석하는 방법론도 제시했다. 이를 통해 어떤 직업이나 업무에서 AI가 인간을 완전히 대체할 수 있는지, 또는 인간-AI 협업이 가능한 영역은 어디인지 파악할 수 있다.

지속적 업데이트와 글로벌 협력체계 구축

OECD는 이번에 공개한 지표가 베타 버전임을 강조하며, AI 연구자와 정책 입안자 양쪽으로부터의 피드백을 바탕으로 지속적인 개선을 진행할 계획이라고 밝혔다. 2025년 하반기부터는 정기적인 업데이트 체계를 도입하여 급속한 AI 발전에 대응할 예정이며, 2026년 초 첫 번째 공식 업데이트가 예정되어 있다.

또한 AI 분야의 잠재적 돌파구를 예측하기 위한 전문가 그룹 분석, 시카고 대학 경제 전문가 패널을 모델로 한 정기 전문가 설문조사, 새로운 벤치마크 테스트 개발 등의 후속 활동도 계획하고 있다. OECD는 온라인(https://aicapabilityindicators.oecd.org)을 통해 AI 연구자들이 관련 벤치마크와 평가 결과를 제출할 수 있는 시스템도 구축했다.


FAQ

Q: OECD AI 능력 지표가 기존 AI 평가 방법과 다른 점은 무엇인가요?
A: 기존 평가 방법들이 벤치마크 성능만을 제시했다면, OECD 지표는 AI 능력을 인간 능력과 직접 비교하여 정책 입안자들이 이해하기 쉬운 형태로 제공합니다. 또한 단순한 성능 측정을 넘어 경제, 교육, 사회 전반에 미칠 영향을 예측할 수 있는 포괄적 프레임워크입니다.

Q: 현재 AI 기술 수준으로 어떤 분야에서 인간을 대체할 수 있나요?
A: 현재 대부분의 AI가 레벨 2-3 수준에 있어 완전한 인간 대체보다는 특정 업무에서의 보조 역할이 더 현실적입니다. 다만 정형화된 환경에서의 제조업 로봇이나 특정 영역의 데이터 분석 등에서는 이미 실질적인 활용이 이뤄지고 있습니다.

Q: AGI(범용 인공지능) 달성 시점을 이 지표로 예측할 수 있나요?
A: 9개 영역 모두에서 레벨 5에 도달하는 것이 AGI의 하나의 기준이 될 수 있지만, 현재 어떤 AI도 레벨 4에 안정적으로 도달하지 못한 상황입니다. OECD는 예측보다는 현재 능력을 정확히 측정하고 발전 과정을 추적하는 데 초점을 맞추고 있습니다.

기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.

이미지 출처: 챗GPT 생성




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
“AI가 가짜뉴스 잡는다”… X, 커뮤니티 노트에 AI 챗봇 투입 (1) AI matters
아마존, 창고 로봇 누적 100만 대 배치… AI 모델로 창고 자율주행 10% 향상 AI matters
플리토와 협력 나선 퓨리오사AI, AI 반도체는 왜 언어 데이터가 필요할까? IT동아
세컨드팀, "슈퍼코더, AI가 면접관이 되는 시대 연다” IT동아
'챗GPT는 제 고객관리의 핵심이예요' LLM, 성인 산업의 판도를 바꾸다 다나와
애플, ‘개인화 시리’ 자체 개발 한계로 오픈AI·앤트로픽과 제휴 검토 다나와
'지금 자판기 쪽으로 와. 내가 진짜라는 걸 보여주지' AI의 웃기지만 섬뜩한 '착각' 다나와
KRDS 준수해야 하는 공공 웹, AI 기반 검증 기술에도 ‘주목’ IT동아
구글, 가상 착장 앱 ‘도플’ 출시… “스타일 탐색을 더 쉽게” (2) 다나와
퓨리오사AI NPU 도입 앞둔 딥노이드, "운영비용 최적화·서비스 응용에 기대" IT동아
작곡 AI 수노, 편집 기능 강화 위해 ‘웨이브툴’ 인수… 음반사와 법적 분쟁은 지속 AI matters
스플렁크, AI 시대 데이터 관리 강조…“데이터 연합 전략이 대안” IT동아
[생성AI길라잡이] 구글 제미나이로 '고품질 음식 사진' 생성하기 IT동아
테슬라 로보택시, 출시 초반부터 사고 속출 다나와
넥스트라이즈 2025, 우주/방산/콘텐츠 부문 AI 스타트업 '눈길' IT동아
AI 무인 회수기, 페트병·캔 재활용으로 포인트 적립까지…선순환 효과 ‘톡톡’ IT동아
“형태보다 판단력이 중요하다" FCA, AI 금융 규제 패러다임 개혁 요구 (1) 다나와
리벨리온, SKT와 함께 AI 서비스 구현 나서··· '핵심은 AI 주권 확보' IT동아
AI 챗봇 또타24, 서울지하철 민원 접수 간단하고 빠르게 (4) IT동아
구글 AI 검색, 영국 경쟁당국 조사 착수…“시장 왜곡 우려” 다나와
이 시간 HOT 댓글!
1/4