비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

오픈AI o3 모델, 세계 최상위 성능 인증··· 2025년도 AI 경쟁 격할 듯

2024.12.26. 14:47:06
조회 수
1,111
17
댓글 수
2

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기
[IT동아 남시현 기자] 오픈AI가 지난 20일(현지 시각), ‘오픈AI의 12일’ 행사를 통해 오픈AI의 새로운 추론 모델인 o3를 공개했다. 오픈AI는 앞서 9월 12일에 챗GPT 플러스 사용자를 위해 o1 프리뷰 및 o1 미니를 사전 공개했고, 12월 5일에 전체 버전을 출시했다. 이번에 공개한 o3는 이 모델의 새로운 버전으로 내년 1월 10일까지 안전 및 보안 연구자들에게 사전 제공되고, 1월 중 o3-미니를 대중에게 출시한다. o2라는 이름을 건너뛴 이유는 영국의 이동통신사와 이름이 겹쳐 상표권 분쟁을 피하기 위함이다.


좌측부터 홍유 렌 오픈AI 연구원, 마크 첸 오픈AI 수석 연구원, 샘 알트만 최고경영자 / 출처=오픈AI
좌측부터 홍유 렌 오픈AI 연구원, 마크 첸 오픈AI 수석 연구원, 샘 알트만 최고경영자 / 출처=오픈AI


GPT o3 발표에는 샘 알트만 최고경영자, 마크 첸(Mark Chen) 오픈AI 수석 연구원, 홍유 렌(Hongyu Ren) 오픈AI 연구원, 그렉 캄라트(Greg Kamradt) ARC 프라이즈 파운데이션 회장이 참석했다. 오픈AI는 o3가 2019년 ARC 프라이즈 파운데이션이 만든 시각적 추론 벤치마크인 ‘ARC-AGI’에서 높은 컴퓨팅 테스트에서 87.5%, 낮은 컴퓨팅 시나리오에서 75.7%를 기록했다고 밝혔다. 해당 결과는 인간이 진행하는 테스트 결과인 85%를 넘어 인간의 영역에 근접했음을 뜻한다.


AIME 2024는 단 한 문제만 틀렸고, 박사 급 문제가 나오는 GPQA 다이아몬드도 87.7% 정확도를 달성했다 / 출처=오픈AI2
AIME 2024는 단 한 문제만 틀렸고, 박사 급 문제가 나오는 GPQA 다이아몬드도 87.7% 정확도를 달성했다 / 출처=오픈AI2


마크 첸 수석 연구원은 o3가 미국수학경시대회인 AIME 2024 수행에서 96.%의 정확도를 기록했다고 밝혔다. o1 프리뷰 모델은 동일 테스트에서 56.7%, 정식 모델은 83.3%를 획득한 것과 비교하면 월등한 발전이다. 박사, 대학원 수준의 생물학, 물리학, 화학 문제가 포함된 GPQA 다이아몬드 테스트는 전작이 78%를 달성했는데, 이번에는 87.7%를 달성했다고 밝혔다.


프런티어 매스 테스트에서 일반 모델들이 2%를 넘기 힘든 것에 반해, o3가 25.2%를 달성했다 / 출처=오픈AI
프런티어 매스 테스트에서 일반 모델들이 2%를 넘기 힘든 것에 반해, o3가 25.2%를 달성했다 / 출처=오픈AI


에포크AI가 만든 프런티어 매스(Frontier Math) 벤치마크의 경우 GPT-4, 재미나이를 포함한 AI들이 2%를 달성할 때 25.2%를 푸는 모습을 보여줬다. 프런티어 매스는 60여 명의 수학자가 대수기하학부터 체르멜로-프렌켈 집합론 등 현대 수학의 전 영역을 포괄하여 만든 AI용 테스트다.

2006년 필즈상 수상자인 테렌스 타오는 해당 테스트에 대해 “대단히 도전적인 문제며, AI가 해결하려면 적어도 몇 년은 걸릴 것”이라고 평가했고, 98년에 필즈상을 수상한 티모시 고워스도 “한 가지를 맞추는 것도 우리가 할 수 있는 수준을 넘어서는데, 모든 질문을 다 답하는 건 불가능하다”고 답한 테스트다.


전 세계 프로그래머들이 경쟁하는 코드포스에서는 상위 0.05% 수준인 2727점을 달성했다 / 출처=오픈AI
전 세계 프로그래머들이 경쟁하는 코드포스에서는 상위 0.05% 수준인 2727점을 달성했다 / 출처=오픈AI


경쟁적 프로그래밍 대회인 코드포스는 전작인 o1이 1891점을 달성한 반면, o3가 2727점을 달성하며 9만 9832명 중 50위 이내, 상위 0.05% 코딩 전문가의 실력을 보여줬다. 해당 점수에서 2500점 이상을 획득하는 사용자는 국가 대표급의 코딩 실력자로 분류되며, 2700점을 넘겼다는 의미는 세계 최고 수준의 코딩 능력자와 비슷한 수준임을 의미한다.

그렉 캄라트 회장은 “해당 결과를 통해 AI에 대한 내 세계관을 바꿔야 한다고 느꼈다. AI가 실제로 무엇을 할 수 있고, 특히 o3가 인류에게 어떤 것들을 제공할 수 있을지에 대한 직관을 새로 가져야 한다”라면서, “아직까지 AI가 초기인 만큼, ARC-AGI같은 더 지속 가능한 벤치마크가 필요하고, 오픈AI와 AI를 함께 진보시킬 수 있다는 점에서 기쁘다”라고 말했다.


ARC-AGI 테스트의 점수당 비용 결과, o3 낮은 컴퓨팅 시나리오와 o3 높은 컴퓨팅 시나리오 모두 높은 점수 달성을 위해 예상보다 많은 연산 및 컴퓨팅 자원을 소모해야 했음을 시사한다 / 출처=ARC-AGI
ARC-AGI 테스트의 점수당 비용 결과, o3 낮은 컴퓨팅 시나리오와 o3 높은 컴퓨팅 시나리오 모두 높은 점수 달성을 위해 예상보다 많은 연산 및 컴퓨팅 자원을 소모해야 했음을 시사한다 / 출처=ARC-AGI


ARC-AGI에서 인간보다 높은 점수를 획득한 점을 놓고 일각에서는 인공 일반지능의 등장이라는 목소리가 나왔지만 그렇진 않다. ARC 프라이즈의 공동 창립자인 마이크 누프(Mike Knoop)는 SNS를 통해 o3가 고성능 컴퓨팅 구성에서도 100여 개의 시각적 퍼즐 과제를 풀지 못했고, 낮은 시나리오 컴퓨팅 역시 경연대회 목표보다 100배에서 1000배의 컴퓨팅 파워를 사용했다고 밝혔다.

오픈AI o3 공개는 인공지능의 발전 속도가 예상보다 훨씬 빠르다는 점, 그리고 상한선 달성을 위한 컴퓨팅 자산이 예상보다 많이 소요된다는 점이다. 또한 문제 및 해결 방법이 공개된 사안에 대해서는 인간 기준으로도 대단히 높은 결과물을 제공할 수 있음을 보여줬다. 오픈AI는 인간 전문가의 AI 역량 평가 및 계획적 추론 평가 등을 거쳐 1월 중 o3 모델을 공개할 예정이다.

IT동아 남시현 기자 (sh@itdonga.com)

]]>

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
'수요 제로 전기차' 람보르기니, 첫 순수 전기차 란차도르 양산 계획 철회 오토헤럴드
현대차, LACMA 파트너십 2037년까지 연장...다각적 협업 예술 교감 확대 오토헤럴드
폭스바겐그룹, 디자인 세대 교체 '안드레아스 민트' 신임 그룹 디자인 총괄 오토헤럴드
'독일 아우토반이 상징' 유럽이 빚는 제네시스 마그마의 고성능 전략 오토헤럴드
폭스바겐그룹, 안드레아스 민트 신임 디자인 총괄 임명... 2026년 3월 취임 글로벌오토뉴스
만트럭버스코리아 ‘MyMAN Korea’ 앱, 출시 7개월 만에 가입자 1,600명 돌파 글로벌오토뉴스
메르세데스-벤츠 코리아, 26년식 ‘EQE 350+ SUV’ 출시 글로벌오토뉴스
채비, 이동식 전기차 충전 위탁운영 사업자로 선정 글로벌오토뉴스
캐딜락, ‘2026 더 뉴 에스컬레이드’ 국내 출시... ‘슈퍼크루즈’ 적용 글로벌오토뉴스
로터스, 피아노 거장 ‘랑랑’ 글로벌 앰배서더 위촉 글로벌오토뉴스
토요타코리아, 2026 슈퍼레이스 공식 후원... 7년 연속 파트너십 이어가 글로벌오토뉴스
한자연, 미래차 부품업계 인력·기술 전환 지원. 글로벌오토뉴스
애스턴마틴, 브라질에 첫 럭셔리 주거 단지 ‘세타이 레지던스’ 발표 글로벌오토뉴스
애스턴마틴 THOR 팀, 2026 WEC LMGT3 라인업 확정 글로벌오토뉴스
현대차, 美 LACMA와 파트너십 2037년까지 연장 글로벌오토뉴스
호스 파워트레인, 100% 재생 휘발유 기반 차세대 하이브리드 공개 글로벌오토뉴스
니오, 하루 배터리 교체 17만 건 돌파 글로벌오토뉴스
MG, 유럽•영국 누계 판매 100만 대 돌파... 중국 브랜드 최초 글로벌오토뉴스
동남아시아 시장에서 일본차 위세 지속 하락 글로벌오토뉴스
중국, 터치스크린 중심에 제동 글로벌오토뉴스
이 시간 HOT 댓글!
1/4