오픈AI o3 모델, 세계 최상위 성능 인증··· 2025년도 AI 경쟁 격할 듯 : 다나와 DPG는 내맘을 디피지

[IT동아 남시현 기자] 오픈AI가 지난 20일(현지 시각), ‘오픈AI의 12일’ 행사를 통해 오픈AI의 새로운 추론 모델인 o3를 공개했다. 오픈AI는 앞서 9월 12일에 챗GPT 플러스 사용자를 위해 o1 프리뷰 및 o1 미니를 사전 공개했고, 12월 5일에 전체 버전을 출시했다. 이번에 공개한 o3는 이 모델의 새로운 버전으로 내년 1월 10일까지 안전 및 보안 연구자들에게 사전 제공되고, 1월 중 o3-미니를 대중에게 출시한다. o2라는 이름을 건너뛴 이유는 영국의 이동통신사와 이름이 겹쳐 상표권 분쟁을 피하기 위함이다.

좌측부터 홍유 렌 오픈AI 연구원, 마크 첸 오픈AI 수석 연구원, 샘 알트만 최고경영자 / 출처=오픈AI

GPT o3 발표에는 샘 알트만 최고경영자, 마크 첸(Mark Chen) 오픈AI 수석 연구원, 홍유 렌(Hongyu Ren) 오픈AI 연구원, 그렉 캄라트(Greg Kamradt) ARC 프라이즈 파운데이션 회장이 참석했다. 오픈AI는 o3가 2019년 ARC 프라이즈 파운데이션이 만든 시각적 추론 벤치마크인 ‘ARC-AGI’에서 높은 컴퓨팅 테스트에서 87.5%, 낮은 컴퓨팅 시나리오에서 75.7%를 기록했다고 밝혔다. 해당 결과는 인간이 진행하는 테스트 결과인 85%를 넘어 인간의 영역에 근접했음을 뜻한다.

AIME 2024는 단 한 문제만 틀렸고, 박사 급 문제가 나오는 GPQA 다이아몬드도 87.7% 정확도를 달성했다 / 출처=오픈AI2

마크 첸 수석 연구원은 o3가 미국수학경시대회인 AIME 2024 수행에서 96.%의 정확도를 기록했다고 밝혔다. o1 프리뷰 모델은 동일 테스트에서 56.7%, 정식 모델은 83.3%를 획득한 것과 비교하면 월등한 발전이다. 박사, 대학원 수준의 생물학, 물리학, 화학 문제가 포함된 GPQA 다이아몬드 테스트는 전작이 78%를 달성했는데, 이번에는 87.7%를 달성했다고 밝혔다.

프런티어 매스 테스트에서 일반 모델들이 2%를 넘기 힘든 것에 반해, o3가 25.2%를 달성했다 / 출처=오픈AI

에포크AI가 만든 프런티어 매스(Frontier Math) 벤치마크의 경우 GPT-4, 재미나이를 포함한 AI들이 2%를 달성할 때 25.2%를 푸는 모습을 보여줬다. 프런티어 매스는 60여 명의 수학자가 대수기하학부터 체르멜로-프렌켈 집합론 등 현대 수학의 전 영역을 포괄하여 만든 AI용 테스트다.

2006년 필즈상 수상자인 테렌스 타오는 해당 테스트에 대해 “대단히 도전적인 문제며, AI가 해결하려면 적어도 몇 년은 걸릴 것”이라고 평가했고, 98년에 필즈상을 수상한 티모시 고워스도 “한 가지를 맞추는 것도 우리가 할 수 있는 수준을 넘어서는데, 모든 질문을 다 답하는 건 불가능하다”고 답한 테스트다.

전 세계 프로그래머들이 경쟁하는 코드포스에서는 상위 0.05% 수준인 2727점을 달성했다 / 출처=오픈AI

경쟁적 프로그래밍 대회인 코드포스는 전작인 o1이 1891점을 달성한 반면, o3가 2727점을 달성하며 9만 9832명 중 50위 이내, 상위 0.05% 코딩 전문가의 실력을 보여줬다. 해당 점수에서 2500점 이상을 획득하는 사용자는 국가 대표급의 코딩 실력자로 분류되며, 2700점을 넘겼다는 의미는 세계 최고 수준의 코딩 능력자와 비슷한 수준임을 의미한다.

그렉 캄라트 회장은 “해당 결과를 통해 AI에 대한 내 세계관을 바꿔야 한다고 느꼈다. AI가 실제로 무엇을 할 수 있고, 특히 o3가 인류에게 어떤 것들을 제공할 수 있을지에 대한 직관을 새로 가져야 한다”라면서, “아직까지 AI가 초기인 만큼, ARC-AGI같은 더 지속 가능한 벤치마크가 필요하고, 오픈AI와 AI를 함께 진보시킬 수 있다는 점에서 기쁘다”라고 말했다.

ARC-AGI 테스트의 점수당 비용 결과, o3 낮은 컴퓨팅 시나리오와 o3 높은 컴퓨팅 시나리오 모두 높은 점수 달성을 위해 예상보다 많은 연산 및 컴퓨팅 자원을 소모해야 했음을 시사한다 / 출처=ARC-AGI

ARC-AGI에서 인간보다 높은 점수를 획득한 점을 놓고 일각에서는 인공 일반지능의 등장이라는 목소리가 나왔지만 그렇진 않다. ARC 프라이즈의 공동 창립자인 마이크 누프(Mike Knoop)는 SNS를 통해 o3가 고성능 컴퓨팅 구성에서도 100여 개의 시각적 퍼즐 과제를 풀지 못했고, 낮은 시나리오 컴퓨팅 역시 경연대회 목표보다 100배에서 1000배의 컴퓨팅 파워를 사용했다고 밝혔다.

오픈AI o3 공개는 인공지능의 발전 속도가 예상보다 훨씬 빠르다는 점, 그리고 상한선 달성을 위한 컴퓨팅 자산이 예상보다 많이 소요된다는 점이다. 또한 문제 및 해결 방법이 공개된 사안에 대해서는 인간 기준으로도 대단히 높은 결과물을 제공할 수 있음을 보여줬다. 오픈AI는 인간 전문가의 AI 역량 평가 및 계획적 추론 평가 등을 거쳐 1월 중 o3 모델을 공개할 예정이다.

IT동아 남시현 기자 (sh@itdonga.com)

]]>

'수요 제로 전기차' 람보르기니, 첫 순수 전기차 란차도르 양산 계획 철회	오토헤럴드
현대차, LACMA 파트너십 2037년까지 연장...다각적 협업 예술 교감 확대	오토헤럴드
폭스바겐그룹, 디자인 세대 교체 '안드레아스 민트' 신임 그룹 디자인 총괄	오토헤럴드
'독일 아우토반이 상징' 유럽이 빚는 제네시스 마그마의 고성능 전략	오토헤럴드
폭스바겐그룹, 안드레아스 민트 신임 디자인 총괄 임명... 2026년 3월 취임	글로벌오토뉴스
만트럭버스코리아 ‘MyMAN Korea’ 앱, 출시 7개월 만에 가입자 1,600명 돌파	글로벌오토뉴스
메르세데스-벤츠 코리아, 26년식 ‘EQE 350+ SUV’ 출시	글로벌오토뉴스
채비, 이동식 전기차 충전 위탁운영 사업자로 선정	글로벌오토뉴스
캐딜락, ‘2026 더 뉴 에스컬레이드’ 국내 출시... ‘슈퍼크루즈’ 적용	글로벌오토뉴스
로터스, 피아노 거장 ‘랑랑’ 글로벌 앰배서더 위촉	글로벌오토뉴스
토요타코리아, 2026 슈퍼레이스 공식 후원... 7년 연속 파트너십 이어가	글로벌오토뉴스
한자연, 미래차 부품업계 인력·기술 전환 지원.	글로벌오토뉴스
애스턴마틴, 브라질에 첫 럭셔리 주거 단지 ‘세타이 레지던스’ 발표	글로벌오토뉴스
애스턴마틴 THOR 팀, 2026 WEC LMGT3 라인업 확정	글로벌오토뉴스
현대차, 美 LACMA와 파트너십 2037년까지 연장	글로벌오토뉴스
호스 파워트레인, 100% 재생 휘발유 기반 차세대 하이브리드 공개	글로벌오토뉴스
니오, 하루 배터리 교체 17만 건 돌파	글로벌오토뉴스
MG, 유럽•영국 누계 판매 100만 대 돌파... 중국 브랜드 최초	글로벌오토뉴스
동남아시아 시장에서 일본차 위세 지속 하락	글로벌오토뉴스
중국, 터치스크린 중심에 제동	글로벌오토뉴스
메르세데스-벤츠 ‘베이비 G’ 플랫폼 전격 변경, 2027년 출시 예정	글로벌오토뉴스
람보르기니, 첫 순수 전기차 ‘란자도르’ 생산 전격 취소	글로벌오토뉴스
포드 머스탱 마하-E, 2026년형부터 ‘프렁크’ 유료화	글로벌오토뉴스
폭스바겐 스카우트, 출시 지연설 ‘정면 돌파’... 2027년 생산 목표 고수	글로벌오토뉴스
란잔테, 세계 최초 '레이저 광섬유' 후미등 탑재한 850마력 슈퍼카 95-59 공개	글로벌오토뉴스
美 자동차 ‘빅3’, 전기차 투자 500억 달러 증발	글로벌오토뉴스
핀란드 '도넛 랩', 전고체 배터리 독립 테스트 성공	글로벌오토뉴스
압도적 규모의 펫수집 RPG '스톤에이지 키우기' 미리보기	게임동아
'Back to the Dawn ~브레이크 더 애니멀 프리즌~' 스위치 1,2 버전 패키지 예약 돌입	게임동아
스틸시리즈, ‘T1' 굿즈 증정 프로모션 진행	게임동아
70년대 감성 '깃발 뺏기' 개임 ‘라스트 플래그’ 4월 14일 출시	게임동아
바이오하자드 레퀴엠 유출... 바하2 개발자, SNS에 ‘만 번 죽어 마땅’ 분노의 저주글 올려	게임동아
“17만 원 좀 넘나?” GTA 6, 온라인 판매점에 가격 정보 노출	게임동아
첫 자취, 뭘 사야 할지 막막하다면…센스 있는 집들이 선물 리스트	뉴스탭
스마트폰에 ‘착’ 붙이는 립앤치크…호미어, 맥세이프 뷰티 시대 열다	뉴스탭
“치킨치즈스틱·미트칠리감자 전국 상륙”…맘스터치, 사이드 메뉴로 매출 판 키운다	뉴스탭
배한성 목소리, AI로 되살아난다…일레븐랩스·위츠, 음성 IP 실험 착수	뉴스탭
만트럭 ‘MyMAN Korea’ 7개월 만에 1,600명 돌파…수입 상용차 첫 서비스 예약 앱 통했다	뉴스탭
“온도 아닌 기분을 읽는다”… 오텍캐리어, AI 에어컨 ‘디오퍼스+’로 냉방 공식 바꾼다	뉴스탭
46만원 그래픽카드를 단 5만원에…조텍, RTX 5050 래플 이벤트 진행	뉴스탭
“프린터도 10km 무선 시대”… HP, 와이파이 헤일로로 기업 보안시장 공략	뉴스탭
KFC, 이번엔 ‘투움바’로 치밥 승부수…최현석 셰프와 손잡고 신메뉴 출격	뉴스탭
PC 조립·수리 필수템… ARCTIC 정밀 스크루드라이버 세트 국내 재입고	뉴스탭
엔씨(NC) '아이온2', 신규 초월 공개 ∙∙∙ 론칭 100일 기념 이벤트 진행	게임동아
20년 전으로 돌아갔나? '리니지'-'디아2'-'언토 2004' 인기와 관심 UP	게임동아
주가 상승 쉽지 않네. 공매도와 전쟁 중인 게임업계	게임동아
"기초적인 후드티다" '사이버펑크: 엣지러너' 무신사 컬래버 의류 25일 출시	게임동아
"플스에서 뵙겠습니다~" '어바우드' PS5 버전 출시 및 1주년 업데이트	게임동아
데브시스터즈 ‘쿠키런: 오븐스매시’, 열흘 만에 사전 등록 100만 명 돌파	게임동아
[LCK] “승승패패패” 충격의 T1 탈락 속 디플러스 기아의 홍콩행	게임동아
뉴노멀소프트 ‘창세기전 키우기’ 사전예약 시작	게임동아
다나와, 메모리 가격 상승세 속 ‘DDR5 16GB’ 1천원 래플 진행	다나와
[시승기] 'KGM 무쏘' 타스만 보고 있나, 픽업트럭은 이렇게 만드는 거야. (1)	오토헤럴드
[시승기] 제네시스 GV60 마그마, 공로 시승 해 봤습니다. (1)	오토헤럴드
[시승기] '매일 타기 편하고 오래 타는 SUV' 혼다 CR-V 하이브리드	오토헤럴드
GM이 소형 SUV 46만 대를 공급하는 핵심 생산 거점을 포기할까?	오토헤럴드
'전고체 상용화 가속' 간펑 리튬, 650Wh/kg 반고체 배터리 양산 돌입 (1)	오토헤럴드
'별점 하나의 무게란' 자동차 실내에 다시 등장하기 시작한 물리 버튼	오토헤럴드
[모빌리티 인사이트] '할인' 넘어 '가격 인하' 전기차 시장 구조 흔들 (1)	오토헤럴드
애플, 2026년부터 F1 경기 IMAX 영화관서 생중계한다	글로벌오토뉴스
“벚꽃 따라 남에서 북으로”…설 이후 봄 여행 검색 65% 급증, 어디가 가장 인기?	뉴스탭
‘솔로지옥5’ 최미나수, 이번엔 스윔웨어로…배럴 화보서 드러난 진짜 매력	뉴스탭
“DDR5 램을 1천원에?” 다나와, 파격 래플 이벤트 전격 실시	뉴스탭
싱가포르 센토사 해변에 ‘아기상어’ 떴다…5천명 동시 수용 워터파크 팝업 개막	뉴스탭
남주혁·장원영이 입자 달라졌다…아이더 2026 S/S, 도심까지 넘본다	뉴스탭
“벽에 구멍 없이도 OK”…무타공 가전, 전월세 필수템으로 부상	뉴스탭
“하이네켄 제쳤다”…삿포로맥주, 수입맥주 판도 뒤흔든 반전 드라마	뉴스탭
“한국어 영상 생성의 한계 넘었다”…지로, ‘드롭샷 Flow 1.0’으로 글로벌 정조준	뉴스탭
“천 개의 꿈, 다시 셔터를 누르다”…후지필름 포토페스타 2026 참가자 모집	뉴스탭
서린씨앤아이, 일러스타 페스 10서 DDR5 튜닝 메모리 협찬…현장 인증 이벤트까지	뉴스탭
블랙핑크, 유튜브 1억 구독자 ‘세계 최초’…레드 다이아몬드 받았다 (1)	뉴스탭
“86kg→78kg 대국민 공약”…‘나폴리 맛피아’ 권성준, 다이어트 승부수	뉴스탭
ASML, 화성에 EUV·DUV 통합 교육 허브 구축…연 4,000명 엔지니어 양성	뉴스탭
“앉아보고 결정하세요”…시디즈, T90 15일 체험 후 구매 확정 파격 제안	뉴스탭
유비소프트, 어쌔신 크리드와 파 크라이 신작 다수 개발 (1)	게임메카
[오늘의 스팀] 골프에 격투 더한 '압긍' 신작, 판매 최상위권	게임메카
[롤짤] 드래곤 강도 루시드, DK '패패승승승'으로 T1 격파	게임메카
니어: 오토마타, 출시 9년 만에 판매량 1,000만 장 돌파 (1)	게임메카
유포테이블, 마법사의 밤·원신 애니 제작 발표	게임메카
Xbox 수장 필 스펜서 은퇴, 후임은 아샤 샤르마	게임메카
무료라더니? EA '스케이트' 맵 소액결제 유도 논란	게임메카
토드 하워드 "엘더스크롤 6는 스타필드보다 스카이림 감성"	게임메카
[오늘의 스팀] 드디어 정상화? 몬헌 와일즈 최근 평가 급등	게임메카
데스티니 가디언즈, 3월 예정 대규모 업데이트 6월로 연기	게임메카
넷마블 엠엔비 '쿵야 레스토랑즈', 더현대 대구에 팝업스토어 '아임파인다이닝' 공개	게임동아
넥써쓰-플레이위드코리아, '씰M 온 크로쓰' 사전등록 100만 돌파	게임동아
[이구동성] 주방장과 지배인 싸움에 손님 등 터진다	게임메카
SOOP, 스타리그 ASL 시즌 21 본선 향하는 ‘시즌 오픈’ 개최	게임메카
엠바크 스튜디오 대표 패트릭 쇠더룬드, 넥슨 회장으로 선임	게임메카
아크 월드 투어 파이널에서 '마블 투혼' 체험판 첫 선	게임메카
美 1심 법원, 테슬라 오토파일럿 사망사고에 3520억 원 배상 판결	오토헤럴드
[EV 트렌드] "내연기관 NO, 전기차 다시 사겠다 96%" 만족도 급상승	오토헤럴드
현대차, 포켓몬 '피카츄 전광석화 및 메타몽 월드' 디스플레이 테마 출시	오토헤럴드
구 소비에트 연방의 상징 '볼가' 중국 자본과 기술력으로 부활 예고	오토헤럴드
제이콥 브리지먼, 제네시스 인비테이셔널 생애 첫 PGA 짜릿한 우승	오토헤럴드
'테슬라만 상승세' 美 세제 혜택 종료 후 엇갈린 중고 전기차 시장	오토헤럴드
테슬라, 안 팔리는 사이버트럭 최대 1400만원 '가격 인하' 승부수	오토헤럴드
60년 유산을 짊어진 디자인의 변화, MINI는 지금 어디로 가는가	글로벌오토뉴스
399. 중국차의 시장 독재와 치킨 게임을 감당해야 하는 시대	글로벌오토뉴스
미국 상호 관세 위법 판결, 현대차엔 희소식 아니다	글로벌오토뉴스

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

오픈AI o3 모델, 세계 최상위 성능 인증··· 2025년도 AI 경쟁 격할 듯

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

오픈AI o3 모델, 세계 최상위 성능 인증··· 2025년도 AI 경쟁 격할 듯

공유하기

공감/비공감