비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

그록, 챗GPT 제치고 LLM 성능 1위… 2· 3위는 챗GPT o3·o4 모델

2025.08.08. 11:29:33
조회 수
292
5

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

일론 머스크의 xAI가 개발한 그록(Grok) 모델이 최신 AI 성능 평가에서 68점을 기록하며 1위를 차지했다고 아티피셜 애널리시스(Artificial Analysis)가 발표했다. 아티피셜 애널리시스 인텔리전스 인덱스(Artificial Analysis Intelligence Index) v2.2 평가 결과에 따르면, 그록은 MMLU-Pro, GPQA 다이아몬드, 휴머니티스 라스트 이그잼(Humanity's Last Exam), 라이브코드벤치(LiveCodeBench), 사이코드(SciCode), AIME, IFBench, AA-LCR 등 8개 평가 항목을 종합한 점수에서 68점을 획득했다.

이는 기존 1위였던 오픈AI(OpenAI)의 o3-mini 모델(67점)과 o4-mini 모델(65점)을 근소한 차이로 앞선 성과다. 제미나이(Gemini) 2.5 프로 모델도 65점으로 공동 3위를 기록했다. 상위권에는 앤트로픽(Anthropic)의 클로드(Claude) 4 소넷 씽킹(Thinking) 모델이 64점으로 5위에 올랐으며, AI 씽킹(AI Thinking) 모델이 59점으로 6위를 차지했다. 딥시크(DeepSeek) R1 모델도 59점으로 동점 6위를 기록했다.

하위권에서는 구글의 제미나이 2.5 플래시 모델이 58점, 제미나이 플래시 익스페리멘탈(Flash Experimental) 0827 모델이 58점을 얻었다. 메타(Meta)의 마그스트라 스몰(Magstra Small) 모델은 36점으로 하위권에 머물렀으며, AWS의 노바 프리미어(Nova Premier) 모델이 35점으로 최하위를 기록했다.

아티피셜 애널리시스는 독립적인 평가 기관으로, 각종 AI 모델의 성능을 객관적으로 비교 분석하는 것으로 업계에서 인정받고 있다.

해당 기사에 인용한 데이터는 아티피셜 애널리시스 웹사이트에서 확인 가능하다.

이미지 출처: Artificial Analysis





AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
현대차그룹, 연말 이웃사랑 성금 350억 원 전달...23년간 누적 4640억 원 오토헤럴드
현대모비스, CES 2026 모빌리티 융합기술 30종 공개...프라이빗관 운영 오토헤럴드
BMW 그룹 R&D 센터 코리아, 게오르크 슈미트 주한독일대사 및 주요 인사 방문 오토헤럴드
마세라티, 111년 헤리티지 그레칼레·그란투리스모·그란카브리오 시승행사 오토헤럴드
현대차그룹, 연말 이웃사랑 성금 350억 원 기탁 글로벌오토뉴스
글로벌 자동차 구매자, 내연기관차 회귀 가속 글로벌오토뉴스
BMW·토요타, EU에 기업 차량 EV 의무 구매 목표 '강력 반대' 서한 제출 글로벌오토뉴스
중국 11월 승용차 판매 8.5% 감소 글로벌오토뉴스
메르세데스-벤츠 CLA EV, 실 주행거리 700km 기록... 테슬라 모델3 압도 글로벌오토뉴스
LG에너지솔루션, 벤츠와 7년 장기 공급 계약 체결 글로벌오토뉴스
한국자동차연구원, 인도네시아와 EV 생태계 협력 강화 글로벌오토뉴스
BMW 그룹 코리아 R&D 센터, 게오르크 슈미트 주한독일대사 방문 글로벌오토뉴스
아우디 F1 프로젝트의 서막, ‘R26 콘셉트’가 그리는 2030년의 청사진 글로벌오토뉴스
미국에서 Xbox 제친 콘솔 '넥스 플레이그라운드' 화제 (1) 게임메카
“내년 3월 어렵다” 패스 오브 엑자일 2 정식 출시 또 연기 (1) 게임메카
2025 VCT 퍼시픽 어워드, 페이퍼 렉스 6관왕 기록 게임메카
엔씨소프트 TL, 크리스마스 맞이 '솔리시움 큰별나무 대축제' 진행 게임동아
펄어비스 검은사막 모바일, 2025 칼페온 연회 사전 이벤트 진행 게임동아
스팀 평가 ‘압긍’ 받은 리듬 닥터, 정식 출시 전환 (1) 게임메카
9일 예정이었던 몬헌 쇼케이스, 일본 지진으로 연기 (1) 게임메카
이 시간 HOT 댓글!
1/4