
LG AI연구원이 17일(현지 시간) 엔비디아 GTC서 Reasoning AI(추론 AI)의 새로운 기준을 제시하는 '엑사원 딥(EXAONE Deep)'을 공개했다. LG AI 연구원이 18일(한국 시간) 공식 블로그에 게시한 내용에 따르면, 엑사원 딥은 32B, 7.8B, 2.4B 세 가지 모델로 구성되어 있으며, 특히 수학, 과학, 코딩 영역에서 비약적인 추론 성능을 보여주고 있다.
AI가 스스로 가설을 세우고 검증하며 자율적 의사결정을 내리는 Agentic AI(에이전틱 AI) 시대가 도래하고 있는 가운데, 추론 강화 모델의 개발이 핵심으로 떠오르고 있다. 전 세계적으로 파운데이션 모델을 보유한 소수 기업만이 자체 추론 강화 모델을 개발 중인 상황에서, LG AI연구원은 이들과 경쟁 가능한 수준의 '엑사원 딥'을 선보였다.
엑사원 딥은 수학적 논리 이해, 과학적 개념 추론, 프로그래밍 문제 해결 능력을 갖춘 고성능 추론 특화 모델이다. 특히 미국 비영리 연구 기관 Epoch AI(에포크 AI)의 'Notable AI Models' 리스트에 등재되어 그 성능을 국제적으로 인정받았다. 최근 2년간 이 리스트에 등재된 한국 모델은 LG AI연구원의 엑사원 시리즈가 유일하다.
엑사원 딥 32B 모델은 2025학년도 수능 수학 영역에서 94.5점을 기록하며 경쟁 모델 중 최고 성능을 보였다. 미국 올림피아드 선발 초청 기준으로 활용되는 AIME 2024(아이미 2024)에서는 90.0점을 기록했으며, AIME 2025에서는 DeepSeek-R1(671B) 모델과 동등한 성과를 달성했다. 주목할 점은 엑사원 딥 32B 모델이 경쟁 모델의 5% 사이즈에 불과함에도 고난이도 수학 벤치마크에서 뛰어난 성능을 보였다는 점이다. 이는 LG AI연구원이 강조하는 학습 효율성과 경제성을 다시 한번 입증한 결과다.
더불어 엑사원 딥 7.8B와 2.4B 모델도 경량 모델과 온디바이스 모델 군에서 주요 벤치마크 모두 1위를 기록했다. 7.8B 모델은 MATH-500에서 94.8점, AIME 2025에서 59.6점을 기록했고, 2.4B 모델은 각각 92.3점과 47.9점을 나타냈다.
엑사원 딥은 과학과 코딩 영역에서도 탁월한 성능을 보여주고 있다. 32B 모델은 박사 수준의 물리학, 화학, 생물학 분야 문제 해결 능력을 평가하는 GPQA 다이아몬드(Diamond) 테스트에서 66.1점, 코딩 능력을 평가하는 라이브코드벤치(LiveCodeBench)에서는 59.5점을 기록했다. 7.8B와 2.4B 모델 역시 GPQA 다이아몬드와 라이브코드벤치 모두에서 1위를 차지했다. 특히 작년 12월 공개한 EXAONE 3.5 2.4B 모델이 Hugging Face(허깅 페이스)의 'LLM 리더보드' 엣지부문 1위에 오른 데 이어, 엑사원 딥이 최고 성능을 달성함으로써 글로벌 최고 수준의 경량 및 온디바이스용 모델임을 재확인했다.
엑사원 딥은 추론 특화 모델이면서도 일반 지식 영역에서도 우수한 성능을 보였다. 특히 32B 모델은 MMLU(Massive Multitask Language Understanding)에서 83.0점을 기록하여 국내 자체 모델 중 최고 수준의 성능을 달성했다. LG AI연구원은 엑사원 딥을 통해 수학, 과학, 코딩 등 다양한 영역에서 AI의 추론 능력을 확장하고, 더 복잡한 문제 해결에 도전하고 있다. 앞으로도 지속적인 연구와 혁신을 통해 AI가 인류의 삶을 풍요롭게 만드는 데 기여할 것을 약속했다.
해당 기사의 원문은 링크에서 확인할 수 있다.
이미지 출처: LG AI연구원
기사는 클로드와 챗GPT를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기