비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

LG의 새 AI ‘엑사원 딥’, 수능에서 94.5% 정답률 달성... 수학·코딩 능력 탁월

2025.03.24. 11:13:20
조회 수
692
4

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

EXAONE Deep: Reasoning Enhanced Language Models


동급 최강 성능의 EXAONE Deep, 작은 모델도 오픈AI 추월

LG AI 연구소가 개발한 EXAONE Deep 시리즈가 수학과 코딩 등 다양한 추론 과제에서 뛰어난 성능을 보여주고 있다. EXAONE Deep 시리즈는 2.4B, 7.8B, 32B 세 가지 크기로 출시되었으며, 이 모델들은 기존 EXAONE 3.5 시리즈를 기반으로 추론 능력을 강화하기 위해 특별히 최적화된 버전이다.

EXAONE Deep 모델은 단계적 사고 과정을 포함하는 특화된 데이터셋으로 학습되었다. 연구팀은 지도 학습(Supervised Fine-Tuning, SFT), 직접 선호도 최적화(Direct Preference Optimization, DPO), 온라인 강화학습(Online Reinforcement Learning, Online RL)과 같은 세 가지 주요 기법을 활용해 모델을 훈련시켰다.

성능 평가 결과에 따르면, 가장 작은 모델인 EXAONE Deep 2.4B는 DeepSeek-R1-Distill-Qwen-1.5B보다 우수한 성능을 보여주었다. 중간 크기인 7.8B 모델은 DeepSeek-R1-Distill-Qwen-7B와 DeepSeek-R1-Distill-Llama-8B 같은 오픈 웨이트 모델뿐만 아니라 상용 추론 모델인 OpenAI o1-mini보다도 뛰어난 성능을 입증했다. 가장 큰 모델인 32B는 QwQ-32B와 DeepSeek-R1 같은 최첨단 오픈 웨이트 추론 모델과 견줄 만한 성능을 보여주었으며, DeepSeek-R1-Distill-Qwen-32B와 DeepSeek-R1-Distill-Llama-70B를 능가했다.



단계별 논리적 사고로 무장한 EXAONE Deep, 120억 토큰 데이터로 학습

EXAONE Deep 모델의 추론 능력을 강화하기 위해 연구팀은 약 160만 건의 SFT 데이터, 2만 건의 선호도 데이터(DPO용), 그리고 1만 건의 온라인 RL 데이터를 활용했다. SFT 데이터셋은 약 120억 개의 토큰을 포함하며, 확장된 사고 연쇄(chain-of-thought) 과정을 통해 모델이 추론을 수행하도록 설계되었다.

특히 눈에 띄는 점은 이 데이터셋의 구조이다. 각 학습 인스턴스는 구조화된 사고 과정과 최종 답변으로 구성되어 있다. EXAONE 3.5 모델은 <thought> 태그 내에서 논리적 진행, 자기 반성, 자체 검사, 수정 등의 단계별 추론을 수행하도록 훈련되었다. 이렇게 추론 후 생성된 최종 답변은 자기 완결적이며, 사고 과정에서 도출된 핵심 통찰력을 명확하고 간결하게 요약한다.

훈련 계산 리소스 면에서, EXAONE Deep 모델은 Google Cloud Platform과 NVIDIA NeMo Framework에서 제공하는 NVIDIA H100 GPU 클러스터를 사용하여 훈련되었다. 기본 모델의 사전 훈련과 추론 능력 향상을 위한 미세 조정에 사용된 계산량은 정밀하게 측정되어, 32B 모델의 경우 총 1.26 × 10^24 FLOP가 사용되었다.


수학 시험에서 빛난 EXAONE Deep, 한국 수능 수학 94.5% 정답률 달성

EXAONE Deep 모델은 MATH-500, 미국 수학 초청 시험(AIME) 2024/2025, 한국 대학수학능력시험(CSAT) 2025의 수학 영역, GPQA Diamond, LiveCodeBench, MMLU, MMLU-Pro 등 다양한 벤치마크에서 평가되었다.

수학 분야에서 EXAONE Deep 32B 모델은 MATH-500에서 95.7%, AIME 2024에서 72.1%, AIME 2025에서 65.8%, CSAT 2025에서 94.5%의 놀라운 정확도를 보여주었다. 특히 한국 수능 수학 영역의 세 가지 선택 과목인 미적분, 통계, 기하에서 각각 95.1%, 95.0%, 93.5%의 높은 성능을 보여 전체 평균 94.5%라는 인상적인 결과를 달성했다.

과학 및 코딩 분야에서도 EXAONE Deep 32B는 GPQA Diamond에서 66.1%, LiveCodeBench에서 59.5%의 성능을 보여주었다. 일반 지식을 평가하는 MMLU와 MMLU-Pro에서는 각각 83.0%와 74.0%의 정확도를 달성했다.

7.8B 모델 역시 동급의 모델들과 비교해 모든 분야에서 우수한 성능을 보여주었으며, 특히 수학 분야에서는 MATH-500 94.8%, AIME 2024 70.0%, CSAT 2025 89.9%의 높은 정확도를 기록했다.


무료로 사용 가능한 EXAONE Deep, 상업용은 별도 라이선스 필요

EXAONE Deep 모델은 연구 목적으로 모든 사람이 사용할 수 있도록 공개되어 있다. 이 모델들은 허깅페이스(Hugging Face)를 통해 다운로드할 수 있다. 그러나 이 모델은 추론 작업에 특화되어 있으므로, 넓은 범위의 실제 사용 사례에 적용하려면 EXAONE 3.5 Instruct 모델 사용을 권장한다. 또한, EXAONE AI 모델 라이선스 계약에 따르면, 이 모델은 상업적 용도로 사용할 수 없으며, 별도의 상업용 라이선스 계약이 필요하다.

FAQ

Q: EXAONE Deep 모델은 어떤 특징이 있나요?

A: EXAONE Deep은 추론 능력에 특화된 AI 모델로, 단계적 사고 과정을 포함하는 특별한 데이터셋으로 학습되었습니다. 수학, 코딩 등 논리적 추론이 필요한 과제에서 뛰어난 성능을 보이며, 2.4B, 7.8B, 32B 세 가지 크기로 제공됩니다.

Q: 이 모델은 어떻게 사용할 수 있나요?

A: EXAONE Deep 모델은 연구 목적으로 누구나 무료로 사용할 수 있으며, 허깅페이스를 통해 다운로드할 수 있습니다. 상업적 목적으로 사용하려면 별도의 라이선스가 필요합니다.

Q: EXAONE Deep과 다른 AI 모델과의 차이점은 무엇인가요?

A: EXAONE Deep은 추론에 특화된 모델로, 같은 크기의 다른 모델들보다 수학, 과학, 코딩 분야에서 우수한 성능을 보입니다. 특히 7.8B 모델은 상용 추론 모델인 OpenAI o1-mini보다도 더 나은 성능을 입증했습니다.

해당 기사에서 인용한 논문 원문은 링크에서 확인할 수 있다.

이미지 출처: LG AI 연구소

기사는 클로드와 챗GPT를 활용해 작성되었습니다.





AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
'더 파이널스 APAC 리그'서 한국 대표 ‘하이부’ 우승 차지 게임동아
[한주의게임소식] 출시 이후 1위 유지 중인 ‘솔: 인첸트’ 게임동아
‘2026 서든어택 챔피언십 시즌1’, 결승 및 쇼케이스 열린다 게임동아
‘블루 아카’, 디스커스 애슬레틱 및 무신사와 2차 컬래버 선보여 게임동아
"여신강림 5장 등장!" 마비 모바일. 시즌2 ‘빛과 어둠’ 업데이트 게임동아
라이엇의 신작 ‘리프트바운드’ 9월 한국 출시 게임동아
“누워서라도 만들었다” 1인 개발 덱빌딩 로그라이크 ‘페소젠’ 게임동아
[창간] 코딩 안 하는 개발사 시대 온다…AI가 바꾸는 게임 개발의 문법 (1) 게임동아
올 해는 메르세데스 벤츠 브랜드 100주년이자 자동차 발명 140주년의 해 (1) 글로벌오토뉴스
테슬라, 2분기 예상 판매 40만 대 넘긴다지만 '성장률은 고작 5.7%' (1) 오토헤럴드
폭스바겐그룹, 최대 10만 명 감원 검토 '브랜드 분사까지 나왔다' 오토헤럴드
현대차 투싼 ,'주행 중 계기판 화면 꺼짐' 현상으로 10만 여대 리콜 오토헤럴드
BYD 아태 부총재 “한국 전기차 속도 세계 최고"…소비자 접점 강화 주력 글로벌오토뉴스
베일 벗은 5세대 신형 BMW X5, 파격적 디자인 변혁과 다재다능한 파워트레인 글로벌오토뉴스
AI와 로보틱스가 바꾸는 자동차 공장의 풍경 글로벌오토뉴스
넥센타이어, BYD와 첫 신차용 타이어 공급 계약 체결 글로벌오토뉴스
유럽, 2027년 의무화 디지털 배터리 여권 대비 배터리패스-레디 테스트 플랫폼 가동 글로벌오토뉴스
폴스타, 커넥티드카 규제로 2027년형부터 미국 시장 판매 중단 글로벌오토뉴스
BMW, 차세대 휴머노이드 로봇 피겨 03 미국 공장 투입… 물류 자동화 가속 글로벌오토뉴스
다임러트럭과 볼보 합작사 코레투라, 액센츄어와 협력 상용차 SDV 표준 플랫폼 개발 가속 글로벌오토뉴스
이 시간 HOT 댓글!
1/4