
출처 : 챗GPT 생성
최신 대형언어모델(LLM)들에게 2026학년도 대학수학능력시험(이하 수능) 문제를 풀어 성적을 비교한 흥미로운 실험 결과가 나와 화제다. 게다가 제미나이3 등 특정 AI모델들은 전 과목에서 유례없는 고득점을 달성해 관심을 모으고 있다.
깃허브 리포지토리 ‘2026-CSAT’에 따르면, 국어·수학·영어·한국사·탐구 영역에 걸쳐 다양한 모델이 최고점 또는 만점 수준을 기록했다.

출처 : 깃허브
먼저 국어 공통영역(76점 만점)에서는 Gemini 3 Pro(Preview), Gemini 2.5 Pro, Claude Sonnet 4.5 등 다수의 모델이 76점을 기록하며 단숨에 최고권에 올랐다. 화법‧작문 및 언어‧매체 선택 과목에서도 여러 모델이 만점을 획득해 선택형 과목에서의 압도적 성능을 입증했다.

출처 : 깃허브
수학 공통영역(74점 만점)에서는 GPT‑5.1, Claude Sonnet 4.5, Gemini 3 Pro 등이 74점으로 최고점에 이름을 올렸으며, 선택과목인 확률과 통계·미적분·기하(각 26점 만점)에서도 이들 및 기타 최신 모델이 모두 26점 만점을 달성해 수리영역에서도 사실상 만점 모델이 등장했다.


출처 : 깃허브
이 같은 성과는 LLM들이 언어 및 수리 능력에서 실제 수능 수준의 문제를 푸는 데 매우 근접했음을 보여준다. 다만 해당 실험은 외부 검색이나 도구 없이 모델 내부 지식만으로 진행됐으며, 실제 수능 환경과는 차이가 있다는 안내가 리포지토리에 명시돼 있어 주의가 필요하다. 또한 탐구 영역에서는 시각자료가 많은 문제에서 모델 간 격차가 발생했다는 보조 정보도 확인됐다.
이번 결과는 AI가 단순한 언어 생성이나 요약을 넘어 시험 수준의 문제해결 능력까지 갖춰가고 있음을 보여준다. 또한 향후 교육현장 및 평가체계에 미칠 영향에 대한 논의도 본격화될 전망이다.
글 / 김지훈 news@cowave.kr
(c) 비교하고 잘 사는, 다나와 www.danawa.com








