AI가 교사보다 공정한 채점자가 될 수 있을까? GPT, 클로드, 제미나이의 교육 평가 실험 : 다나와 DPG는 내맘을 디피지

AI가 학교 수업 자료를 평가한다면 어떤 일이 벌어질까. 미국 워싱턴주립대와 뉴욕주립대 버팔로 캠퍼스 공동 연구팀이 GPT-4o, 클로드 소넷 4(Claude Sonnet 4), 제미나이 2.5 프로(Gemini 2.5 Pro) 세 가지 AI 모델에게 미국 초중등 과학 수업 자료를 평가하게 한 뒤, 그 결과를 교육 전문가의 판단과 비교하는 실험을 진행했다. 결과는 예상보다 훨씬 복잡하고 흥미로웠다.

AI 채점관 등장: 648개의 평가 데이터가 말해주는 것

연구팀은 미국 전역에서 검증된 초중등 과학 교육과정 12개 단원을 선정했다. 생명과학, 물리과학, 지구과학 분야에 걸쳐 있는 이 자료들은 모두 미국 과학교육 국가표준(NGSS, Next Generation Science Standards)에 맞게 설계된 고품질 커리큘럼이다.

연구팀은 세 AI 모델에게 동일한 기준표—교육 자료 품질을 9가지 항목으로 평가하는 이퀴프(EQuIP) 루브릭—를 적용해 각 수업 자료를 평가하도록 했다. AI는 각 항목에 0~3점 사이의 점수를 매기고, 그 이유를 글로 설명한 뒤 개선 방향까지 제시했다. 이 과정에서 총 648개의 평가 결과물이 생성됐다. 두 명의 과학교육 전문가가 이 결과물 전체를 검토하며 동의 여부를 판단했다.

점수보다 이유가 더 믿을 만하다: 전문가 동의율의 반전

실험 결과에서 가장 눈에 띄는 점은 AI가 매긴 숫자 점수보다 그 이유 설명에 전문가들이 훨씬 더 많이 동의했다는 사실이다. 점수에 대한 전문가 평균 동의율은 69.6%에 그쳤지만, AI가 작성한 이유 설명에 대한 동의율은 86.1%, 개선 제안에 대한 동의율은 82.5%에 달했다.

모델별로 살펴보면 개선 제안 동의율은 제미나이(Gemini)가 88.9%로 가장 높았고, 클로드(Claude)가 81.3%, GPT가 77.2% 순이었다. 즉, AI가 내린 결론(점수)보다 그 결론에 이르는 과정(논리와 설명)이 인간 전문가의 눈에 더 타당하게 보였다는 뜻이다. 이는 AI를 교육 평가에 활용할 때 단순히 점수를 자동화하는 방식보다, AI의 설명을 교사가 참고하는 방식이 훨씬 유용할 수 있음을 시사한다.

Model	Score	Reasoning	Suggestion
GPT	84.3	84.7	77.2
Claude	37.0	81.6	81.3
Gemini	87.1	92.1	88.9

테이블 5. GPT, 클로드, 제미나이의 평가 항목별 전문가 동의율(%)

제미나이는 후하고, 클로드는 엄격하고, GPT는 그 사이: AI마다 다른 채점 철학

세 모델의 성격 차이는 데이터에서 뚜렷하게 드러났다. 제미나이는 평균 2.96점(3점 만점)을 부여하며 가장 후한 평가자였고, GPT-4o는 2.81점으로 그 뒤를 이었다. 반면 클로드는 2.18점으로 훨씬 엄격한 채점 성향을 보였다. 전문가 동의율도 극명하게 갈렸다. 점수 항목에서 제미나이의 전문가 동의율은 87.1%, GPT는 84.3%였지만, 클로드는 고작 37%에 불과했다. 흥미롭게도 클로드의 개선 제안에 대한 동의율은 81.3%로 다른 두 모델과 비슷한 수준이었다. 즉 클로드는 점수는 너무 짜게 줬지만 조언의 내용 자체는 전문가들이 납득할 만했다는 것이다.

연구팀은 이 차이를 각 모델의 설계 철학에서 찾는다. GPT-4o와 제미나이는 텍스트, 이미지, 오디오 등 다양한 정보를 통합적으로 처리하는 멀티모달(multimodal) 기반 모델로, 전반적인 패턴을 인식하는 방식으로 평가한다. 반면 클로드는 '헌법적 AI(Constitutional AI)'라는 방식으로 훈련되어 안전하고 정확하며 해롭지 않은 출력을 우선시한다. 이 특성이 교육 평가에서는 규칙 기반의 엄격한 채점으로 나타났다는 분석이다.

Judging the Judges: Human Validation of Multi-LLM Evaluation for High-Quality K–12 Science Instructional Materials — 그림 2. 과학 분야별(위), AI 모델별(아래) 전문가 동의율(%) 비교 막대그래프

같은 수업, 전혀 다른 점수: AI와 인간 모두 '판단 기준'이 다르다

연구팀이 제시한 두 가지 실제 사례는 이 문제를 더 구체적으로 보여준다. 첫 번째는 초등학교 3학년 물리과학 수업으로, 학생들이 일상 재료로 균형 잡힌 조각품을 만드는 활동이었다. 전문가 A는 이 수업에 3점 만점을 부여하며 학생들의 탐구적 사고를 높이 평가했지만, 전문가 B는 1점을 주며 "과학 개념을 명시적으로 요구하지 않는 미술 활동에 가깝다"고 비판했다.

두 번째는 5학년 물리과학 수업으로, 단열재를 설계해 물의 온도를 유지하는 실험이었다. 클로드는 1점을 주며 표준 기준에 맞는 명시적 설명이 없다고 지적했고, GPT는 2점을 주며 무난한 평가를 내렸으며, 제미나이는 3점을 부여하며 학생들이 실제 데이터를 분석하고 모델을 수정하는 과정에서 충분한 과학적 사고가 일어난다고 판단했다. 연구팀은 이를 세 가지 AI 인식론으로 정리한다. 클로드는 규칙 중심의 정밀한 평가자, GPT는 중립적이지만 얕은 평가자, 제미나이는 맥락을 통합하는 전체론적 평가자라는 것이다.

AI 채점은 '정답'이 아니라 '다양한 관점'을 제공하는 도구다

이 연구는 AI가 교육 평가에 활용될 때 단일한 정답을 내놓는 방식보다 여러 관점을 함께 보여주는 방식이 훨씬 가치 있다는 점을 시사한다. 인간 전문가들 사이에서도 점수 불일치가 빈번하게 나타났는데, 물리과학 분야에서 두 전문가의 일치도(코헨 카파 약 0.29)가 가장 낮았고, 지구과학(약 0.49)과 생명과학(약 0.47)은 중간 수준의 일치도를 보였다. 이는 "좋은 수업이란 무엇인가"에 대한 판단 자체가 본질적으로 주관적이고 복잡하다는 뜻이다. 따라서 AI를 도입할 때 하나의 모델이 내린 점수를 그대로 신뢰하기보다, 여러 모델의 평가를 비교하며 교사가 스스로 판단하는 데 참고 자료로 활용하는 것이 바람직하다. 연구팀도 AI가 교사의 판단을 대체하는 것이 아니라 교사의 전문적 성찰을 돕는 파트너가 되어야 한다고 강조한다. 앞으로의 AI 교육 평가 시스템은 숫자 하나를 내놓는 채점기가 아니라, 다양한 해석의 근거를 투명하게 제시하는 방향으로 설계되어야 한다는 것이 이 연구의 핵심 메시지다.

FAQ（※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.）

Q. AI가 교육 자료를 평가하면 인간 전문가와 얼마나 일치하나요?
A. 이번 연구에 따르면 AI가 부여한 점수에 대한 전문가 평균 동의율은 약 70%이며, AI의 이유 설명에 대한 동의율은 86%로 더 높습니다. AI의 숫자 점수보다 설명이 더 신뢰할 만하다는 뜻입니다.

Q. GPT, 클로드, 제미나이 중 교육 평가에 가장 적합한 AI는 무엇인가요?
A. 전문가와의 일치도 면에서는 제미나이(Gemini)가 점수 87.1%, 이유 설명 92.1%로 가장 높았습니다. 그러나 어떤 모델이 "최선"인지는 교육의 목적과 평가 기준에 따라 다를 수 있으며, 세 모델을 함께 활용해 다양한 관점을 비교하는 방식이 더 효과적입니다.

Q. AI 채점 결과를 교사가 그대로 믿어도 되나요?
A. 아직은 그렇지 않습니다. 같은 수업에 대해 AI마다 점수가 크게 다를 수 있고, 인간 전문가들 사이에서도 의견이 갈리는 경우가 많습니다. AI 평가는 교사의 판단을 보조하는 참고 자료로 활용하되, 최종 판단은 교사가 내리는 것이 바람직합니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

리포트명: Judging the Judges: Human Validation of Multi-LLM Evaluation for High-Quality K–12 Science Instructional Materials

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

[오늘의 스팀] 한 주 동안 판매 1위, '바하 레퀴엠' 출시 코앞	게임메카
2026 VCT 첫 국제전, 마스터스 산티아고 3월 1일 열린다	게임메카
처치 곤란했던 폐가전, 스티커 없이 무료 배출하는 방법	IT동아
BMW 모토라드, 15대 한정판 ‘BMW R 12 S’ 국내 출시	글로벌오토뉴스
BMW 코리아 미래재단, 대학생 사회공헌 공모전 ‘영 이노베이터 드림 프로젝트’ 개최	글로벌오토뉴스
틸 셰어 폭스바겐그룹코리아 사장, 한국수입자동차협회(KAIDA) 회장 3연임	글로벌오토뉴스
[영상] 영국 두 아이콘의 만남, MINI 폴 스미스 에디션을 만나다	글로벌오토뉴스
소파가 전시 오브제로…알로소, ‘서울리빙디자인페어’서 체험형 공간 선보여	뉴스탭
“집이 곧 필드”…텔몬파크골프, 가정용 시뮬레이터로 시장 판 바꿨다	뉴스탭
“아이마다 다른 공부 리듬”…일룸, 체험형 팝업으로 학생방 새 기준 제시	뉴스탭
바나나·파인애플·용과의 변신…야외 미식 트렌드 ‘밖슐랭’ 확산	뉴스탭
이채민과 함께한 K2 2026 SS 화보 공개…기능성과 스타일 모두 잡았다	뉴스탭
이동휘의 ‘스피드 무드’ 통했다…버커루 2026 S/S 캠페인 공개	뉴스탭
36년 만의 블러드문 뜬다…식품·유통업계, 정월대보름 마케팅 ‘후끈’	뉴스탭
뷔의 담백한 무드로 완성한 ‘일상 아웃도어’…스노우피크 26 스프링 컬렉션 공개	뉴스탭
“노래 들으며 타자 연습”… 코르티스 신곡 가사 ‘타자 게임’으로 최초 공개	뉴스탭
3천원대 마요부터 단백질 강화 메뉴까지…도시락 시장, 초개인화 경쟁 본격화 (1)	뉴스탭
코지마 감성 입은 ROG, ‘루덴스’ 철학 담은 한정판 Z13 전격 공개	뉴스탭
한예슬 효과 통했다…세르본 ‘튜닝엑스’, 면세점·백화점 온라인몰 전격 입점	뉴스탭
“상금 2억2000만원” 구글 딥마인드, 서울서 ‘제미나이 3’ 해커톤 연다	뉴스탭
250야드 장타자 이슬기2, 에이븐 입고 KLPGA 정규투어 도전장	뉴스탭
묘하게 닮은 ‘일곱 개의 대죄: 오리진’과 ‘붉은사막’ 3월 맞대결	게임동아
웹젠 '뮤: 포켓 나이츠', 신규 유물 등 육성 콘텐츠 업데이트	게임동아
넷마블 '일곱 개의 대죄: 그랜드 크로스', 글로벌 서비스 6주년 페스티벌	게임동아
스마일게이트 ‘카제나’, 센서타워 APAC 어워즈 ‘최고의 신규 서브컬처 게임’ 선정	게임동아
엔씨(NC) '리니지 클래식', 비정상 플레이 근절 박차.. '클린 캠페인' 진행	게임동아
스마일게이트-GRID, ‘크로스파이어’ e스포츠 공식 데이터 글로벌 유통 파트너십 체결	게임동아
타타대우, 특장업체 사이버보안 설명회 '상용차 보안' 선제 대응	오토헤럴드
GMC 허머 EV, 국내 인증 완료 '복합 512km 기록' 상반기 판매 돌입	오토헤럴드
현대차·기아, 전기차 배터리관리시스템·BMW 스타터 모터 결함 리콜	오토헤럴드
EU 1월 신차 판매 3.9% 감소, 현대차 22.2% 급감 기아와 순위 역전	오토헤럴드
'20만대 시대는 옛말' 아우디, 美 판매 2년 연속 역성장 이어 추가 감소	오토헤럴드
“표지판 번쩍임 줄인다” 테슬라 매트릭스 라이트 개선 예고	오토헤럴드
'크로스오버 대신 픽업' 현대차, 美 시장 전략 전환 가속	오토헤럴드
특별한 감성 미니 전기차. MINI 쿠퍼 SE 폴 스미스 에디션 출시	오토헤럴드
'임직원 긍정 응답 79%' 기아, 대한민국 일하기 좋은 100대 기업 선정	오토헤럴드
KG모빌리티 '이스타나' 출시, 상용·다목적 라인업 강화 시동	오토헤럴드
'음악으로 이어진 아산의 정신' 현대차그룹, 25주기 추모 행사 개최	오토헤럴드
'하루 6000원이면 탄다' BYD, 中 내수 둔화에 파격 조건 내놔	오토헤럴드
한국수입자동차협회, 제17대 회장에 틸 셰어 재선임… 3연속 선임	오토헤럴드
현대차그룹, 새만금에 10조 원 규모 미래 산업 기지 조성	글로벌오토뉴스
렉서스 IS, 1,000km 주행 앞세워 2027년 배터리 전기차로 부활	글로벌오토뉴스
중국 창안자동차, 1,500km 주행 전고체 배터리 내년 시험 탑재... 2027년 양산	글로벌오토뉴스
웨이모, 미 4개 도시 추가 확장… 무인 로보택시 10개 도시 시대 개막	글로벌오토뉴스
랜드로버, 디펜더 스포츠 EV 올 해 말 공개… 6천만 원대 전기 오프로더 시장 정조준	글로벌오토뉴스
르노 앙페르-바스퀘볼트 협력… 차세대 리튬 금속 배터리 검증 가속화	글로벌오토뉴스
중국 지커, 이탈리아 진출로 유럽 공략 가속화… 2분기 인도 시작	글로벌오토뉴스
중국 체리자동차, 영국에 네 번째 브랜드 레파스 론칭… 플래그십 L8 내년 3분기 상륙	글로벌오토뉴스
BMW M, 유로 7 선제 대응… M5·XM 성능 최적화 모델 내년 상륙	글로벌오토뉴스
폴스타, 유럽서 그리드 보상 확대… 차량 제어 스마트 충전으로 유지비 절감	글로벌오토뉴스
토요타코리아, ‘제19회 토요타 드림카 아트 콘테스트’ 국내 예선 시상식 개최	글로벌오토뉴스
현대차그룹, 정주영 창업회장 서거 25주기 추모 음악회 개최	글로벌오토뉴스
기아, ‘대한민국 일하기 좋은 100대 기업’ 선정	글로벌오토뉴스
오토노머스에이투지, ‘국가핵심기술’ 자율주행 최초 수출 승인	글로벌오토뉴스
아우디 코리아, KCC 오토그룹 신규 공식 딜러사로 선정	글로벌오토뉴스
MINI 코리아, ‘디 올-일렉트릭 MINI 쿠퍼 SE 폴 스미스 에디션’ 공식 출시	글로벌오토뉴스
메르세데스-벤츠 코리아, 새로운 차량 판매 방식, ‘리테일 오브 더 퓨처’ 협약식 개최	글로벌오토뉴스
KGMC, ‘E-STANA(이-스타나)’ 1호차 인도식 개최	글로벌오토뉴스
뱀서 공식 스핀오프 '워해머 서바이버' 신규 무기 소개	게임메카
남은 티켓은 어디로? T1 LCK CL 플레이오프 결승 직행	게임메카
개발에 집중해온 시프트업, 자체 퍼블리싱 재도전한다	게임메카
도전 예고한 크래프톤, 신규 비전 슬로건 및 CI 공개	게임메카
“완벽한 팬 서비스” 바이오하자드 레퀴엠 메타 88점	게임메카
슈퍼센트 '스네이크 클래시', 센서타워 APAC 어워즈 '최고의 하이퍼캐주얼 게임' 선정	게임동아
엔씨(NC) ‘리니지 클래식’, 동시접속자 32만∙누적 매출 400억 돌파	게임동아
조이시티 ‘프리스타일’, 초코엔터 협업 캐릭터 ‘안판’ 업데이트	게임동아
소닉 레이싱, 용과 같이, 투 포인트 뮤지엄... 세가 게임 할인 중!	게임동아
에이시티게임즈 ‘헬로키티 마이 드림 스토어’, 출시 1년만에 日 양대 마켓 인기 1위	게임동아
‘서든어택', 신규 생존전 ‘시범단지’ 업데이트	게임동아
넥슨의 좀비 생존 신작 ‘낙원’ 3월 12일 테스트 진행	게임동아
넷마블 '뱀피르', 신규 클래스 ‘아카샤’ 소개 특집 페이지 오픈	게임동아
넷마블 '세븐나이츠 리버스', 센서타워 APAC 어워즈 ‘최고의 턴제 RPG’ 선정	게임동아
넥써쓰, GDC 2026 참가해 ‘게임·AI·블록체인’ 전략 공개	게임동아
농심 레드포스 아레나 호치민 1호점 오픈... 베트남으로 나간 K-PC방	게임동아
스팀으로 재출시된 파판7. 공짜로 줘도 욕 먹네	게임동아
웹젠 R2 ORIGIN, 신규 육성 콘텐츠 ‘잠재력’ 업데이트	게임동아
뉴욕주, 밸브에 소송 제기... “루트박스 방식이 전형적인 도박 구조”	게임동아
바이오하자드 레퀴엠, 메타크리틱 88점... ‘바하4 이후 20년 만에 최고 평가’ (1)	게임동아
블로믹스, 블루포션게임즈와 '에오스 레드·에오스 블랙 공동 서비스 계약	게임동아
펄어비스 ‘붉은사막’, 주요 성우진 인터뷰 영상 공개	게임동아
블리자드, '오버워치' IP 기반의 쿼터뷰 협동 슈팅 '오버워치 러시' 발표	게임동아
AI는 적이다! AI 빌런의 위협에 맞서는 게임들	게임동아
[동아게임백과사전] 침팬지가 나보다 마인크래프트 잘하는데? 게임하는 ‘동물’들 (1)	게임동아
스마일게이트 ‘카제나’, 은하계 재해 시즌2 신규 스토리 업데이트	게임동아
“꽃은 다시 지고 핀다!” 한번 망했다가 다시 부활한 게임	게임동아
NHN, 수집형 RPG ‘어비스디아’ 정식 출시...'복스럽게 먹는 미소녀들' 호평	게임동아
[순위분석] 글로벌 동기화 눈앞, 파판 14 관심 최고조	게임메카
에릭슨, AI 시대 네트워크 전략 공개…“5G SA는 이미 답…수익화가 숙제”	IT동아
슈퍼캣 ‘돌 키우기 온라인’, 서버 이용자들 협동하는 ‘도시 복구 이벤트’ 26일 업데이트 예고!	게임동아
스마일게이트 ‘로드나인’, 장비 각성 및 신규 사냥터 추가 등 시즌2 첫 업데이트 진행	게임동아
SOOP, 누적 시청자 2300만명 '2026 LoL 멸망전 시즌 1' 개최	게임동아
넷마블 '레이븐2', '사역마 원정대' 등 업데이트 실시	게임동아
SM엔터 아이돌과 함께 퍼즐삼매경! 카카오게임즈, SMiniz(슴미니즈) 정식 출시	게임동아
메르세데스-벤츠 코리아, '한국여자오픈' 타이틀 스폰서 참여	글로벌오토뉴스
AI뉴스 2배 넘게 좋아진 Gemini 3.1 Pro, Lyria 3, Sonnet 4.6, Claude Code 업데이트, 보안주 급락, Grok 4.2, Qwen3.5 등 동영상 있음	조코딩 JoCoding
폭스바겐 '시세 이하 미끼, 유령차 주의' 가짜 중고차 사이트 사기 경고	오토헤럴드
기아 美 조지아 공장 2009년 가동, 16년만 누적 생산 500만대 돌파	오토헤럴드
'엄마의 마음으로 뽑은 최고의 패밀리카' 현대차, 4개 모델 수상	오토헤럴드
픽업트럭 제왕 '램' 차봇모터스와 손잡고 한국 상륙… 4월 ‘램 1500’ 출시	오토헤럴드
아우디 레볼루트 F1팀, 아디다스와 협업한 팀웨어 및 팬웨어 컬렉션 공개	오토헤럴드

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

AI가 교사보다 공정한 채점자가 될 수 있을까? GPT, 클로드, 제미나이의 교육 평가 실험

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

AI가 교사보다 공정한 채점자가 될 수 있을까? GPT, 클로드, 제미나이의 교육 평가 실험

공유하기

공감/비공감