미국 에모리대학교 연구팀이 인공지능 챗봇 GPT-4o를 실제 대학 수업에 투입해 학생들의 시험과 보고서를 채점하는 실험을 진행했다. 그 결과, AI가 사람 채점자와 놀라울 정도로 비슷하게 점수를 매겼다. 특히 짧은 답안 시험에서는 절반 이상 완전히 똑같은 점수를 줬고, 전체적으로는 98%의 일치율을 보였다. 하지만 기술적인 내용을 평가할 때는 사람보다 점수를 짜게 주는 경향이 있다는 사실도 밝혀졌다.
50명 학생 시험 채점, 절반 이상 교수와 똑같은 점수
연구팀은 약 50명의 대학생이 수강한 언어학 수업에서 5번의 시험과 14개 팀의 프로젝트 보고서를 GPT-4o에게 채점하게 했다. 각 시험은 10~16개의 문제로 구성됐는데, 객관식이 아니라 학생들이 직접 답을 써야 하는 주관식 문제였다. 예를 들어 "어떤 경우에 이 기술을 사용하면 안 되나요?"처럼 학생 스스로 설명해야 하는 문제들이었다.
총 258개의 답안을 분석한 결과, GPT-4o는 55%의 경우 사람 채점자와 완전히 똑같은 점수를 줬다. 사람보다 높은 점수를 준 경우는 6.2%밖에 안 됐지만, 낮은 점수를 준 경우는 38.8%나 됐다. 이는 AI가 채점할 때 사람보다 조금 더 엄격한 기준을 적용한다는 뜻이다. 그래도 전체적으로 보면 AI와 사람의 채점 결과가 98% 일치했다. 이는 누가 1등이고 누가 꼴등인지를 판단하는 데 있어서는 거의 같은 결과를 냈다는 의미다.
5번의 시험을 각각 분석했을 때도 AI와 사람의 일치도는 62%에서 97% 사이였고, 평균 점수 차이는 0.03점에서 0.12점 정도로 매우 작았다. 다만 5개 시험 중 4개에서 통계적으로 의미 있는 차이가 나타났는데, 이는 AI가 사람과 약간 다른 방식으로 일관되게 채점한다는 것을 보여준다.
프로젝트 보고서 채점, 기술 부분에선 평균 0.2점씩 덜 줘
프로젝트 보고서를 채점할 때는 어땠을까? AI는 대부분의 항목에서 사람과 비슷하게 점수를 줬다. 서론, 관련 연구 소개, 보고서 형식 같은 부분에서는 차이가 거의 없었다. 특히 요약, 결론, 참고문헌 같은 부분은 모든 보고서에 대해 사람과 완전히 똑같은 점수를 줬다.
하지만 '연구 방법'과 '연구 결과' 부분에서는 차이가 있었다. AI는 연구 방법에 평균 1.89점, 연구 결과에 평균 1.75점을 줬는데, 사람은 각각 1.99점과 1.96점을 줬다. 연구 방법에서는 평균 0.1점, 연구 결과에서는 평균 0.2점 정도 AI가 더 낮은 점수를 준 것이다.
왜 이런 차이가 생길까? 연구팀이 감점 이유를 분석해봤더니 흥미로운 패턴이 발견됐다. AI는 '숫자로 된 결과가 부족하다'는 이유로 점수를 깎는 경우가 31%나 됐는데, 사람은 15%였다. 즉 AI는 데이터와 숫자를 중요하게 본다. 반면 사람 채점자는 '보고서 형식이나 표현'을 이유로 감점하는 비율이 25%였지만, AI는 8%에 불과했다. 또 사람은 '글쓰기 품질'이나 '결론이 부실하다'는 이유로 각각 10%씩 감점했는데, AI는 이런 항목을 거의 보지 않았다. 반대로 AI만 '연구의 한계를 언급하지 않았다'는 이유로 15%를 감점했다.
명확한 기준엔 강하지만 글쓰기 평가는 약해... 교수 보조 역할로 적합
이번 연구 결과를 보면 AI는 평가 기준이 명확할 때 사람과 비슷하게 채점한다는 것을 알 수 있다. 예를 들어 '관련 연구를 제대로 조사했는가', '연구 방법을 명확히 설명했는가' 같은 내용 중심 평가에서는 잘했다. 하지만 '글이 얼마나 읽기 쉬운가', '논리 전개가 매끄러운가' 같은 글쓰기 품질을 판단하는 데는 사람과 차이가 있었다.
연구팀은 누구나 사용할 수 있는 무료 채점 프로그램을 만들어 공개했다. 이 프로그램은 사용자가 문제 개수, 채점 기준, 만점 등을 자유롭게 설정할 수 있다. PDF 파일을 바로 채점할 수 있어서 사용하기도 편하다. 다른 과목이나 다른 학교에서도 쉽게 적용할 수 있게 만들었다.
비용도 매우 저렴하다. 50명의 학생이 14개 문제에 답한 시험을 채점하는 데 드는 비용이 1달러(약 1300원)도 안 된다. 특정 기술을 사용하면 비용을 3분의 1로 더 줄일 수도 있다. 많은 학생의 시험을 빠르고 일관되게 채점할 수 있다는 장점에 비하면 매우 적은 비용이다.
연구팀은 AI가 내용 중심의 평가에서는 효과적으로 작동하며, 학생 답안의 주요 장단점을 일관되게 찾아낸다고 밝혔다. 사람 채점자와 감점하는 이유가 겹치는 경우도 많아 실제로 활용할 수 있다는 뜻이다. 다만 AI는 데이터와 증거를 중시하는 반면, 사람은 표현 방식이나 전체적인 완성도를 더 본다는 점에서 서로 보완할 수 있다고 설명했다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1. AI로 시험을 채점하면 비용이 얼마나 드나요?
A. 50명의 학생이 14개 문제에 답한 시험을 채점하는 데 1달러(약 1,300원)도 안 듭니다. 특정 기술을 사용하면 비용을 3분의 1로 더 줄일 수 있어서, 많은 학생의 시험을 채점하는 데도 부담이 없습니다.
Q2. AI는 어떤 평가에서 사람과 가장 비슷하게 점수를 주나요?
A. 평가 기준이 명확한 내용 평가에서 사람과 가장 비슷합니다. 예를 들어 '관련 연구를 제대로 조사했는가', '기술적 방법을 명확히 설명했는가' 같은 부분에서는 잘 맞지만, '글이 읽기 쉬운가', '논리가 매끄러운가' 같은 글쓰기 평가에서는 차이가 있습니다.
Q3. AI가 사람보다 점수를 낮게 주는 이유는 뭔가요?
A. AI는 숫자와 데이터를 중요하게 보는 경향이 있습니다. 연구 결과를 보면 '정량적 결과가 부족하다'는 이유로 감점하는 비율이 사람의 두 배 이상 높았습니다. 반면 보고서 형식이나 글쓰기 품질 같은 부분에서는 사람보다 관대합니다.
해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.
논문명: LLM-as-a-Grader: Practical Insights from Large Language Model for Short-Answer and Report Evaluation
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기








