비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

AI가 교수보다 더 깐깐해… AI한테 채점 맡겼더니, 학생 10명 중 4명 점수 떨어져

2025.11.21. 15:52:21
조회 수
52
1
댓글 수
1

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

미국 에모리대학교 연구팀이 인공지능 챗봇 GPT-4o를 실제 대학 수업에 투입해 학생들의 시험과 보고서를 채점하는 실험을 진행했다. 그 결과, AI가 사람 채점자와 놀라울 정도로 비슷하게 점수를 매겼다. 특히 짧은 답안 시험에서는 절반 이상 완전히 똑같은 점수를 줬고, 전체적으로는 98%의 일치율을 보였다. 하지만 기술적인 내용을 평가할 때는 사람보다 점수를 짜게 주는 경향이 있다는 사실도 밝혀졌다.

50명 학생 시험 채점, 절반 이상 교수와 똑같은 점수

연구팀은 약 50명의 대학생이 수강한 언어학 수업에서 5번의 시험과 14개 팀의 프로젝트 보고서를 GPT-4o에게 채점하게 했다. 각 시험은 10~16개의 문제로 구성됐는데, 객관식이 아니라 학생들이 직접 답을 써야 하는 주관식 문제였다. 예를 들어 "어떤 경우에 이 기술을 사용하면 안 되나요?"처럼 학생 스스로 설명해야 하는 문제들이었다.

총 258개의 답안을 분석한 결과, GPT-4o는 55%의 경우 사람 채점자와 완전히 똑같은 점수를 줬다. 사람보다 높은 점수를 준 경우는 6.2%밖에 안 됐지만, 낮은 점수를 준 경우는 38.8%나 됐다. 이는 AI가 채점할 때 사람보다 조금 더 엄격한 기준을 적용한다는 뜻이다. 그래도 전체적으로 보면 AI와 사람의 채점 결과가 98% 일치했다. 이는 누가 1등이고 누가 꼴등인지를 판단하는 데 있어서는 거의 같은 결과를 냈다는 의미다.

5번의 시험을 각각 분석했을 때도 AI와 사람의 일치도는 62%에서 97% 사이였고, 평균 점수 차이는 0.03점에서 0.12점 정도로 매우 작았다. 다만 5개 시험 중 4개에서 통계적으로 의미 있는 차이가 나타났는데, 이는 AI가 사람과 약간 다른 방식으로 일관되게 채점한다는 것을 보여준다.

프로젝트 보고서 채점, 기술 부분에선 평균 0.2점씩 덜 줘

프로젝트 보고서를 채점할 때는 어땠을까? AI는 대부분의 항목에서 사람과 비슷하게 점수를 줬다. 서론, 관련 연구 소개, 보고서 형식 같은 부분에서는 차이가 거의 없었다. 특히 요약, 결론, 참고문헌 같은 부분은 모든 보고서에 대해 사람과 완전히 똑같은 점수를 줬다.

하지만 '연구 방법'과 '연구 결과' 부분에서는 차이가 있었다. AI는 연구 방법에 평균 1.89점, 연구 결과에 평균 1.75점을 줬는데, 사람은 각각 1.99점과 1.96점을 줬다. 연구 방법에서는 평균 0.1점, 연구 결과에서는 평균 0.2점 정도 AI가 더 낮은 점수를 준 것이다.

왜 이런 차이가 생길까? 연구팀이 감점 이유를 분석해봤더니 흥미로운 패턴이 발견됐다. AI는 '숫자로 된 결과가 부족하다'는 이유로 점수를 깎는 경우가 31%나 됐는데, 사람은 15%였다. 즉 AI는 데이터와 숫자를 중요하게 본다. 반면 사람 채점자는 '보고서 형식이나 표현'을 이유로 감점하는 비율이 25%였지만, AI는 8%에 불과했다. 또 사람은 '글쓰기 품질'이나 '결론이 부실하다'는 이유로 각각 10%씩 감점했는데, AI는 이런 항목을 거의 보지 않았다. 반대로 AI만 '연구의 한계를 언급하지 않았다'는 이유로 15%를 감점했다.

명확한 기준엔 강하지만 글쓰기 평가는 약해... 교수 보조 역할로 적합

이번 연구 결과를 보면 AI는 평가 기준이 명확할 때 사람과 비슷하게 채점한다는 것을 알 수 있다. 예를 들어 '관련 연구를 제대로 조사했는가', '연구 방법을 명확히 설명했는가' 같은 내용 중심 평가에서는 잘했다. 하지만 '글이 얼마나 읽기 쉬운가', '논리 전개가 매끄러운가' 같은 글쓰기 품질을 판단하는 데는 사람과 차이가 있었다.

연구팀은 누구나 사용할 수 있는 무료 채점 프로그램을 만들어 공개했다. 이 프로그램은 사용자가 문제 개수, 채점 기준, 만점 등을 자유롭게 설정할 수 있다. PDF 파일을 바로 채점할 수 있어서 사용하기도 편하다. 다른 과목이나 다른 학교에서도 쉽게 적용할 수 있게 만들었다.

비용도 매우 저렴하다. 50명의 학생이 14개 문제에 답한 시험을 채점하는 데 드는 비용이 1달러(약 1300원)도 안 된다. 특정 기술을 사용하면 비용을 3분의 1로 더 줄일 수도 있다. 많은 학생의 시험을 빠르고 일관되게 채점할 수 있다는 장점에 비하면 매우 적은 비용이다.

연구팀은 AI가 내용 중심의 평가에서는 효과적으로 작동하며, 학생 답안의 주요 장단점을 일관되게 찾아낸다고 밝혔다. 사람 채점자와 감점하는 이유가 겹치는 경우도 많아 실제로 활용할 수 있다는 뜻이다. 다만 AI는 데이터와 증거를 중시하는 반면, 사람은 표현 방식이나 전체적인 완성도를 더 본다는 점에서 서로 보완할 수 있다고 설명했다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. AI로 시험을 채점하면 비용이 얼마나 드나요?

A. 50명의 학생이 14개 문제에 답한 시험을 채점하는 데 1달러(약 1,300원)도 안 듭니다. 특정 기술을 사용하면 비용을 3분의 1로 더 줄일 수 있어서, 많은 학생의 시험을 채점하는 데도 부담이 없습니다.

Q2. AI는 어떤 평가에서 사람과 가장 비슷하게 점수를 주나요?

A. 평가 기준이 명확한 내용 평가에서 사람과 가장 비슷합니다. 예를 들어 '관련 연구를 제대로 조사했는가', '기술적 방법을 명확히 설명했는가' 같은 부분에서는 잘 맞지만, '글이 읽기 쉬운가', '논리가 매끄러운가' 같은 글쓰기 평가에서는 차이가 있습니다.

Q3. AI가 사람보다 점수를 낮게 주는 이유는 뭔가요?

A. AI는 숫자와 데이터를 중요하게 보는 경향이 있습니다. 연구 결과를 보면 '정량적 결과가 부족하다'는 이유로 감점하는 비율이 사람의 두 배 이상 높았습니다. 반면 보고서 형식이나 글쓰기 품질 같은 부분에서는 사람보다 관대합니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: LLM-as-a-Grader: Practical Insights from Large Language Model for Short-Answer and Report Evaluation

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
AWS, 문제 풀 때마다 학습하는 AI 개발... 경험 쌓을수록 저렴하고 정확해 (1) AI matters
AI가 교수보다 더 깐깐해… AI한테 채점 맡겼더니, 학생 10명 중 4명 점수 떨어져 (1) AI matters
"이전 답변 틀렸다" 한마디에 무너지는 AI... 같은 질문도 ‘대화 형식’으로 하면 답 달라져 AI matters
'불수능'이었다는 2026학년도 수능시험, 최신 AI들에게 풀게 한다면? 다나와
'최고의 아첨꾼AI' Grok, “엘론 머스크는 오타니를 제외하면 가장 뛰어나” 다나와
"AI가 버블이라고?ㅋㅋ" 엔비디아, 3분기 실적 '어닝 서프라이즈'...뉴욕증시 급등세로 마감 다나와
오픈AI, 장시간 코딩에 특화된 ‘GPT-5.1-Codex-Max’ 모델 공개 다나와
AI로 곰 출몰 위험 한눈에…日 조치대, 19개 지역 ‘곰 조우 예측 지도’ 공개 다나와
AI에 코딩 도구 주면 정답률 19%↑…풀이 과정은 41% 더 형편없어져 AI matters
챗GPT에게 "어느 나라가 더 나쁜가?" 물었더니... AI도 국가 차별한다 (1) AI matters
긴 문서 속 숨은 해킹 명령어, 이제 AI가 스스로 찾아 차단한다 AI matters
디노티시아, SC25서 VDPU 기반 FPGA로 'AI 반도체' 성능 알린다 IT동아
AI 여러 개 쓰면 답 정확해진다더니... 토큰비용 5배에 정답률은 제자리 AI matters
챗GPT가 원전을 부른다… 데이터센터 전력 수요 폭증에 기업들 원전에 '올인' AI matters
구글 CEO, “AI 맹신 금물”… 급격한 확산 속 과열 우려 제기 다나와
윈도우 11, AI 비서 기능 강화되지만… 새 악성코드 위협도 동반 (1) 다나와
폭스뉴스, 팔란티어와 손잡고 AI 기반 뉴스룸 구축… “미래 뉴스 절반은 AI가 만든다” 전망도 다나와
인도, AI 확산 영향으로 초보 개발자 일자리 최대 25퍼센트 감소 다나와
"AI가 CCTV 속 폭력 포착"... 제미나이가 ‘주먹 드는 순간’ 95% 정확도로 잡는다 AI matters
"챗GPT도 속았다"... AI에게 '답 없는 질문'하자 60% 이상 틀려 AI matters
이 시간 HOT 댓글!
1/4