비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

AI가 교수보다 더 깐깐해… AI한테 채점 맡겼더니, 학생 10명 중 4명 점수 떨어져

2025.11.21. 15:52:21
조회 수
59
2
댓글 수
1

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

미국 에모리대학교 연구팀이 인공지능 챗봇 GPT-4o를 실제 대학 수업에 투입해 학생들의 시험과 보고서를 채점하는 실험을 진행했다. 그 결과, AI가 사람 채점자와 놀라울 정도로 비슷하게 점수를 매겼다. 특히 짧은 답안 시험에서는 절반 이상 완전히 똑같은 점수를 줬고, 전체적으로는 98%의 일치율을 보였다. 하지만 기술적인 내용을 평가할 때는 사람보다 점수를 짜게 주는 경향이 있다는 사실도 밝혀졌다.

50명 학생 시험 채점, 절반 이상 교수와 똑같은 점수

연구팀은 약 50명의 대학생이 수강한 언어학 수업에서 5번의 시험과 14개 팀의 프로젝트 보고서를 GPT-4o에게 채점하게 했다. 각 시험은 10~16개의 문제로 구성됐는데, 객관식이 아니라 학생들이 직접 답을 써야 하는 주관식 문제였다. 예를 들어 "어떤 경우에 이 기술을 사용하면 안 되나요?"처럼 학생 스스로 설명해야 하는 문제들이었다.

총 258개의 답안을 분석한 결과, GPT-4o는 55%의 경우 사람 채점자와 완전히 똑같은 점수를 줬다. 사람보다 높은 점수를 준 경우는 6.2%밖에 안 됐지만, 낮은 점수를 준 경우는 38.8%나 됐다. 이는 AI가 채점할 때 사람보다 조금 더 엄격한 기준을 적용한다는 뜻이다. 그래도 전체적으로 보면 AI와 사람의 채점 결과가 98% 일치했다. 이는 누가 1등이고 누가 꼴등인지를 판단하는 데 있어서는 거의 같은 결과를 냈다는 의미다.

5번의 시험을 각각 분석했을 때도 AI와 사람의 일치도는 62%에서 97% 사이였고, 평균 점수 차이는 0.03점에서 0.12점 정도로 매우 작았다. 다만 5개 시험 중 4개에서 통계적으로 의미 있는 차이가 나타났는데, 이는 AI가 사람과 약간 다른 방식으로 일관되게 채점한다는 것을 보여준다.

프로젝트 보고서 채점, 기술 부분에선 평균 0.2점씩 덜 줘

프로젝트 보고서를 채점할 때는 어땠을까? AI는 대부분의 항목에서 사람과 비슷하게 점수를 줬다. 서론, 관련 연구 소개, 보고서 형식 같은 부분에서는 차이가 거의 없었다. 특히 요약, 결론, 참고문헌 같은 부분은 모든 보고서에 대해 사람과 완전히 똑같은 점수를 줬다.

하지만 '연구 방법'과 '연구 결과' 부분에서는 차이가 있었다. AI는 연구 방법에 평균 1.89점, 연구 결과에 평균 1.75점을 줬는데, 사람은 각각 1.99점과 1.96점을 줬다. 연구 방법에서는 평균 0.1점, 연구 결과에서는 평균 0.2점 정도 AI가 더 낮은 점수를 준 것이다.

왜 이런 차이가 생길까? 연구팀이 감점 이유를 분석해봤더니 흥미로운 패턴이 발견됐다. AI는 '숫자로 된 결과가 부족하다'는 이유로 점수를 깎는 경우가 31%나 됐는데, 사람은 15%였다. 즉 AI는 데이터와 숫자를 중요하게 본다. 반면 사람 채점자는 '보고서 형식이나 표현'을 이유로 감점하는 비율이 25%였지만, AI는 8%에 불과했다. 또 사람은 '글쓰기 품질'이나 '결론이 부실하다'는 이유로 각각 10%씩 감점했는데, AI는 이런 항목을 거의 보지 않았다. 반대로 AI만 '연구의 한계를 언급하지 않았다'는 이유로 15%를 감점했다.

명확한 기준엔 강하지만 글쓰기 평가는 약해... 교수 보조 역할로 적합

이번 연구 결과를 보면 AI는 평가 기준이 명확할 때 사람과 비슷하게 채점한다는 것을 알 수 있다. 예를 들어 '관련 연구를 제대로 조사했는가', '연구 방법을 명확히 설명했는가' 같은 내용 중심 평가에서는 잘했다. 하지만 '글이 얼마나 읽기 쉬운가', '논리 전개가 매끄러운가' 같은 글쓰기 품질을 판단하는 데는 사람과 차이가 있었다.

연구팀은 누구나 사용할 수 있는 무료 채점 프로그램을 만들어 공개했다. 이 프로그램은 사용자가 문제 개수, 채점 기준, 만점 등을 자유롭게 설정할 수 있다. PDF 파일을 바로 채점할 수 있어서 사용하기도 편하다. 다른 과목이나 다른 학교에서도 쉽게 적용할 수 있게 만들었다.

비용도 매우 저렴하다. 50명의 학생이 14개 문제에 답한 시험을 채점하는 데 드는 비용이 1달러(약 1300원)도 안 된다. 특정 기술을 사용하면 비용을 3분의 1로 더 줄일 수도 있다. 많은 학생의 시험을 빠르고 일관되게 채점할 수 있다는 장점에 비하면 매우 적은 비용이다.

연구팀은 AI가 내용 중심의 평가에서는 효과적으로 작동하며, 학생 답안의 주요 장단점을 일관되게 찾아낸다고 밝혔다. 사람 채점자와 감점하는 이유가 겹치는 경우도 많아 실제로 활용할 수 있다는 뜻이다. 다만 AI는 데이터와 증거를 중시하는 반면, 사람은 표현 방식이나 전체적인 완성도를 더 본다는 점에서 서로 보완할 수 있다고 설명했다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. AI로 시험을 채점하면 비용이 얼마나 드나요?

A. 50명의 학생이 14개 문제에 답한 시험을 채점하는 데 1달러(약 1,300원)도 안 듭니다. 특정 기술을 사용하면 비용을 3분의 1로 더 줄일 수 있어서, 많은 학생의 시험을 채점하는 데도 부담이 없습니다.

Q2. AI는 어떤 평가에서 사람과 가장 비슷하게 점수를 주나요?

A. 평가 기준이 명확한 내용 평가에서 사람과 가장 비슷합니다. 예를 들어 '관련 연구를 제대로 조사했는가', '기술적 방법을 명확히 설명했는가' 같은 부분에서는 잘 맞지만, '글이 읽기 쉬운가', '논리가 매끄러운가' 같은 글쓰기 평가에서는 차이가 있습니다.

Q3. AI가 사람보다 점수를 낮게 주는 이유는 뭔가요?

A. AI는 숫자와 데이터를 중요하게 보는 경향이 있습니다. 연구 결과를 보면 '정량적 결과가 부족하다'는 이유로 감점하는 비율이 사람의 두 배 이상 높았습니다. 반면 보고서 형식이나 글쓰기 품질 같은 부분에서는 사람보다 관대합니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: LLM-as-a-Grader: Practical Insights from Large Language Model for Short-Answer and Report Evaluation

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 DPG 모아보기 전체 둘러보기
1/1
자유게시판 11월 21일 박스오피스
체험단 PC 게이밍 마우스 추천 에이수스 로그 하프 미니 코어 사용해보니
자유게시판 소설(小雪)의 아침, 건조함과 추위에 유의하세요.
자유게시판 이야 드디어 라데온Rx9060? 이거 당첨자 나왔네
취미 상품포럼 SF 덱빌딩 RPG "에코 제너레이션 2" - 공개 트레일러
자유게시판 모범택시 시즌3가 시작되었군요
푸드 상품포럼 달콤하고 무진장 맛있는 정화식품 `허니버터 오징어` (2)
소비자사용기 [구매기] 씽크북14 G7 ARP (thinkpad14 g7 amd버전)
체험단 도각도각 타건감이 편리한 게이밍키보드 에이서 OKR258 레몬밤
소비자사용기 rx9060xt
체험단 스위치 커스터마이징이 가능한, ASUS ROG HARPE MINI CORE 게이밍마우스 상세리뷰
유머게시판 린도 기차의 쓰레기 처리 방법
체험단 스틸시리즈 Arctis Gamebuds (한정판 투명 오렌지) - T1의 기운을 담은 게이밍 무선 이어 (1)
체험단 게이밍마우스추천 CHERRY MW5500 듀얼마스터 62g 무선게이밍마우스 실사용 리뷰 (1)
체험단 가성비 튜닝 PC케이스 찾는다면, 마이크로닉스 COOLMAX 크리스탈 후기 (1)
소비자사용기 사파이어 퓨어 RX9060XT 16GB 사용기 (1)
유머게시판 야구 구속 100KM 나온다는 여자 핸드볼 국대 에이스의 미친 재능 ㄷㄷ
자유게시판 UHD나 QHD 쓰는분들 잠깐만 해보시고 댓글좀 (1)
댕냥이게시판 중독성 있는 고양이의 거친 숨소리 (3)
체험단 갤럭시워치8, 갤럭시폴드7 맥세이프 무선충전기 파우트 3in1 HANDS7 실사용 후기 (1)
이 시간 HOT 댓글!
1/4