AI가 교수보다 더 깐깐해… AI한테 채점 맡겼더니, 학생 10명 중 4명 점수 떨어져 : 다나와 DPG는 내맘을 디피지

미국 에모리대학교 연구팀이 인공지능 챗봇 GPT-4o를 실제 대학 수업에 투입해 학생들의 시험과 보고서를 채점하는 실험을 진행했다. 그 결과, AI가 사람 채점자와 놀라울 정도로 비슷하게 점수를 매겼다. 특히 짧은 답안 시험에서는 절반 이상 완전히 똑같은 점수를 줬고, 전체적으로는 98%의 일치율을 보였다. 하지만 기술적인 내용을 평가할 때는 사람보다 점수를 짜게 주는 경향이 있다는 사실도 밝혀졌다.

50명 학생 시험 채점, 절반 이상 교수와 똑같은 점수

연구팀은 약 50명의 대학생이 수강한 언어학 수업에서 5번의 시험과 14개 팀의 프로젝트 보고서를 GPT-4o에게 채점하게 했다. 각 시험은 10~16개의 문제로 구성됐는데, 객관식이 아니라 학생들이 직접 답을 써야 하는 주관식 문제였다. 예를 들어 "어떤 경우에 이 기술을 사용하면 안 되나요?"처럼 학생 스스로 설명해야 하는 문제들이었다.

총 258개의 답안을 분석한 결과, GPT-4o는 55%의 경우 사람 채점자와 완전히 똑같은 점수를 줬다. 사람보다 높은 점수를 준 경우는 6.2%밖에 안 됐지만, 낮은 점수를 준 경우는 38.8%나 됐다. 이는 AI가 채점할 때 사람보다 조금 더 엄격한 기준을 적용한다는 뜻이다. 그래도 전체적으로 보면 AI와 사람의 채점 결과가 98% 일치했다. 이는 누가 1등이고 누가 꼴등인지를 판단하는 데 있어서는 거의 같은 결과를 냈다는 의미다.

5번의 시험을 각각 분석했을 때도 AI와 사람의 일치도는 62%에서 97% 사이였고, 평균 점수 차이는 0.03점에서 0.12점 정도로 매우 작았다. 다만 5개 시험 중 4개에서 통계적으로 의미 있는 차이가 나타났는데, 이는 AI가 사람과 약간 다른 방식으로 일관되게 채점한다는 것을 보여준다.

프로젝트 보고서 채점, 기술 부분에선 평균 0.2점씩 덜 줘

프로젝트 보고서를 채점할 때는 어땠을까? AI는 대부분의 항목에서 사람과 비슷하게 점수를 줬다. 서론, 관련 연구 소개, 보고서 형식 같은 부분에서는 차이가 거의 없었다. 특히 요약, 결론, 참고문헌 같은 부분은 모든 보고서에 대해 사람과 완전히 똑같은 점수를 줬다.

하지만 '연구 방법'과 '연구 결과' 부분에서는 차이가 있었다. AI는 연구 방법에 평균 1.89점, 연구 결과에 평균 1.75점을 줬는데, 사람은 각각 1.99점과 1.96점을 줬다. 연구 방법에서는 평균 0.1점, 연구 결과에서는 평균 0.2점 정도 AI가 더 낮은 점수를 준 것이다.

왜 이런 차이가 생길까? 연구팀이 감점 이유를 분석해봤더니 흥미로운 패턴이 발견됐다. AI는 '숫자로 된 결과가 부족하다'는 이유로 점수를 깎는 경우가 31%나 됐는데, 사람은 15%였다. 즉 AI는 데이터와 숫자를 중요하게 본다. 반면 사람 채점자는 '보고서 형식이나 표현'을 이유로 감점하는 비율이 25%였지만, AI는 8%에 불과했다. 또 사람은 '글쓰기 품질'이나 '결론이 부실하다'는 이유로 각각 10%씩 감점했는데, AI는 이런 항목을 거의 보지 않았다. 반대로 AI만 '연구의 한계를 언급하지 않았다'는 이유로 15%를 감점했다.

명확한 기준엔 강하지만 글쓰기 평가는 약해... 교수 보조 역할로 적합

이번 연구 결과를 보면 AI는 평가 기준이 명확할 때 사람과 비슷하게 채점한다는 것을 알 수 있다. 예를 들어 '관련 연구를 제대로 조사했는가', '연구 방법을 명확히 설명했는가' 같은 내용 중심 평가에서는 잘했다. 하지만 '글이 얼마나 읽기 쉬운가', '논리 전개가 매끄러운가' 같은 글쓰기 품질을 판단하는 데는 사람과 차이가 있었다.

연구팀은 누구나 사용할 수 있는 무료 채점 프로그램을 만들어 공개했다. 이 프로그램은 사용자가 문제 개수, 채점 기준, 만점 등을 자유롭게 설정할 수 있다. PDF 파일을 바로 채점할 수 있어서 사용하기도 편하다. 다른 과목이나 다른 학교에서도 쉽게 적용할 수 있게 만들었다.

비용도 매우 저렴하다. 50명의 학생이 14개 문제에 답한 시험을 채점하는 데 드는 비용이 1달러(약 1300원)도 안 된다. 특정 기술을 사용하면 비용을 3분의 1로 더 줄일 수도 있다. 많은 학생의 시험을 빠르고 일관되게 채점할 수 있다는 장점에 비하면 매우 적은 비용이다.

연구팀은 AI가 내용 중심의 평가에서는 효과적으로 작동하며, 학생 답안의 주요 장단점을 일관되게 찾아낸다고 밝혔다. 사람 채점자와 감점하는 이유가 겹치는 경우도 많아 실제로 활용할 수 있다는 뜻이다. 다만 AI는 데이터와 증거를 중시하는 반면, 사람은 표현 방식이나 전체적인 완성도를 더 본다는 점에서 서로 보완할 수 있다고 설명했다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. AI로 시험을 채점하면 비용이 얼마나 드나요?

A. 50명의 학생이 14개 문제에 답한 시험을 채점하는 데 1달러(약 1,300원)도 안 듭니다. 특정 기술을 사용하면 비용을 3분의 1로 더 줄일 수 있어서, 많은 학생의 시험을 채점하는 데도 부담이 없습니다.

Q2. AI는 어떤 평가에서 사람과 가장 비슷하게 점수를 주나요?

A. 평가 기준이 명확한 내용 평가에서 사람과 가장 비슷합니다. 예를 들어 '관련 연구를 제대로 조사했는가', '기술적 방법을 명확히 설명했는가' 같은 부분에서는 잘 맞지만, '글이 읽기 쉬운가', '논리가 매끄러운가' 같은 글쓰기 평가에서는 차이가 있습니다.

Q3. AI가 사람보다 점수를 낮게 주는 이유는 뭔가요?

A. AI는 숫자와 데이터를 중요하게 보는 경향이 있습니다. 연구 결과를 보면 '정량적 결과가 부족하다'는 이유로 감점하는 비율이 사람의 두 배 이상 높았습니다. 반면 보고서 형식이나 글쓰기 품질 같은 부분에서는 사람보다 관대합니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: LLM-as-a-Grader: Practical Insights from Large Language Model for Short-Answer and Report Evaluation

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

자유게시판	11월 21일 박스오피스	M4 하늘을담은와인
체험단	PC 게이밍 마우스 추천 에이수스 로그 하프 미니 코어 사용해보니	L5 너내가산다
자유게시판	소설(小雪)의 아침, 건조함과 추위에 유의하세요.	M9 천사다나와
자유게시판	이야 드디어 라데온Rx9060? 이거 당첨자 나왔네	L4 나만안되네
취미 상품포럼	SF 덱빌딩 RPG "에코 제너레이션 2" - 공개 트레일러	L10 휘룽
자유게시판	모범택시 시즌3가 시작되었군요	M1 아피홀릭
푸드 상품포럼	달콤하고 무진장 맛있는 정화식품 `허니버터 오징어` (2)	M20 야간순찰™
소비자사용기	[구매기] 씽크북14 G7 ARP (thinkpad14 g7 amd버전)	L3 한둘레
체험단	도각도각 타건감이 편리한 게이밍키보드 에이서 OKR258 레몬밤	L7 스마일아이콘
소비자사용기	rx9060xt	L1 아산이랑
체험단	스위치 커스터마이징이 가능한, ASUS ROG HARPE MINI CORE 게이밍마우스 상세리뷰	L7 TECHBUG
유머게시판	린도 기차의 쓰레기 처리 방법	L11 kndol
체험단	스틸시리즈 Arctis Gamebuds (한정판 투명 오렌지) - T1의 기운을 담은 게이밍 무선 이어 (1)	L8 뚜비뚜비뚜뚜바
체험단	게이밍마우스추천 CHERRY MW5500 듀얼마스터 62g 무선게이밍마우스 실사용 리뷰 (1)	L3 NA91XHT4TZSS8G
체험단	가성비 튜닝 PC케이스 찾는다면, 마이크로닉스 COOLMAX 크리스탈 후기 (1)	L6 냠랑이
소비자사용기	사파이어 퓨어 RX9060XT 16GB 사용기 (1)	L1 버팔로2371
유머게시판	야구 구속 100KM 나온다는 여자 핸드볼 국대 에이스의 미친 재능 ㄷㄷ	L7 공동유머구역
자유게시판	UHD나 QHD 쓰는분들 잠깐만 해보시고 댓글좀 (1)	L14 웅끼끼
댕냥이게시판	중독성 있는 고양이의 거친 숨소리 (3)	L10 Loretta
체험단	갤럭시워치8, 갤럭시폴드7 맥세이프 무선충전기 파우트 3in1 HANDS7 실사용 후기 (1)	L8 야콤
유머게시판	옛날 공룡들은 하루 종일 무엇을 하고 살았을까	L10 Loretta
유머게시판	아이는 그 후로 강아지 좋아할 수 없게 되었다	L10 Loretta
유머게시판	죽기 전 주마등이란 게 있을까 (2)	L10 Loretta
컴퓨터 상품포럼	UNDERkg 채널의 가성비 노트북?? 맥북 프로 14인치 M5 왤케 맘에들어요 ㅋㅋ 영상	L20 느낌하나
컴퓨터 상품포럼	잇섭님의 이번엔 LG 스탠바이미 진짜 잡음? ㅋㅋ 삼성에서 이갈고 만든 더 무빙스타일 비교해보기! 영상	L20 느낌하나
댕냥이게시판	꿀잠자는 냥이 (3)	M4 행운사냥
구매가이드	주방엔 이 패드, 욕실엔 저 패드? 역대급 맞춤형 229만 원짜리 로봇청소기 [이 구역의 미친X]	다나와
ㄷㅂㄷ	겨울만 되면 얼어 죽는 당신을 위한 '겨울용품템!' (1)	다나와
댕냥이게시판	장난감에 격하게 리액션 해주는 아깽이 (3)	M4 행운사냥
소비자사용기	SAPPHIRE 라데온 RX 9060 XT PULSE OC D6 8GB 초간단 사용기 (1)	L1 나무늘보4407
자유게시판	금요일 저녁이네요 (1)	L20 아모스1
당첨후기	[수령 인증] 2025 흑백 콤퓨타 PC 갬성 전쟁, 빙글빙글 룰렛 이벤트 (6)	M4 행운사냥
자유게시판	길가다가 큰 소리나서 봤더니만 이상한 노인이... (2)	L11 Ohhana
당첨후기	2025 흑백 콤퓨타 ~ 룰렛에서 당첨된 알파스캔 AOC AM402 ~ 모니터암 도착 (9)	M20 야간순찰™
입소문쇼핑	[네이버] HP 가성비 끝판왕 사무용 인강용 Ai 완벽 노트북 [55만원대]	L5 참새3496
입소문쇼핑	[네이버] ASUS 노트북 라이젠5 가성비 사무용 포토샵 대학생 직장인 인강용 (58만혜택가)	L5 참새3496
취미 상품포럼	블소네오 클래스 하나 나옵니다 (2)	L5 홍둘삼
입소문쇼핑	[네이버] 2025년 LG그램 노트북 AI AMD 크라켄5 노트북 [114만원대]	L5 참새3496
입소문쇼핑	[네이버] ASUS 노트북 비보북15 사무용 포토샵 대학생 직장인 인강용 [49만원대]	L5 참새3496
입소문쇼핑	[네이버] HP노트북 네로 라이젠5 사무용 포토샵 대학생 [45만원대 혜택가]	L5 참새3496
입소문쇼핑	[네이버] 레노버 노트북 아이디어패드 라이젠5-8640HS Ai 램8GB NVME256GB (혜택가 58만원대)	L5 참새3496
체험단	게이밍 키보드 추천 체리 엑스트리파이 MX 8.2 PRO TMR TKL 래피드 트리거 자석축 키보드 후기 (1)	L6 핑크복숭아S2
입소문쇼핑	[네이버] HP빅터스 게이밍 RTX4060 FC온라인 디아블로 배틀그라운드 노트북(110만혜택가)	L5 참새3496
전문가 리뷰	MSI MAG 274UPDF800 E16M : 더 많은 유저가 경험하게 될 미니 LED 시대	쿨엔조이
입소문쇼핑	[네이버] LG노트북 인텔 i5 가성비 대학생 노트북 (59만혜택가)	L5 참새3496
쇼핑뉴스	알파스캔, 27형 240Hz 신제품 ‘27F60G 블랙’ 출시 행사 진행	다나와
일반뉴스	프리오텍 '지우샥 JF120R Emerald' 업그레이드 이벤트 진행	다나와
신상품뉴스	MSI, 부드러운 화면과 멀티 장르 대응력을 강화한 ‘MSI MAG 274F’ 출시	다나와
입소문쇼핑	플리스 자켓 빅사이즈 20,000원 배송비 3,000원	L6 NAPMKMCURUTXO0
취미 상품포럼	G-STAR TV의 지스타 2025 게임 코스프레 어워즈 영상	L20 느낌하나
신상품뉴스	서린씨앤아이 '어페이서 AST280X 256GB/512GB' M.2 SSD 출시	다나와
신상품뉴스	알파스캔, 압도적인 4K 디테일과 전문가급 색정확도 27형 모니터 ‘AOC U27B35’ 출시	다나와
신상품뉴스	서린씨앤아이 'HYTE PCIe 5.0 하이퍼 라이저' 케이블 출시	다나와
자유게시판	주말의 시작이군요 (3)	L14 웅끼끼
취미 상품포럼	게임잡지 GTOPIA 채널의 신더시티·아이온2·K-콘솔까지 전부 해봤습니다 – 지스타 2025 종합 시연 후기 \| 아이온2는 무려 3시간 기다림... 영상	L20 느낌하나
취미 상품포럼	홍플러스 채널의 2025 G-STAR 현장 분위기는?! 신더시티 , 이블베인 체험 후기 포함 산나비 DLC / 나혼렙 출시되면 해야겠네ㅜ NC 아이온2 부스 인파 실화임? 영상	L20 느낌하나
신상품뉴스	이에프엠네트웍스, 2.5Gbps 탑재 BE3600급 벽/천장 설치형 무선 AP ‘ipTIME RING-BE3600plus’ 출시	다나와
신상품뉴스	마이크로닉스, 라운드 RGB 쿨링팬 ‘ICEROCK C30 120 시리즈’ 4종 출시	다나와
일반뉴스	대원씨티에스, ASRock 라데온 RX7600 · RX6600 구매 인증 이벤트	다나와
신상품뉴스	알파스캔, 34형 21:9 울트라와이드 180Hz 커브드 게이밍 ‘CU34G4’ 출시	다나와
ㄷㅂㄷ	이게 된다고? 애플 뮤직 역대급 신기능 8가지!	다나와
자유게시판	원주 반계리 은행나무 (6)	L13 이 방 인
자유게시판	저녁 맛있게 드세요 (5)	L14 otosan
취미 상품포럼	파판14 신규 유저 접속 보상 진짜 예쁜데 24일까지래요!! (1)	L5 NA6DGHEM0WYU7N
일반뉴스	AMD, 시스코·휴메인과 세계 최고 수준의 AI 인프라 제공을 위한 합작 법인 설립 (1)	다나와
소비자사용기	한성 TFG27Q32PM1152Z QHD Mini LED 모니터 간단사용기 (2)	L3 다음차는전기차
자유게시판	25센트 동전이 생겨난 이유 (5)	L20 야거커티스
자유게시판	소고기 국밥 (6)	L20 야거커티스
자유게시판	일교차 크네요 (6)	L17 HomeRun
일반뉴스	‘아이모’, 19년 만의 첫 신규 직업 ‘무도가’ 출시 기념 라이브 진행 (1)	게임동아
일반뉴스	“이런 것까지 돼?” AI 날개 달고 진화하는 게임 (1)	게임동아
일반뉴스	블리자드 ‘오버워치 2’ 신규 근접 공격 영웅 ‘벤데타’, 27일 사전 체험 가능 (1)	게임동아
일반뉴스	넷마블, '페이트/그랜드 오더' 출시 8주년 기념 캠페인 (1)	게임동아
일반뉴스	라이엇, PC방 요금 상승 논란에 "15년간 비용 인상 없었다" (1)	게임동아
유머게시판	한국 민속촌, 아이 달래주는 처녀귀신 (4)	M5 plc-wave
전문가 리뷰	마이크로닉스 COOLMAX V6 WHITE : 겨울날에 딱 어울리는 화이트 케이스! (1)	쿨엔조이
자유게시판	중국스러운 차선 변경 방법 (7)	M5 plc-wave
자유게시판	도쿄역 한국식당 1,000엔 제육볶음 정식 퀄리티 (15)	M5 plc-wave
소비자사용기	좋습니다!! (1)	L1 NA6LO0HRCLD4OB
소비자사용기	ASUS PRIME 라데온 RX 9070 OC D6 16GB 사용기 (4)	L3 다음차는전기차
자유게시판	헉 경매... (13)	L19 rmaksenwk
자유게시판	전국노래자랑 영양 고추아가씨 (8)	M5 plc-wave
자유게시판	다나와 앱 실행할 때마다 (8)	L9 TRIALS
입소문쇼핑	롯데ON Western Digital WD RED Plus 7200/256M(10TB, WD101EFBX) (445,000/무료배송) 구매찬스	쇼핑봇
전문가 리뷰	2.5Gbps 유선 지원 & 와이파이7 BE3600 지 무선 AP, EFM ipTIME RING-BE3600plus (1)	브레인박스
취미 상품포럼	카발레드 지금 스트리머 뽑는 중이라 (2)	L3 라마2168
전문가 리뷰	돈 스크림 투게더, 친구가 비명 지르면 내가 죽는다	게임메카
취미 상품포럼	[방방곡곡 #860] 잠실 롯데월드몰 Joyful Holiday in 롯데월드몰 슈퍼 마리오 팝업 행사장 #1	L20 느낌하나
소비자사용기	SAPPHIRE 라데온 RX 9060 XT PULSE OC D6 8GB (2)	L1 참새3782
체험단	조립편의성 최고! 싸이번 SD600 RGB 블랙 가성비케이스 리뷰 (1)	L6 혀니아부지
기획뉴스	책상 위 꽉 찬 존재감, '작은 거인' SFF PC 시대가 올까? (2)	다나와
입소문쇼핑	[네이버 LIVE] LG 잇섭의 앵콜 핫IT슈 라이브 재방송 OLED 4K 32GX850A 외 2종 24~32인치 게이밍모니터 특가 11/23 (일) 11~12시	L6 유어아뒤
자유게시판	어느 매크로 유저의 언론플레이 시도 (4)	L10 Loretta
자유게시판	오늘도 커피 2잔을 때려 부으며 버텨보고 있는데 넘 졸리네요. (5)	L20 느낌하나
기획뉴스	[정보/루머] 2026년은 사골의 시대? 및 뜬금없는 지포스 RTX 60 루머 등장 등 (2)	다나와
자유게시판	11/20(목) 4,153보, 11/21(금) 6,778보를 걸었습니다. (4)	L20 느낌하나
소비자사용기	가격 대비 성능 훌륭한 144Hz 게이밍! 주연테크 X27F 144 모니터 리뷰 (3)	L7 테크츄
전문가 리뷰	데자와 분말스틱을 품고 다니는 사람 (1)	마시즘
일반뉴스	설치-화질-편의성 강화 4K 홈 프로젝터, 벤큐 TK705i/ TK705STi 국내 첫 공개	보드나라
ㄷㅂㄷ	9800X3D 같은 고성능 CPU의 핵심 캐시로 알아보는 인기 CPU와 성능 향상의 관계 [PC흥망사 161]	보드나라

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

AI가 교수보다 더 깐깐해… AI한테 채점 맡겼더니, 학생 10명 중 4명 점수 떨어져

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

AI가 교수보다 더 깐깐해… AI한테 채점 맡겼더니, 학생 10명 중 4명 점수 떨어져

공유하기

공감/비공감