핀란드 메트로폴리아 응용과학대학교 연구팀이 챗GPT 같은 생성형 AI 도구 때문에 기존 성적 평가 방식이 더 이상 통하지 않는다고 지적했다. 연구진은 제출된 결과물만 보고 학생 실력을 판단하던 방식 대신, 학습 과정을 여러 방법으로 확인하는 '교육적 다요소 평가(P-MFA)' 모델을 내놨다.
AI 문장 평가 문제가 대학 성적 평가에도 그대로 나타났다
연구진은 2021년 자연어 생성(NLG) 분야에서 이미 발견된 '대규모 정렬 불일치 문제'가 챗GPT 시대인 지금 대학 교육에서도 똑같이 벌어지고 있다고 봤다. 이 문제는 시스템이 이루려는 목표, 실제 사용한 방법, 성능을 재는 기준이 서로 맞지 않아서 평가가 애초 목표를 제대로 측정하지 못하는 현상이다. 당시 연구진이 2020년 ACL 학회 논문 10편을 무작위로 뽑아 조사했더니, 이 세 가지가 다 맞아떨어진 논문은 고작 1편뿐이었다.
대학 교육도 사정이 비슷하다. 교육에서 '문제 정의'는 학습 목표고, '방법'은 학생이 공부하는 과정, '평가'는 성적을 매기는 일이다. 이 셋이 따로 놀면, 그러니까 성적이 그럴듯한 제출물만 봐주고 진짜 머리를 썼는지는 안 봐주면 학습 평가가 엉망이 된다. 특히 챗GPT가 그럴듯하고 독창적으로 보이는 글을 바로바로 만들어내면서, 교수들은 학생이 낸 과제가 본인이 정말 이해한 걸 보여주는 건지 확신할 수 없게 됐다.
연구진은 "창의적 AI 시스템이 결과물을 만드는 속사정이 안 보이는 것처럼, AI시대의 학습 환경에 있는 학생들도 어떤 생각 과정을 거쳤는지 드러내지 않고 창의적 결과물을 낼 수 있다"며 "둘 다 평가자는 결과물은 받아보지만 그걸 만든 과정에는 손도 못 댄다"고 설명했다.
부정행위가 문제가 아니라, 평가 자체가 의미를 잃었다
핀란드 메트로폴리아 응용과학대학교에서는 교수들 사이에 생성형 AI 도구를 걱정하는 목소리가 커지고 있다. 많은 교수가 학생들이 새 기술로 부정행위를 하고 제대로 공부하지 않은 채 과목을 통과할까 봐 두려워했다. 물론 이 기술을 받아들이고 수업에 적극 쓰는 교수들도 있지만, 전체적으로는 우려가 크다.
연구진은 교수들의 불안이 단순히 학업 부정행위 걱정이 아니라 평가 자체가 의미를 잃은 데서 온다고 봤다. 에세이, 보고서, 프로젝트 같은 기존 평가 방법은 결과물이 학생이 머리 쓴 흔적을 보여준다는 전제로 굴러갔다. 그런데 생성형 AI 시대에는 이 전제가 깨졌다. 교수는 학생이 어떻게 답을 찾았는지, 그 생각이 본인 것인지 알고리즘 도움을 받은 건지 알 길이 없다.
연구진은 "교수들의 진짜 악몽은 학생들이 부정행위를 한다는 게 아니라 평가라는 행위 자체가 껍데기만 남았다는 것"이라며 "과제를 제대로 공부 안 하고도 해치울 수 있다면 성적은 공부를 얼마나 했는지가 아니라 도구를 얼마나 잘 쓰는지를 재는 꼴이 된다"고 짚었다. 결과물이 더 이상 학생의 실제 생각 과정과 확실히 이어지지 않으면 교육 시스템은 중심을 잃고, 학습은 사람을 바꾸는 게 아니라 형식만 차리는 일이 된다는 얘기다.
비밀번호 여러 개로 확인하듯, 학습도 여러 증거로 검증하자
연구진은 이 문제를 풀려고 '교육적 다요소 평가(P-MFA)' 모델을 내놨다. 이 틀은 다요소 인증 논리에서 아이디어를 땄다. 디지털 보안이 이제 비밀번호 하나만 믿지 않는 것처럼, 교육 평가도 시험이나 에세이 하나만 믿으면 안 된다는 거다.
P-MFA는 서로 보완하는 여러 '요소'로 학습을 확인한다. 각 요소는 능력의 다른 면을 본다. 학생이 뭘 아는지(지식), 뭘 만드는지(결과물), 뭘 할 줄 아는지(적용), 시간이 지나도 계속하는지(과정 연속성), 스스로 돌아보는지(자기평가), 실제 상황과 어떻게 연결하는지(상황 이해) 같은 것들이다. 이런 요소들을 합치면 교수와 학생이 함께 투명하고 개인별로 맞춤화되며 AI 악용도 막을 수 있는, 믿을 만한 다채널 학습 기록을 만들 수 있다.
연구진은 "P-MFA는 통제나 적발에 집중하는 대신 평가를 정렬로 바꾼다"며 "배워야 할 것, 실제로 배운 것, 평가받는 것이 다 진짜고 사람 중심인 교육 과정으로 모이게 만든다"고 설명했다.
기존 교육 이론과 결합해 실천 가능한 방법을 만들었다
P-MFA는 두 가지 교육 이론을 합친 것이다. 하나는 '건설적 정렬'이라는 기존 교육 이론이다. 이 이론은 학습 목표, 수업 방식, 평가 방법이 서로 잘 맞아떨어질 때 학생들이 제대로 배운다고 본다. 다른 하나는 '대규모 정렬 불일치 문제'인데, 이것은 목표와 방법과 평가가 따로 놀 때 생기는 문제를 지적한 것이다.
연구진은 P-MFA가 이 두 이론을 챗GPT 시대 교육에 맞게 적용한 방법이라고 설명했다. 건설적 정렬이 '어떻게 교육 과정을 짜야 하나'에 초점을 맞췄다면, P-MFA는 '어떻게 실제로 평가할 것인가'를 구체적으로 보여준다. 여러 가지 증거를 모아서 학습 목표와 실제 배운 내용이 일치하는지 확인하는 방식이다.
P-MFA의 핵심은 각 평가 요소가 서로를 검증한다는 점이다. 예를 들어 학생이 제출한 에세이가 훌륭해 보여도, 과정 기록이나 자기평가, 실제 적용 능력을 함께 보면 정말 본인이 이해하고 쓴 건지 알 수 있다. 이렇게 여러 각도로 확인하면 AI를 잘 쓰는 능력이 아니라 진짜 학습 참여도를 평가할 수 있다.
특히 AI는 개인적인 성찰이나 실제 상황과의 연결을 제대로 흉내 낼 수 없다. P-MFA는 바로 이런 사람만이 할 수 있는 영역에 평가를 집중시켜서 교육에 대한 신뢰를 되살린다는 게 연구진의 설명이다.
FAQ ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q. 왜 챗GPT 때문에 기존 평가가 문제가 되나요?
A. 챗GPT가 유창하고 독창적으로 보이는 글을 바로 만들 수 있어서, 학생이 낸 과제가 본인이 진짜 이해한 걸 보여주는 건지 확인할 방법이 없어졌습니다. 결과물만 봐서는 학생이 직접 썼는지 AI가 썼는지 구분할 수 없기 때문입니다.
Q. P-MFA 평가 방식을 쓰면 학생들은 어떻게 평가받나요?
A. 시험이나 과제 하나로 평가받는 게 아니라 여러 방법으로 평가받습니다. 제출한 결과물뿐 아니라 공부 과정, 실제 적용 능력, 스스로 돌아본 내용, 실제 상황과 연결하는 능력 등을 종합적으로 봅니다. 마치 인터넷 로그인할 때 비밀번호만 확인하는 게 아니라 휴대폰 인증까지 하는 것처럼, 여러 증거로 학생의 실력을 확인하는 방식입니다.
Q. AI 시대에 교수들이 가장 걱정하는 건 무엇인가요?
A. 단순히 학생들의 부정행위가 아닙니다. 연구진은 교수들의 진짜 고민이 성적이라는 것 자체가 의미를 잃었다는 점이라고 분석했습니다. 성적이 학생이 얼마나 배웠는지가 아니라 AI 도구를 얼마나 잘 쓰는지를 보여주게 되면서, 평가 행위 자체가 공허해졌다는 겁니다.
해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.
논문명: From NLG Evaluation to Modern Student Assessment in the Era of ChatGPT: The Great Misalignment Problem and Pedagogical Multi-Factor Assessment (P-MFA)
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기



