AI가 에세이를 채점한다는 건 이제 낯선 이야기가 아닙니다. 그런데 캠브리지 연구팀이 실제로 테스트해보니, AI는 뛰어난 글을 뛰어나다고 알아보지 못했습니다. 오히려 문장이 길고 어휘가 다양할수록 높은 점수를 줬는데, 그 기준은 AI가 글을 잘 쓰도록 훈련받은 방식과 정확히 일치했습니다.

캠브리지 대학교 심리학자와 AI 전문가들로 구성된 OpRaise 프로젝트 팀이 최신 AI 모델 세 종류(Claude Opus 4.6, GPT-5.4, Gemini 3 Flash)로 영국 세 개 대학 학부생 에세이 761편을 채점했습니다. 결과를 인간 채점자의 공식 점수와 비교 분석한 이 연구는 2026년 5월 발표됐습니다.
출처: AI not yet good enough to mark university essays, rewarding ‘style over substance’ – University of Cambridge
절반밖에 맞추지 못한 AI
AI가 인간 채점자와 같은 등급(1등급, 2:1, 2:2 등)을 매긴 비율은 대학별로 35~65%에 그쳤습니다. 캠브리지 에세이는 63%, 노팅엄은 53%, 맨체스터 메트로폴리탄은 35%였습니다.
연구팀은 이 격차가 채점 범위와 관련이 있다고 봤습니다. 인비질레이션 시험(시험장 감독 시험)이 중심인 캠브리지 에세이는 점수 분포가 좁았고, 과제 비중이 높은 맨체스터 메트로폴리탄 에세이는 넓었습니다. 즉 AI는 점수가 비슷한 집단에서는 비교적 선방하지만, 다양한 수준이 섞여 있을수록 크게 흔들렸습니다.
더 핵심적인 문제는 따로 있었습니다. AI는 인간이 최고 점수를 준 에세이를 과소평가하고, 최하위 에세이를 과대평가하는 경향을 일관되게 보였습니다. 연구팀은 이를 ‘중앙 집중 편향(central tendency bias)’이라 불렀습니다. 판단이 가장 중요한 경계 지점, 즉 1등급과 2:1 경계, 혹은 합격과 불합격 경계에서 AI가 가장 부정확했다는 뜻입니다.
세 AI 모델은 서로 비슷한 점수를 줬지만, 인간과는 멀었습니다. 어떤 모델인지보다, AI라는 구조 자체의 문제임을 시사합니다.
AI는 왜 이렇게 채점할까
연구팀이 발견한 공통점은 하나였습니다. 모든 AI 모델이 에세이의 언어적 형식에 과민하게 반응했다는 점입니다. 에세이가 길수록, 어휘가 다양할수록, 문장이 복잡할수록 점수가 올라갔습니다. 이런 요소들은 학문적 논리나 사고의 깊이와는 무관한 경우가 많습니다.
이 발견은 단순한 채점 실수가 아닙니다. AI가 언어적 형식에 높은 점수를 주도록 훈련받았기 때문입니다. RLVR(검증 보상 강화학습)처럼 AI가 정답에 도달할 때 사용한 언어 패턴이 강화되는 방식으로 훈련된 모델은, 길고 복잡하고 다채로운 언어를 ‘잘 쓴 글’의 신호로 학습합니다. AI가 글을 생성할 때 선호하는 방식이 그대로 채점 기준이 된 셈입니다.
다르게 말하면, AI가 에세이를 평가하는 기준은 AI가 에세이를 쓰는 방식과 같습니다. AI가 스스로 쓴 글을 높이 평가하는 구조입니다.
점수가 아니라 관계의 문제
연구에 참여한 학생과 교수들은 AI 채점에 명확한 거부감을 드러냈습니다. 학생들은 AI가 자신의 글을 평가한다면 속는 느낌이 들 것이라 했고, 교수들은 AI 채점이 신뢰와 전문적 판단, 그리고 교육 관계 자체를 약화시킬 수 있다고 경고했습니다.
연구팀은 AI를 채점 도구로 쓰기엔 아직 너무 얕고 일관성이 없다고 결론 냈습니다. 대신 오류 탐지, 피드백 초안 작성, 또는 AI와 인간 점수 사이에 큰 차이가 날 경우 추가 검토를 요청하는 신호로 활용하는 것이 현실적이라고 제안합니다.
채점은 점수를 분배하는 시스템이 아닙니다. 교육적 의미가 만들어지는 과정이고, 학생이 자신이 인식된다는 느낌을 받는 순간입니다. 이번 연구는 AI가 그 역할을 대신하기엔 구조적으로 다른 방향을 보고 있음을 보여줍니다.

답글 남기기