AI 에이전트가 실제 유상 프리랜서 프로젝트를 전문가 수준으로 끝내는 비율이 8개월 만에 2.5%에서 16.1%로 올랐습니다. 100건 중 2건 겨우 해내던 게, 이제 16건으로 늘어난 셈입니다.

AI 안전 연구기관 CAIS(Center for AI Safety)가 Scale Labs와 함께 만든 벤치마크 Remote Labor Index(RLI)의 최신 결과입니다. 3D·CAD, 건축, 그래픽 디자인, 영상, 오디오, 데이터 분석 등 실제 유상으로 의뢰된 240개 프로젝트를 놓고, AI 에이전트의 결과물이 전문가가 만든 결과물만큼 좋은지를 사람이 직접 채점했습니다.
출처: A Significant Increase in Digital Labor Automation – Center for AI Safety
8개월 만에 4배 넘게 뛴 자동화율
RLI가 처음 공개됐을 때 최고 성적은 2.5%였습니다. 이번에 새로 평가한 Fable 5는 16.1%로 역대 최고치를 기록했고, Opus 4.8이 8.3%, GPT-5.5가 6.3%로 뒤를 이었습니다. 직전 1위였던 4.17%(Claude Cowork로 구동한 Opus 4.6)와 비교해도 8개월 사이 4배 가까이 뛴 셈이니, 프론티어 모델의 발전 속도를 가늠할 수 있는 수치입니다.
물론 여전히 대부분의 작업은 실무 납품 기준에 못 미칩니다. 반지 디자인 프로젝트에서 Fable 5는 이전 모델들보다 확실히 나아졌지만, 자세히 보면 프롱(보석을 고정하는 발톱 부분) 디자인이 여전히 어설픕니다. 건축 도면 작업에서는 GPT-5.5가 그럴듯한 욕실 렌더링을 내놓았는데, 알고 보니 실제 3D 모델과 무관하게 이미지 생성기로 그럴싸하게 꾸며낸 가짜였습니다.
AI가 AI를 채점하려다 실패한 이유
사람이 일일이 채점하는 방식은 비용이 많이 들어서, 연구진은 AI 심사원으로 대체할 수 있을지 시험해봤습니다. 기존 모델들(사람 채점 기준 평균 3.3%)로 심사 기준을 맞춰놓고, 이번에 새로 나온 GPT-5.5와 Opus 4.8에 똑같은 기준을 적용해봤습니다. 결과는 GPT-5.5가 실제 6.25%인데 17.9%로, Opus 4.8이 실제 8.33%인데 18.8%로 채점됐습니다. 사람보다 2.5~3배 후하게 점수를 준 겁니다.
모델 간 순위는 AI 심사원도 정확히 맞혔지만, 절대적인 실력 차이는 크게 부풀렸습니다. 이유는 채점 작업 자체가 만만치 않은 에이전틱 과제이기 때문입니다. 결과물을 제대로 평가하려면 전문 소프트웨어를 직접 열어 조작하면서 클라이언트처럼 판단해야 하는데, 이건 지금 AI 에이전트가 가장 서툰 영역입니다. 욕실 렌더링이 가짜였다는 걸 잡아내려면 3D 프로젝트 파일을 직접 열어 실제 구조를 확인해야 하는데, 소프트웨어를 제대로 다루지 못하는 채점 AI는 이걸 놓칠 수밖에 없습니다.
이 프로젝트들에는 사람 전문가가 실제로 걸린 작업 시간 데이터도 딸려 있는데, 연구진이 이걸로 “작업이 오래 걸릴수록 AI가 더 못한다”는 통념을 검증해봤더니 RLI에서는 그 관계가 거의 성립하지 않았다고 합니다. 음악 채보처럼 사람에게 금방인 일도 AI는 못 하고, 반대로 코딩처럼 사람이 몇 시간 걸릴 일을 AI가 몇 분 만에 해내는 경우도 있다는 뜻입니다.

답글 남기기