AI가 드디어 전문가를 능가했습니다. 스프레드시트를 만들고, 프레젠테이션을 디자인하고, 복잡한 코드를 작성하는 실무 영역에서 말이죠.

OpenAI가 GPT-5.2를 출시했습니다. 이번 모델의 핵심은 “전문 지식 노동(professional knowledge work)”에 특화됐다는 점입니다. 44개 직업군을 대상으로 한 GDPval 벤치마크에서 GPT-5.2 Thinking은 전문가와의 비교 평가 중 70.9%에서 승리하거나 동등한 성과를 냈습니다. OpenAI의 첫 “전문가 수준” 모델이죠.
출처: Introducing GPT-5.2 – OpenAI
11배 빠르고, 비용은 1%
숫자가 더 놀랍습니다. GPT-5.2 Thinking은 GDPval 테스트 작업을 전문가보다 11배 이상 빠르게 수행했고, 비용은 1% 미만이었습니다. 평가에 참여한 한 심사위원은 이렇게 말했죠. “출력 품질의 눈에 띄는 도약입니다. 전문 회사의 직원들이 만든 것처럼 보이고, 레이아웃과 조언이 놀랍도록 잘 설계되어 있습니다.”
실무에서 바로 체감할 수 있는 개선도 많습니다. 투자은행 주니어 애널리스트의 스프레드시트 모델링 작업에서 GPT-5.2 Thinking은 GPT-5.1보다 평균 9.3%포인트 높은 점수(68.4%)를 기록했습니다. Fortune 500 기업의 재무제표 모델을 만들거나 LBO(leveraged buyout) 모델을 구축하는 작업에서 형식과 인용을 제대로 갖춘 결과물을 내놨다는 의미입니다.
코딩 능력도 크게 향상됐습니다. SWE-Bench Pro에서 55.6%를 기록하며 새로운 최고 성능을 달성했고, 특히 프론트엔드 개발과 3D UI 작업에서 두드러진 개선을 보였습니다. 초기 테스터들은 “복잡하거나 비전통적인 UI 작업에서 훨씬 강력해졌다”고 평가했습니다.
환각 30% 감소, 긴 문맥도 정복
신뢰성도 개선됐습니다. ChatGPT의 익명화된 쿼리 세트에서 GPT-5.2 Thinking의 오류 응답이 GPT-5.1 대비 30% 감소했습니다. 리서치, 작성, 분석, 의사결정 지원 등 일상적인 지식 작업에서 실수가 줄어든다는 뜻이죠.
긴 문맥 이해 능력도 획기적으로 개선됐습니다. OpenAI MRCRv2 벤치마크에서 최고 성능을 기록했고, 특히 4-needle MRCR 변형에서 256k 토큰까지 거의 100% 정확도를 달성한 첫 모델입니다. 수십만 토큰에 걸친 보고서, 계약서, 연구 논문, 다중 파일 프로젝트를 다루면서도 일관성과 정확성을 유지한다는 의미입니다.
비전 능력도 강화됐습니다. 차트 추론과 소프트웨어 인터페이스 이해에서 오류율이 절반으로 줄었습니다. 대시보드, 제품 스크린샷, 기술 다이어그램, 시각 보고서를 더 정확하게 해석할 수 있게 됐죠. 이미지 내 요소의 공간적 배치를 이해하는 능력도 향상되어, 마더보드 같은 복잡한 이미지에서도 각 구성요소의 위치를 더 정확하게 파악합니다.
과학과 추론의 새로운 경지
과학 연구 지원 능력도 눈에 띕니다. GPQA Diamond(대학원 수준 질문 벤치마크)에서 GPT-5.2 Pro는 93.2%를 기록했고, 전문가급 수학 평가인 FrontierMath에서는 40.3%의 문제를 해결하며 새로운 최고 성능을 달성했습니다.
범용 추론 능력을 측정하는 ARC-AGI-1 벤치마크에서 GPT-5.2 Pro는 90% 문턱을 넘은 첫 모델이 되었습니다. 작년 o3-preview의 87%를 개선하면서도 비용은 약 1/390로 줄였습니다. 더 어려운 ARC-AGI-2에서도 GPT-5.2 Pro는 54.2%를 기록하며 새로운 최고점을 찍었죠.
전문 지식 노동의 변곡점
GPT-5.2가 중요한 이유는 단순히 성능 수치 때문이 아닙니다. “전문가 수준”이라는 기준을 처음으로 넘어섰기 때문입니다. 물론 모든 작업을 완벽하게 수행하는 건 아니고, OpenAI도 “중요한 작업은 반드시 재확인하라”고 당부합니다.
하지만 이번 릴리스는 AI가 단순 보조 도구를 넘어 실제 업무의 상당 부분을 담당할 수 있는 시점에 가까워졌음을 보여줍니다. 특히 인간의 감독 하에서 작동할 때, GPT-5.2는 스프레드시트 작성부터 코드 리팩토링, 문서 분석까지 광범위한 전문 업무에서 실질적인 생산성 향상을 가져올 수 있습니다.
ChatGPT Enterprise 사용자들은 이미 AI로 하루 40-60분을 절약하고 있고, 헤비 유저는 주당 10시간 이상을 아낀다고 합니다. GPT-5.2는 이 시간을 더 늘릴 것입니다. 전문 지식 노동의 판도가 바뀌는 변곡점을 우리는 지금 목격하고 있는지도 모릅니다.

답글 남기기