GPT-5가 전문가 수준 작업의 40.6%에서 인간만큼 또는 더 나은 성과를 보였고, Claude Opus 4.1은 49%에 달한다는 벤치마크 결과가 나왔습니다. 하지만 이 숫자 뒤에 숨겨진, 헤드라인이 절대 말해주지 않는 이야기가 있습니다.

핵심 포인트:
- 밀수입된 지능의 실체: AI 성과 뒤에는 문제 선정, 프롬프트 설계, 평가 기준 설정 등 방대한 인간의 작업이 숨어 있음. 벤치마크 하나를 만들기 위해 전문 작업자들이 44개 직업군을 선정하고 상세한 시나리오를 작성
- 벤치마크와 실제 업무의 간극: 실제 업무는 문제 자체가 바뀌고, 맥락을 추론해야 하며, 무엇이 좋은 결과인지조차 불분명한 역동적 환경. 테스트처럼 체계적으로 진행되지 않음
- 할당 경제의 부상: AI 시대에 필요한 건 작업 수행이 아닌 ‘무엇을 할지 결정’, ‘작업 범위 설정’, ‘리소스 선택’, ‘품질 판단’ 같은 새로운 형태의 인간 역할
AI가 드디어 전문가를 따라잡았다?
지난달 OpenAI가 발표한 GDPval이라는 벤치마크가 화제였습니다. 이 벤치마크는 AI가 실제 전문가 수준의 작업을 얼마나 잘 수행하는지 측정하는데요. 44개 직업군에서 뽑은 실무 과제를 AI에게 맡겨본 거죠.
결과가 놀라웠습니다. GPT-5는 전체 작업의 40.6%에서 인간 전문가만큼 또는 더 나은 성과를 냈고, Claude Opus 4.1은 무려 49%를 기록했습니다. 거의 절반이에요.
Axios는 “AI가 인간 업무를 따라잡고 있다”고 보도했고, Fortune은 “AI 모델이 이미 절반의 작업에서 전문가만큼 좋다”는 헤드라인을 뽑았습니다. 이쯤 되면 “드디어 우리가 우리의 대체자를 훈련시켜왔구나” 같은 생각이 들 법도 합니다.
하지만 Every의 공동창업자이자 CEO인 Dan Shipper는 최근 Chain of Thought 칼럼에서 전혀 다른 이야기를 꺼냅니다. “제대로 읽으면, 이 사례들은 오히려 인간이 할 일이 더 많아졌다는 걸 보여준다”고요.

‘밀수입된 지능’이 뭐길래
Dan Shipper가 제시한 핵심 개념이 바로 “Smuggled Intelligence”, 그러니까 밀수입된 지능입니다. AI가 보여준 놀라운 성과 뒤에는 보이지 않는 엄청난 양의 인간 작업이 숨어있다는 거예요.
GDPval을 자세히 뜯어보면 이게 뭔 말인지 확실히 보입니다. 먼저 누군가는 이 벤치마크를 만들어야겠다고 결정했어야 합니다. 그리고 전문 “작업 작성자”들이 GDP에서 가장 큰 9개 섹터에서 44개 직업을 골라냈고요.
여기서 끝이 아닙니다. 각 직업마다 구체적인 시나리오를 만들어야 했어요. 예를 들어 도매 영업 분석가 역할을 테스트한다면? 프롬프트에는 상황 설명, 데이터 구조, 비즈니스 규칙, 산출물까지 빠짐없이 명시됩니다. 엑셀 파일의 정확한 컬럼명을 알려주고, “어떤 제품은 개별 배송되지만 어떤 제품은 특정 크기의 박스 단위로만 배송된다”는 회사의 포장 규칙까지 세세하게 설명해줘야 하죠.
물론 AI가 이 모든 지시사항을 따를 수 있다는 것 자체가 대단한 발전입니다. 하지만 생각해보세요. 이렇게 완벽하게 준비된 프롬프트를 만드는 것 자체가 전문적인 작업 아닌가요?
실제 업무는 벤치마크처럼 착하지 않다
더 중요한 문제가 있습니다. 실제 업무는 이렇게 체계적으로 돌아가지 않는다는 거예요.
벤치마크는 직업을 테스트로 축소시킵니다. 문제가 명확하고, 데이터가 정리되어 있고, 규칙이 미리 정의되어 있죠. 하지만 진짜 직장에서는요? 문제가 중간에 바뀝니다. 맥락을 스스로 유추해야 합니다. 무엇이 ‘좋은’ 결과인지조차 사람마다 의견이 다릅니다.
예를 들어볼게요. 벤치마크에서는 “고객 주문 엑셀 파일을 감사해서 가격 불일치와 포장 오류를 찾아 보고서로 정리하라”고 명확히 지시합니다. 하지만 실제로는 어떤가요? 상사가 “이번 분기 주문 건들 좀 확인해봐”라고만 말할 수도 있습니다. 뭘 확인하라는 건지, 어떤 형식으로 보고할지, 어느 정도 깊이까지 파야 하는지 스스로 판단해야 하죠.
이런 역동적이고 애매모호한 환경에서 일하려면, 결국 누군가는 AI에게 무엇을 시킬지 결정하고, 작업 범위를 정하고, 필요한 리소스를 선택하고, 결과물이 제대로 나왔는지 판단해야 합니다.
그런데 이게 바로 일 아닌가요?
할당 경제에 오신 걸 환영합니다
Dan Shipper는 이를 “할당 경제(Allocation Economy)”라고 부릅니다. 과거 지식 경제에서는 정보를 아는 것, 분석하는 것이 중요했다면, 이제는 무엇을 할지 결정하고, 작업을 설계하고, 리소스를 배분하고, 품질을 판단하는 능력이 핵심이 된다는 거예요.
GDPval 같은 벤치마크를 만드는 과정을 보면 이게 확실히 보입니다. 어떤 직업을 테스트할지 선택하고, 시나리오를 구조화하고, 프롬프트를 설계하고, AI의 결과물을 평가하는 일. 이 모든 게 엄청난 인간의 노동이 필요한 작업들이에요.
결국 AI가 발전할수록, 이런 종류의 일이 더 많이 필요해집니다. AI를 효과적으로 활용하려면 문제를 정의하고, 올바른 질문을 던지고, 결과를 해석할 수 있는 사람이 있어야 하니까요.
일자리가 사라진다고? 천만에
그래서 다음번에 “AI가 모든 일자리를 자동화한다”는 헤드라인을 보면, 잠깐 멈춰서 생각해보세요.
숫자는 거짓말을 하지 않지만, 맥락을 빼면 오해를 만듭니다. GPT-5가 40%의 작업에서 전문가 수준이라는 건 사실이에요. 하지만 그 40%를 가능하게 만든 건 누구일까요? 문제를 정의하고, 데이터를 준비하고, 프롬프트를 설계하고, 결과를 평가한 사람들입니다.
AI가 더 똑똑해질수록, 그 지능을 제대로 활용할 수 있는 인간의 역할은 더 중요해집니다. 일이 사라지는 게 아니라 변화하는 거예요. 직접 분석하는 대신 AI에게 무엇을 분석시킬지 결정하고, 직접 작성하는 대신 AI에게 무엇을 쓰게 할지 지시하고, 결과물이 실제로 쓸모있는지 판단하는 일로요.
그러니까 앞으로도 할 일은 충분히 많을 겁니다. 다만 그 일의 모습이 달라질 뿐이죠.
답글 남기기