AI Sparkup

복잡한 AI 세상을 읽는 힘 ⚡

AI 에이전트가 7시간짜리 전문가 업무를 혼자 처리하는 시대가 왔다

OpenAI가 14년 경력 전문가들이 4-7시간 걸리는 실제 업무 과제로 AI를 테스트했더니, 최신 모델들이 인간 전문가와 거의 동등한 성과를 냈습니다. 벤치마크 점수가 아닌 실제 경제적 가치를 창출하는 업무에서 말이죠.

OpenAI GDPval 테스트 결과
OpenAI GDPval 테스트: AI가 전문가 업무에서 인간과 거의 동등한 수준 도달 (출처: OpenAI)

핵심 포인트:

  • 14년 경력 전문가 업무를 AI가 수행: OpenAI의 GDPval 테스트에서 금융, 법률, 의료 등 44개 직종의 4-7시간짜리 실무 과제를 AI가 인간 전문가와 거의 동등한 수준으로 완수
  • 학술 논문 재현부터 무의미한 파워포인트까지: Claude Sonnet 4.5가 복잡한 경제학 논문의 데이터 분석을 독립적으로 재현하는가 하면, 같은 기술로 불필요한 17개 파워포인트를 만들어내는 양날의 검
  • 5년간 지수적 성장의 비밀: 작은 정확도 향상과 자기 수정 능력 덕분에 AI가 독립적으로 수행할 수 있는 작업의 복잡도가 7개월마다 2배씩 증가 중

벤치마크가 아닌 실전 업무로 AI를 측정하다

기존 AI 평가는 수학 문제나 코딩 테스트 같은 학술적 과제에 집중했습니다. 하지만 실제 업무는 다르죠. 그래서 OpenAI는 새로운 방식을 시도했습니다.

평균 14년 경력의 전문가들을 모아 실제 업무에서 4-7시간 걸리는 과제를 설계하게 했습니다. 법률 브리핑, 엔지니어링 설계도, 고객 상담 분석, 간호 계획서 같은 실제 업무 산출물 기반이었죠. 총 44개 직종에서 1,320개 과제를 만들었습니다.

그런 다음 AI와 다른 전문가들에게 같은 과제를 주고, 제3의 전문가 그룹이 누가 AI고 누가 사람인지 모르는 상태에서 결과물을 평가했습니다. 한 과제당 평가에만 1시간이 걸렸습니다.

결과는? 인간 전문가가 이기긴 했지만 아슬아슬했습니다. 더 흥미로운 건 AI가 진 이유가 환각이나 오류보다는 서식을 제대로 못 맞추거나 지시사항을 정확히 따르지 못한 것이었다는 점입니다. 이건 빠르게 개선되는 영역이죠.

산업별 AI 성과 차이
산업별로 AI 성과는 큰 차이를 보였지만, 모든 영역에서 빠르게 발전 중 (출처: OpenAI)

Claude가 복잡한 경제 논문을 재현한 날

Wharton의 Ethan Mollick 교수는 Claude Sonnet 4.5에게 실험을 해봤습니다. 복잡한 경제학 논문과 그 재현 데이터를 통째로 던져줬죠. 지시사항은 간단했습니다. “이 논문의 분석 결과를 데이터로 재현해 봐. 혼자 해야 해.”

Claude가 한 일은 이랬습니다. 논문을 읽고 압축 파일 속 데이터 파일들을 정리했습니다. 통계 코드를 STATA에서 Python으로 변환했습니다. 그리고 논문의 모든 분석 결과를 체계적으로 재현해 냈습니다.

사람이라면 수 시간 걸릴 작업을 AI가 혼자 해낸 겁니다. 더 중요한 건 이게 가진 의미입니다.

학계에는 “재현성 위기”라는 문제가 있습니다. 중요한 연구 결과를 다른 연구자가 재현할 수 없는 경우가 많다는 거죠. 재현에는 논문을 깊이 읽고, 데이터를 분석하고, 세세한 오류까지 확인하는 엄청난 시간이 필요합니다. 그래서 아무도 안 합니다.

이제 AI가 몇 분 만에 할 수 있게 됐습니다. 학계 전체를 뒤흔들 수 있는 능력이죠. 기업 입장에서도 마찬가지입니다. 복잡한 데이터 분석을 AI에게 맡기고 사람은 검증만 할 수 있게 됐습니다.

왜 지금 갑자기 가능해졌을까

과거 AI 에이전트의 문제는 명확했습니다. 긴 작업에서 한 단계라도 실패하면 전체가 망가졌습니다. 10단계 작업에서 각 단계 성공률이 90%라면? 전체 성공률은 35%밖에 안 됩니다.

그런데 두 가지가 바뀌었습니다.

첫째, 정확도의 작은 향상이 전체에 큰 영향을 미칩니다. 각 단계 성공률이 90%에서 95%로 오르면? 전체 성공률은 35%에서 60%로 뜁니다. 최신 모델들은 이런 기본 정확도가 크게 높아졌습니다.

둘째, 최신 “추론” 모델들은 자기 수정 능력이 있습니다. 실수를 스스로 감지하고 고칩니다. 한 번 실패해도 멈추지 않고 다른 방법을 시도합니다.

METR이라는 연구기관의 데이터가 이를 잘 보여줍니다. AI가 50% 확률로 독립적으로 완수할 수 있는 작업의 길이(사람 기준)가 지난 5년간 7개월마다 2배씩 증가했습니다. GPT-3 시절엔 몇 분짜리 작업도 힘들었는데, 지금은 몇 시간짜리 작업도 가능합니다.

AI 에이전트 능력의 지수적 성장
AI가 독립적으로 수행할 수 있는 작업의 복잡도는 7개월마다 2배씩 증가 중 (출처: METR)

이 추세가 계속되면 2~4년 내에 AI는 일주일짜리 프로젝트를 혼자 처리할 수 있게 됩니다.

17개 파워포인트의 경고

같은 Mollick 교수가 또 다른 실험을 했습니다. Claude에게 기업 메모 하나를 주고 파워포인트를 만들어 달라고 했습니다. 그리고 다른 관점으로도 만들어 달라고 했습니다. 또 만들어 달라고 했습니다.

결과? 17개의 파워포인트가 나왔습니다. 기술적으로는 완벽했지만 아무도 필요 없는 자료들이었죠.

여기에 진짜 위험이 있습니다. AI는 이제 학술 논문도 재현하고 파워포인트도 만들 수 있습니다. 차이는 우리가 무엇을 시키느냐에 달렸습니다.

상상해 보세요. 회사가 “AI로 비용 절감하자”는 생각만 하고 무분별하게 자동화를 시작하면? 아무도 읽지 않을 보고서, 아무도 참석하지 않을 회의용 자료, 아무도 필요 없는 분석 자료가 쏟아집니다. 기술적으론 완벽하지만 의미는 없는 것들이죠.

똑똑하게 활용하는 법

OpenAI는 GDPval 연구에서 실용적인 워크플로우를 제시했습니다.

  1. AI에게 업무를 첫 시도로 맡긴다
  2. 결과를 검토하고 2-3회 피드백을 준다
  3. 그래도 안 되면 사람이 직접 한다

이 방식으로 전문가들은 40% 빠르게, 60% 저렴하게 작업할 수 있었습니다. 중요한 건, 전문가가 통제권을 유지한다는 점입니다.

핵심은 이겁니다. AI가 작업을 대체하는 게 아니라 전문가의 판단력이 더 중요해진다는 겁니다. 무엇을 AI에게 맡길지, 결과가 충분한지, 추가 지시가 필요한지, 아니면 직접 해야 할지 판단하는 능력 말이죠.

Claude Sonnet 4.5가 30시간 이상 자율적으로 데이터베이스 마이그레이션, 유틸리티 함수 구현, 테스트 작성을 완수한 사례도 있습니다. Replit은 코드 편집 오류율을 9%에서 0%로 줄였고, 보안 분야에선 취약점 처리 시간을 44% 단축했습니다.

하지만 이런 성과는 모두 사람이 올바른 작업을 정의하고 결과를 검증했을 때 나온 겁니다.

선택의 문제

AI 에이전트는 이미 여기 있습니다. 실제로 가치 있는 업무를 수행합니다. 같은 기술이 학술 논문도 재현하고 쓸데없는 파워포인트 17개도 만듭니다.

차이를 만드는 건 기술이 아닙니다. “무엇을 할 가치가 있는지” 판단하는 우리의 선택입니다.


참고자료:

Fediverse reactions

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다