코딩 못해도 AI 에이전트는 잘 쓴다, 40만 세션이 말한 진짜 변수

2026-06-21

﹒

3 minutes

회계사가 파이썬을 한 줄도 모릅니다. 그런데 월말 결산에서 어떤 대조 규칙을 적용해야 하는지, 어떤 예외 케이스에서 스크립트가 틀리는지는 정확히 압니다. Anthropic이 약 40만 건의 Claude Code 세션을 분석한 결과, 이 회계사는 그 작업에서 ‘전문가’로 분류됐습니다. 코드를 못 써도 말이죠.

사진 출처: Anthropic, “Agentic coding and persistent returns to expertise”

Anthropic이 2025년 10월부터 2026년 4월까지 약 23만 5천 명의 Claude Code 사용자가 만든 세션을 프라이버시 보호 방식으로 분석한 연구를 발표했습니다. 핵심은 명확합니다. AI 코딩 에이전트를 잘 쓰는 변수는 코딩 실력이 아니라 자기 분야에 대한 이해도라는 것입니다.

출처: Agentic coding and persistent returns to expertise – Anthropic

사람은 ‘무엇을’, 에이전트는 ‘어떻게’

연구팀은 각 세션의 결정을 두 종류로 나눴습니다. 계획 결정(무엇을 할지, 어떤 방식으로, 무엇이 완료인지)과 실행 결정(어떤 파일을 고칠지, 어떤 코드를 쓸지, 어떤 명령어를 실행할지)입니다. 그리고 각 결정이 사람과 Claude 중 누구에게서 나왔는지 분류했습니다.

평균적으로 사람은 계획 결정의 약 70%를 내리지만, 실행 결정은 20%만 담당했습니다. 나머지 80%의 실행은 Claude의 몫이었습니다. 한 문장으로 요약하면, 사람이 무엇을 만들지 정하고 에이전트가 어떻게 만들지 정하는 분업입니다.

이 분업은 작업량에서도 드러납니다. 사용자가 프롬프트 하나를 보내면 Claude는 평균 약 10개의 행동(파일 읽기, 코드 수정, 명령어 실행 등)을 연쇄적으로 수행하고, 때로는 100개를 넘기기도 합니다. 흥미로운 건 이 작업량이 누가 주도권을 쥐느냐에 따라 달라진다는 점입니다. 사용자가 실행을 직접 통제하면 Claude는 턴당 약 8개의 행동만, Claude가 계획까지 맡으면 약 16개까지 늘어납니다.

전문성은 직함이 아니라 작업 단위로 측정된다

이 연구에서 ‘전문성’은 우리가 흔히 생각하는 직함이나 일반적 능력과 다릅니다. 철저히 작업 단위로 측정됩니다. 러스트(Rust)를 처음 만지는 시니어 엔지니어는 그 작업에서는 초보자입니다. 반대로 앞서 나온 회계사처럼, 코드는 못 써도 문제의 본질을 꿰뚫고 있으면 전문가로 분류됩니다.

연구팀은 세 가지 신호로 전문성을 다섯 단계(초보~전문가)로 평가했습니다. 지시가 얼마나 정밀한지, 무엇을 검증하라고 요구하는지, 그리고 사용자가 Claude를 교정하는지 아니면 Claude가 사용자를 교정하는지입니다.

전문성의 차이는 곧장 결과로 이어집니다. 초보 세션에서는 프롬프트 하나가 약 5개의 행동과 600단어 출력을 끌어냅니다. 전문가 세션에서는 그 두 배가 넘는 12개의 행동과 다섯 배에 달하는 3,200단어가 나옵니다. 같은 도구를 쓰는데, 전문가는 같은 한 마디로 에이전트에게서 훨씬 더 많은 일을 끌어내는 셈입니다.

성공률을 가르는 것도 결국 전문성

전문성은 작업의 성공 여부와도 직결됩니다. 연구팀은 세션 기록을 읽고 사용자가 목표를 달성했는지 판단하되, 깃(Git) 커밋이나 통과한 테스트, 사용자의 명시적 확인 같은 검증 가능한 신호가 있을 때만 ‘검증된 성공’으로 인정했습니다.

초보로 분류된 세션은 이 엄격한 기준을 15%만 통과했습니다. 중급 이상은 28~33%로, 두 배가 넘습니다. 특히 일이 꼬였을 때 차이가 두드러집니다. 오류나 실패한 테스트로 세션이 난관에 부딪혔을 때, 초보 사용자의 19%는 코드를 한 줄도 남기지 못한 채 작업을 포기했습니다. 나머지 그룹은 5~7%에 그쳤죠. 전문성의 상당 부분은 에이전트를 올바른 방향으로 끌고 가는 능력, 그리고 막혔을 때 빠져나오는 능력에 있는 것으로 보입니다.

한 가지 주목할 대목은, 대부분의 이득이 초보에서 중급으로 넘어갈 때 발생한다는 점입니다. 중급과 전문가 사이의 격차는 의외로 작습니다. 깊은 숙련이 아니라 자기 분야에 대한 ‘작동하는 수준의 이해’만으로도 이득의 대부분을 가져갈 수 있다는 의미입니다.

코딩 직업이라는 장벽이 낮아진다

가장 인상적인 발견은 직업에 관한 것입니다. 코드를 생성한 세션에서, 데이터 내 상위 10개 직업군 모두가 소프트웨어 엔지니어와 7%포인트 이내의 성공률을 보였습니다. 법률, 경영, 영업 등 비(非)소프트웨어 직군도 마찬가지였습니다. 오히려 경영 직군은 검증된 성공률에서 소프트웨어 엔지니어를 살짝 앞섰는데, 에이전트를 지휘하는 데 관리 역량이 옮겨붙은 결과로 해석됩니다.

이는 코딩이라는 직업적 배경이 프로그래밍 성공의 필수 조건에서 점점 멀어지고 있다는 신호입니다. 연구가 다룬 7개월 동안, 디버깅에 쓰인 세션 비율은 거의 절반으로 줄었고, 코드 배포·데이터 분석·문서 작성 같은 더 포괄적인 활용으로 무게중심이 옮겨갔습니다. 작업의 추정 가치도 평균 약 27% 올랐습니다.

에이전트가 대체하는 것과 보상하는 것

이 연구가 그리는 그림은 한 방향입니다. 에이전트는 구현 중심의 작업을 흡수하면서, 동시에 문제를 깊이 이해하는 사람에게 보상을 줍니다. 코딩 능력은 덜 중요해지지만, 자기가 푸는 문제에 대한 장악력은 더 중요해진다는 것입니다.

물론 한계도 분명합니다. 연구팀은 세션 기록만 볼 수 있을 뿐, 실제로 그 코드가 쓰였는지 버려졌는지 같은 현실의 결과는 측정하지 못합니다. 또 이번 분석에서 제외된 비대화형(non-interactive) 사용이 전체 활동의 상당 부분을 차지한다는 점도 연구팀이 스스로 짚는 약점입니다. 분류 자체가 모델이 기록을 읽고 내린 판단이라는 점도 검증의 어려움으로 남습니다.

그럼에도 방향은 시사적입니다. 만약 시간이 지나면서 전문성의 효과가 줄어든다면, 그건 모델이 사용자가 지금 가져오는 판단력까지 스스로 공급하기 시작했다는 신호일 것입니다. 반대로 비소프트웨어 직군의 성공률이 계속 오른다면, 소프트웨어를 만드는 일이 한 직업의 전유물이 아니라 모든 분야의 일상적 업무로 스며들고 있다는 뜻이 됩니다. 어느 쪽이든, 노동 시장에서 무엇이 가장 가치 있게 평가될지를 바꾸는 변화입니다.

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup

코딩 못해도 AI 에이전트는 잘 쓴다, 40만 세션이 말한 진짜 변수

사람은 ‘무엇을’, 에이전트는 ‘어떻게’

전문성은 직함이 아니라 작업 단위로 측정된다

성공률을 가르는 것도 결국 전문성

코딩 직업이라는 장벽이 낮아진다

에이전트가 대체하는 것과 보상하는 것

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

코딩 못해도 AI 에이전트는 잘 쓴다, 40만 세션이 말한 진짜 변수

90% 확신도 정답은 아니다, AI 시대 판단력을 지키는 법

AI가 보는 내 제품 페이지, 사람과는 완전히 다르다

API 키 한 줄만 바꾸면 90% 싸진다는데, 그 차액은 누가 채우고 있을까