AI가 AI를 만드는 시대, Anthropic 내부 데이터로 본 재귀적 자기 개선의 현재

2026-06-08

﹒

AI 인사이트

﹒

2 minutes

2024년과 비교해 Anthropic 엔지니어 1인이 하루에 머지하는 코드량은 8배 늘었습니다. 그런데 이건 엔지니어가 8배 더 부지런해진 게 아닙니다. 코드 대부분을 Claude가 쓰고 있기 때문입니다.

사진 출처: Anthropic

Anthropic Institute가 내부 미공개 데이터와 외부 벤치마크를 종합해 AI가 AI 개발 자체를 얼마나 빠르게 가속하고 있는지를 처음으로 수치화한 글을 발표했습니다. 단순한 생산성 지표가 아니라, AI가 스스로의 후속 버전을 설계하고 개발하는 “재귀적 자기 개선”에 얼마나 가까워졌는지를 보여주는 자료입니다.

출처: When AI builds itself – Anthropic Institute

Claude가 쓴 코드가 80%를 넘었다

2025년 2월 Claude Code가 출시되기 전까지, Anthropic 코드베이스에서 Claude가 작성한 코드 비중은 한 자릿수였습니다. 2026년 5월 기준으로 이 수치는 80%를 넘어섰습니다.

변화는 두 번의 변곡점을 거쳤습니다. 첫 번째는 2025년, Claude가 코드를 제안하는 수준을 넘어 직접 실행까지 하게 됐을 때입니다. 두 번째는 2026년, 모델이 수 시간 이상의 작업을 자율적으로 처리할 수 있게 되면서입니다. 엔지니어의 역할도 달라졌습니다. 코드를 직접 타이핑하는 대신, Claude가 만든 코드를 지시하고 검토하는 쪽으로 무게중심이 이동했습니다.

코드 품질도 빠르게 따라잡고 있습니다. Anthropic 직원들 사이에서도 의견이 갈리지만, 2025년 말까지만 해도 Claude가 쓴 코드가 인간보다 다소 떨어진다는 평가가 많았습니다. 지금은 대체로 비슷한 수준이고, 연내 역전이 예상된다고 합니다. 실제로 Anthropic은 Claude를 자동 코드 리뷰어로 도입했는데, 과거 claude.ai 장애의 원인이 된 버그 중 약 1/3을 사전에 잡아낼 수 있었을 것으로 추정합니다. 세계 최고 수준의 엔지니어들이 놓쳤던 실수를 Claude가 잡아내고 있는 셈입니다.

실험을 설계하고 수행하는 단계까지

코드 작성보다 더 흥미로운 변화는 연구 영역에서 일어나고 있습니다.

Anthropic은 모델을 출시할 때마다 동일한 내부 테스트를 진행합니다. 소형 AI 모델을 학습시키는 코드를 Claude에게 주고, 정확도를 유지하면서 속도를 최대한 높이라고 시킵니다. 코드를 고치고, 실행하고, 시간을 재고, 다시 반복하는 작은 실험 루프입니다. 2025년 5월 Claude Opus 4는 초기 코드 대비 평균 3배 속도를 끌어냈습니다. 2026년 4월 Claude Mythos Preview는 같은 작업에서 52배를 달성했습니다. 숙련된 인간 연구자가 4~8시간 투자해 4배를 내는 것과 비교하면, 이 부분에서 Claude는 이미 인간을 넘어섰습니다.

더 나아가 2026년 4월, Anthropic은 Claude가 개방형 연구 프로젝트를 처음부터 끝까지 자율적으로 수행한 사례를 공개했습니다. AI 안전 분야의 열린 문제를 던져줬더니, 가설 설정 → 실험 → 결과 공유 → 반복의 전 과정을 스스로 수행했습니다. 핵심 비교는 ‘회복률’입니다. 인간 연구자 2명이 약 1주일을 투자해 최적 수준의 23%를 회복한 반면, Claude 에이전트들은 800시간의 누적 컴퓨팅 시간을 써서 97%를 회복했습니다. 투자한 시간이 아니라, 도달한 수준 자체가 달랐습니다.

물론 한계도 있습니다. 결과가 대규모 프로덕션 모델에는 깔끔하게 옮겨지지 않았고, 문제를 고른 것과 평가 기준을 만든 건 여전히 인간이었습니다. 그 범위 안에서만큼은, 실험의 모든 설계를 Claude가 스스로 했습니다.

남은 인간의 역할, 그리고 세 가지 미래

Anthropic은 이 데이터가 가리키는 방향을 솔직하게 정리합니다. “하는 일”의 비용이 거의 0에 수렴하고 있고, 인간에게 남은 비교우위는 “무엇을 할지 고르는 것”, 즉 연구 방향과 판단력뿐이라는 겁니다.

그리고 그 마지막 영역에서도 균열 신호가 보이기 시작했습니다. 연구자가 세션을 이탈해 잘못된 방향으로 빠졌던 129개의 실제 사례를 분석한 결과, 2025년 11월에는 Claude가 인간보다 더 나은 다음 단계를 제안한 비율이 51%였고, 2026년 4월에는 64%로 올라갔습니다.

Anthropic은 가능한 미래를 세 가지로 나눕니다. 첫째, 기술 발전이 정체되지만 현재 수준의 AI가 광범위하게 확산되는 시나리오. 둘째, 인간이 연구 방향을 잡되 나머지는 AI가 처리하는 복합 효율 가속. 셋째, AI가 완전히 스스로의 후속 버전을 설계하는 완전 재귀적 자기 개선. Anthropic 자신은 현재로선 두 번째 시나리오로 향하고 있다고 보면서도, 세 번째 가능성이 “대부분의 기관이 준비된 것보다 빨리 올 수 있다”고 경고합니다.

글에는 글로벌 조율 메커니즘의 필요성, 검증 가능한 일시 중지 조건 등의 정책 논의도 담겨 있습니다. 세 가지 시나리오 각각에서 사회가 어떻게 달라질지에 대한 분석은 원문에서 확인하실 수 있습니다.

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup

AI가 AI를 만드는 시대, Anthropic 내부 데이터로 본 재귀적 자기 개선의 현재

Claude가 쓴 코드가 80%를 넘었다

실험을 설계하고 수행하는 단계까지

남은 인간의 역할, 그리고 세 가지 미래

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

에이전트 하나에 객체 하나, Cloudflare Durable Objects가 에이전트에 잘 맞는 이유

중국 오픈웨이트 AI 무료로 쓸 수 있는데, 백도어 걱정은 안 해도 될까

AI가 펠리컨 그림 연습을 몰래 했다는 의혹, 1,008장 그려보니 근거가 없었다

GPT부터 Claude까지, 영국 정부가 테스트한 AI 5개 전부 시험에서 부정행위를 했다