AI 코딩 도구가 개발자 학습을 방해한다, Anthropic 연구 발견

구글 엔지니어가 Claude Code로 1년 작업을 1시간에 끝냈다는 이야기, 들어보셨나요? AI 코딩 도구가 생산성을 극적으로 높인다는 사례들이 쏟아지고 있습니다. 하지만 Anthropic의 새로운 연구는 불편한 진실을 드러냅니다. AI 도구를 쓰면 빨라질 것 같지만 실제로는 그렇지 않고, 오히려 학습 능력이 크게 떨어진다는 겁니다.

사진 출처: Anthropic

Anthropic이 52명의 소프트웨어 엔지니어를 대상으로 진행한 무작위 대조 실험 연구입니다. 참가자들은 새로운 Python 라이브러리(Trio)를 배워 두 가지 코딩 작업을 수행했죠. 절반은 GPT-4o 기반 AI 어시스턴트를 사용했고, 나머지 절반은 문서와 웹 검색만 사용했습니다. 핵심 발견은 AI를 사용한 그룹이 방금 다룬 개념에 대한 퀴즈에서 17% 낮은 점수를 받았다는 점입니다. 거의 두 학점 차이죠. 더 놀라운 건 AI 사용자들이 작업을 더 빨리 끝내지도 못했다는 겁니다.

출처: How AI assistance impacts the formation of coding skills – Anthropic

사용 방식이 학습 결과를 결정한다

연구팀이 화면 녹화를 분석한 결과, AI와 상호작용하는 방식에 따라 결과가 극명하게 갈렸습니다. 크게 두 가지 패턴으로 나뉘었죠.

나쁜 패턴 (퀴즈 점수 40% 미만):

가장 흔한 실수는 AI에게 모든 걸 맡기는 겁니다. 코드를 통째로 생성시키거나, 처음엔 스스로 하다가 점점 AI에 의존하거나, AI로 계속 디버깅만 하는 식이죠. AI에 전적으로 위임한 그룹은 가장 빨리 끝냈지만 퀴즈 점수는 39%에 불과했습니다.

좋은 패턴 (퀴즈 점수 65% 이상):

반대로 잘한 사람들은 AI를 이해를 돕는 도구로 썼습니다. 코드를 생성한 후 추가 질문을 던지거나, 코드와 설명을 함께 요청하거나, 개념적인 질문만 하고 코딩은 직접 했죠. 흥미롭게도 개념 질문만 한 그룹은 높은 점수(65%)를 받으면서도 두 번째로 빨랐습니다.

중요한 건 AI 사용 자체가 문제가 아니라는 점입니다. 어떻게 쓰느냐에 따라 학습 결과가 완전히 달라집니다.

실수가 학습을 만든다

AI를 쓰지 않은 그룹은 훨씬 많은 에러를 겪었습니다. Trio 관련 에러를 AI 그룹보다 3배 이상 경험했죠. 이 에러들이 짜증나고 시간을 잡아먹긴 했지만, 바로 그 과정에서 핵심 개념을 익혔습니다. 연구팀은 “고통스럽게 막히는 경험”이 숙련도를 쌓는 데 중요할 수 있다고 지적합니다.

실제로 퀴즈에서 가장 큰 점수 차이가 난 부분이 디버깅 문제였습니다. AI 없이 코딩한 그룹은 런타임 경고나 타입 에러를 직접 해결하면서 자연스럽게 디버깅 능력을 키웠던 거죠. AI가 에러를 대신 처리해주면 빠르긴 하지만, 정작 “뭔가 잘못됐을 때 왜 그런지 이해하는 능력”은 키우지 못합니다.

현장 개발자들의 목소리

Ars Technica가 실제 개발자들을 인터뷰한 결과는 더 복잡한 그림을 보여줍니다. 대부분은 AI 도구가 작동한다는 데 동의했지만, 그게 완전히 좋은 소식인지는 확신하지 못했습니다.

30년 경력의 한 소프트웨어 아키텍트는 “전통적인 방식으로 했으면 1년 걸렸을 기능을 2주 만에 완성했다”며 극찬했습니다. Linux 커널 기여자 Roland Dreier는 “최근 6개월간 엄청난 도약이 있었다”며 복잡한 작업에서 10배 속도 향상을 경험했다고 말했죠.

반면 Microsoft의 시니어 엔지니어 Darren Mart는 신중했습니다. “이미 완전히 이해하고 있는 작업에만 AI를 쓴다”는 겁니다. 그렇지 않으면 “위험한 길로 빠져 미래에 엄청난 기술 부채를 떠안을 수 있다”고 경고했습니다. 부동산 분석 데이터 사이언티스트는 아예 AI를 “아주 짧은 줄”에 묶어둡니다. GitHub Copilot으로 한 줄씩 자동완성은 받지만, 에이전트 기능은 언어 변환이나 읽기 전용 디버깅 같은 좁은 용도로만 제한했죠.

가장 흥미로운 건 경력 개발자조차 의견이 갈린다는 점입니다. 어떤 이는 “코딩은 끝났다”고 단언하고, 어떤 이는 “감독에서 창조로 급격히 전환되는 게 불편하다”고 토로합니다.

속도와 학습 사이의 트레이드오프

이 연구가 보여주는 핵심은 단기 생산성과 장기 스킬 형성 사이의 긴장입니다. 엔지니어 Sean Goedecke는 자신의 블로그에서 예리한 지적을 합니다. “소프트웨어 엔지니어는 학습하라고 돈을 받는 게 아니라 비즈니스 가치를 전달하라고 돈을 받는다”는 겁니다. AI가 작업을 극적으로 빠르게 해준다면, 그걸 피하는 건 오히려 업무를 못하는 게 된다는 거죠.

하지만 여기엔 함정이 있습니다. 주니어 개발자들이 AI로 빠르게 코드를 찍어내며 스킬을 제대로 쌓지 못한다면, 결국 AI가 생성한 코드를 검증하고 디버깅할 능력도 갖추지 못하게 됩니다. Anthropic 연구팀은 “안전이 중요한 애플리케이션에서 인간이 AI 생성 코드를 체크하고 디버깅해야 한다면, 그에 필요한 스킬을 가져야 한다”고 강조합니다. 하지만 AI 사용이 처음부터 그 스킬 개발을 방해한다면요?

연구는 몇 가지 한계가 있습니다. 샘플 크기가 작고, 1시간짜리 작업만 다뤘으며, 퀴즈 점수가 장기적 스킬 개발을 예측하는지는 알 수 없습니다. 그리고 GPT-4o를 썼는데, 이건 2025년 기준으로도 구형 모델이죠. Claude Opus 4.5 같은 최신 모델을 썼다면 결과가 달랐을 수도 있습니다.

그럼에도 메시지는 명확합니다. AI로 생산성을 높이는 건 가능하지만, 숙련도로 가는 지름길은 아니라는 겁니다. 핵심은 인지적 노력입니다. AI에 개념적 질문을 던지거나, 생성된 코드의 설명을 요청하거나, 이해를 확인하는 사람들은 효과적으로 학습을 유지했습니다. 반면 생각을 AI에 완전히 오프로드한 사람들은 빨라지지도 않으면서 배우지도 못했죠.

개발자 개인 차원에서는 의식적인 선택이 필요합니다. 속도가 중요한 작업에선 AI를 적극 활용하되, 새로운 걸 배울 때는 “고통스럽게 막히는 경험”을 회피하지 말아야 합니다. 기업 차원에서는 더 복잡합니다. 주니어 엔지니어들이 빠르게 결과물을 내도록 압박하면서, 동시에 미래에 AI 코드를 감독할 스킬을 쌓도록 해야 하니까요.

아마도 미래의 소프트웨어 엔지니어는 의사처럼 일하게 될지 모릅니다. 실제 업무는 AI 에이전트에 맡기고, 따로 시간을 내서 코드베이스를 공부하고 개념을 익히는 식으로요. 불편하게 들릴 수 있지만, AI가 코드 작성의 대부분을 넘겨받는다면 피할 수 없는 변화일 겁니다.

참고자료:

AI coding tools hurt learning unless you ask why, Anthropic study finds – The Decoder
Developers say AI coding tools work—and that’s precisely what worries them – Ars Technica
How does AI impact skill formation? – Sean Goedecke

Like?

AI Sparkup

AI 코딩 도구가 개발자 학습을 방해한다, Anthropic 연구 발견

사용 방식이 학습 결과를 결정한다

실수가 학습을 만든다

현장 개발자들의 목소리

속도와 학습 사이의 트레이드오프

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

AI 코딩 도구가 개발자 학습을 방해한다, Anthropic 연구 발견

구글 Project Genie, 텍스트로 3D 게임 월드 만든다? 한계와 논란

Gemini CLI 훅 기능, AI 에이전트에 보안 정책 자동 주입

Nvidia-OpenAI 1000억 달러 투자, WSJ ‘중단’ vs Huang ‘역대 최대’ 엇갈린 진실