AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

AI 코딩 도구 도입 후 생산성이 올랐다고? 측정이 틀렸을 수 있습니다

GitHub Copilot을 도입한 뒤 PR이 더 빨리 나가기 시작했습니다. AI 도구 덕분일까요? 그 사이 엔지니어를 12명 더 뽑고, CI 파이프라인을 개선하고, 클라우드 제공사도 바꿨다면 어떻게 알 수 있을까요.

AI 생성 이미지

소프트웨어 엔지니어링 교육자 Greg Wilson이 AI 코딩 도구의 효과를 측정하는 방식에서 반복적으로 나타나는 오류들을 정리했습니다. 코드 줄 수, 개발자 체감 생산성, 커밋 수 등 기업에서 흔히 쓰는 측정 방식이 왜 신뢰하기 어려운지를 여러 연구 문헌을 근거로 분석한 글입니다.

출처: Twelve Ways to Be Wrong About AI-Assisted Coding – Greg Wilson (The Third Bit)

“55% 빨라졌다”는 그 연구, 어떤 작업을 측정했는가

GitHub Copilot 관련 논문에서 자주 인용되는 수치가 있습니다. Copilot을 쓴 개발자가 그렇지 않은 개발자보다 작업을 55% 빠르게 완료했다는 결과입니다. 그런데 그 작업은 JavaScript로 HTTP 서버를 처음부터 구현하는 것이었고, 주어진 시간은 90분, 개발자들은 그날 다른 일정이 없었습니다.

실제 개발 업무는 다릅니다. 내가 짜지 않은 대형 코드베이스를 탐색하고, 티켓에 모호하게 적힌 요구사항을 해석하고, 동료와 조율하고, 회의에 참석합니다. 통제된 환경의 단일 작업에서 나온 속도가 실제 업무 속도를 예측하지 못하는 이유입니다.

반대 방향의 연구도 있습니다. 경험 있는 오픈소스 개발자들을 대상으로 한 무작위 대조 실험에서는 AI 도구를 제공받은 그룹이 작업 완료에 오히려 19% 더 오랜 시간이 걸렸습니다. 참가자들 스스로 예측한 방향과 정반대였습니다.

보이지 않는 절반의 비용

코드 생성 속도는 측정하기 쉽습니다. 그래서 측정됩니다. 측정되지 않는 쪽은 따로 있습니다.

AI가 만든 코드를 검토하는 시간, 자신감 있게 틀린 제안을 디버깅하는 시간, 그럴듯하게 생겼지만 보안에 취약한 코드가 남기는 리스크. 이것들은 생산성 보고서에 잘 등장하지 않습니다.

연구들은 이 비용이 작지 않다고 말합니다. 30만 건 이상의 AI 작성 커밋을 분석한 대규모 연구에서는 15% 이상이 품질 문제를 포함하고 있었고, 그 중 약 4분의 1은 코드베이스에 장기간 남아 있었습니다. 시니어 개발자의 경우, AI 도구가 주니어의 산출물을 늘리는 동안 코드 리뷰 부담이 6.5% 늘어나면서 자신의 생산성은 19% 떨어졌다는 연구도 있습니다.

코드를 더 빠르게 만드는 속도와, 그 코드를 소화하는 팀의 처리 용량은 별개입니다. 파이프라인의 한 단계만 최적화하고 전체를 개선했다고 보는 것은 시스템 사고의 실패입니다.

숫자가 목표가 되는 순간 숫자는 의미를 잃는다

“87%의 개발자가 AI 도구 사용 후 생산성이 높아졌다고 응답했습니다.” 이런 설문 결과가 도구 효과의 증거로 자주 인용됩니다. 그런데 이 수치에는 구조적인 편향이 세 가지 겹쳐 있습니다.

첫째, 관찰받고 있다는 사실 자체가 행동을 바꿉니다(호손 효과). 둘째, 새로운 도구는 익숙하지 않다는 이유만으로 더 빠르게 느껴지는 경향이 있고, 그 느낌은 몇 주 안에 사라집니다(신기 효과). 셋째, 경영진이 선택한 도구에 대해 설문을 받으면 응답자는 긍정적으로 답하려는 경향이 있습니다(사회적 바람직성 편향).

커밋 수, PR 수, 티켓 수 같은 활동 지표도 마찬가지입니다. Goodhart의 법칙이 여기서도 작동합니다. 커밋 수가 추적 대상이 되면 개발자들은 더 작고 잦은 커밋을 만들고, 티켓 수가 기준이 되면 티켓을 쪼갭니다. 숫자는 올라가지만 실제 작업은 바뀌지 않습니다. 활동은 산출물이 아니고, 산출물은 가치가 아닙니다.

측정이 보여주는 것과 숨기는 것

Cursor를 도입한 807개 오픈소스 저장소를 분석한 연구는 이 문제를 잘 보여줍니다. 도입 초기에는 개발 속도가 크게 올랐습니다. 그런데 코드 복잡도와 정적 분석 경고도 함께, 그리고 지속적으로 증가했습니다. 속도 향상은 일시적이었고 복잡도 증가는 남았습니다.

단기 연구가 장기 효과를 말해줄 수 없고, 개인 지표가 팀 전체의 흐름을 반영하지 못하며, 체감 생산성이 실제 산출물과 다를 수 있다는 것. AI 코딩 도구의 효과를 둘러싼 논의가 아직 결론 내리기 어려운 이유입니다.

원문에는 이 외에도 채택률을 성공 지표로 삼는 오류, 자원자와 비자원자를 비교하는 선택 편향, AI를 ‘아무것도 쓰지 않는 것’과 비교하는 잘못된 기준선 등 12가지 오류가 각각 연구 문헌과 함께 정리되어 있습니다.

참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다