토큰맥싱, 아마존 직원들이 AI 리더보드 점수를 조작하는 이유

2026-05-17

﹒

2 minutes

아마존은 개발자 80% 이상이 매주 AI 도구를 쓰도록 내부 목표를 세웠습니다. 그런데 직원들이 실제로 하고 있는 일 중 일부는 AI로 불필요한 작업을 돌려 점수를 올리는 것입니다. AI를 더 많이 쓰게 만들었더니, 더 의미 없이 쓰는 법을 찾아낸 셈입니다.

사진 출처: TechSpot

파이낸셜 타임스(FT)가 아마존 직원 3명의 증언을 토대로 보도한 내용입니다. 아마존은 올해 초부터 내부 AI 플랫폼 MeshClaw의 토큰 소비량을 전사 리더보드로 공개하고 있으며, 일부 직원들은 이 숫자를 올리기 위해 의미 없는 작업을 AI에게 맡기고 있습니다.

출처: Amazon staff use AI tool for unnecessary tasks to inflate usage scores – Financial Times

MeshClaw와 토큰 리더보드

MeshClaw는 아마존이 내부적으로 개발한 AI 에이전트 플랫폼입니다. OpenClaw에서 영감을 받아 만들어졌으며, 직원들이 자신의 기기에서 로컬 AI 에이전트를 실행할 수 있게 합니다. 코드 배포, 이메일 분류, Slack 메시지 처리 같은 업무를 자동화하는 데 쓰입니다. 아마존은 현재 이 도구를 전사로 확대 배포 중입니다.

문제는 여기서 시작됩니다. 아마존은 얼마나 많은 AI를 쓰는지를 “토큰 소비량”으로 측정하고, 이를 팀 단위로 집계해 리더보드에 공개했습니다. 토큰이란 AI 모델이 처리하는 텍스트의 기본 단위로, 많이 소비할수록 AI를 많이 사용했다는 뜻입니다. 의도는 AI 활용을 장려하는 것이었지만, 결과는 달랐습니다.

왜 점수를 조작하나

“도구를 쓰라는 압박이 너무 큽니다. 어떤 사람들은 그냥 MeshClaw로 토큰 숫자를 최대한 올리려고 씁니다.” — FT에 증언한 아마존 직원

아마존의 공식 입장은 토큰 통계가 개인 성과 평가에 반영되지 않는다는 것입니다. 하지만 FT 취재원들은 현실이 다르다고 말합니다. 관리자들이 비공식적으로 사용량을 주시하고 있고, 직원들 사이에서 리더보드 경쟁이 점점 치열해지고 있다는 겁니다. “관리자들이 보고 있어요. 추적이 시작되면 왜곡된 인센티브가 생기고, 경쟁심이 강한 사람들이 생깁니다.”

이 현상에는 이름도 붙었습니다. “토큰맥싱(tokenmaxxing)” — 토큰을 최대한 많이 소비하는 행위를 뜻합니다. 실제 업무 가치와는 무관하게 숫자만 올리는 것이죠.

경제학에는 이를 설명하는 오래된 원리가 있습니다. “굿하트의 법칙(Goodhart’s Law)”입니다. 측정 지표가 목표 자체가 되는 순간, 그 지표는 의미를 잃는다는 것입니다. 토큰 소비량은 AI 활용도를 가늠하는 참고치가 될 수 있지만, 리더보드에 공개되고 경쟁의 대상이 되면서 지표와 실제 생산성의 연결 고리가 끊어졌습니다.

아마존만의 문제가 아니다

같은 일이 Meta에서도 벌어지고 있습니다. Meta는 “Claudeonomics”라는 내부 리더보드를 운영하며 약 85,000명의 직원을 토큰 소비량으로 줄 세웠습니다. 여기서도 직원들이 점수를 올리기 위해 불필요한 AI 사용을 늘리는 동일한 패턴이 나타났습니다.

보안 우려도 함께 불거졌습니다. 일부 직원들은 MeshClaw가 광범위한 업무를 자동화하는 과정에서 AI 환각(hallucination)이나 오류가 생길 수 있다는 점을 걱정하고 있습니다. 한 증언자는 “기본 보안 설정이 불안해서 AI가 알아서 돌아다니게 내버려두지 않겠다”고 말했습니다.

AI 도입의 진짜 어려움

“얼마나 많이 쓰는가”를 측정하기는 쉽습니다. 하지만 “얼마나 잘 쓰는가”는 측정하기 훨씬 어렵습니다. 토큰맥싱 현상은 AI 도입의 본질적인 난제를 드러냅니다. 기술을 배포하는 것보다 의미 있는 사용을 유도하고 측정하는 것이 더 어렵다는 점입니다. 아마존도 이를 인식한 듯, 공개 접근이 가능했던 팀 단위 MeshClaw 통계를 이후 내부 직원 전용으로 제한했습니다.

The Decoder는 관련 뉴스레터 Frontier Radar에서 AI 생산성 측정의 구조적 어려움을 별도로 분석했습니다. 토큰맥싱이 단순한 직원 일탈이 아니라, AI 생산성을 어떻게 정의하고 측정할 것인가라는 더 큰 질문과 맞닿아 있다는 점에서 이 글과 함께 읽어볼 만합니다.

참고자료:

“Tokenmaxxing” spreads at Amazon as employees game internal AI leaderboards – The Decoder
Amazon employees are inflating AI usage to top leaderboards – TechSpot

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup

토큰맥싱, 아마존 직원들이 AI 리더보드 점수를 조작하는 이유

MeshClaw와 토큰 리더보드

왜 점수를 조작하나

아마존만의 문제가 아니다

AI 도입의 진짜 어려움

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

AI 에이전트는 왜 매번 처음부터 시작할까, 메모리 설계의 7가지 갈래

로컬 LLM으로 코딩하는 시대, Qwen 3.6 27B가 노트북에서 프런티어급에 닿다

AI 코딩 모델이 스스로 훈련 방식을 짠다, Ornith과 SIA가 보여준 자기개선의 두 갈래

프롬프트 인젝션 6000번 공격, AI 에이전트가 다 막아낸 실험