AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Anthropic 채용 시험, Claude가 지원자 압도해 3번 교체한 사연

AI가 너무 똑똑해서 생긴 문제가 있습니다. Anthropic이 성능 엔지니어를 뽑으려고 만든 채용 시험을, 정작 자기네 AI인 Claude가 너무 잘 풀어버린 거예요. 그것도 한두 번이 아니라 버전이 올라갈 때마다 계속해서요. 결국 채용팀은 시험 문제를 세 번이나 갈아엎어야 했습니다.

사진 출처: Anthropic Engineering

Anthropic의 성능 최적화팀을 이끄는 Tristan Hume이 엔지니어링 블로그에서 밝힌 내용입니다. 2024년 초부터 1,000명 넘는 지원자가 풀었던 원래 테스트는 가상의 칩을 시뮬레이션하는 Python 프로그램을 최적화하는 과제였어요. 작동하는 코드를 받아서 더 빠르게 돌아가도록 다시 짜는 겁니다. 성능은 ‘클럭 사이클’로 측정하는데, 시뮬레이션된 컴퓨터가 작업을 완료하는 데 필요한 계산 단계 수를 말합니다. 단계가 적을수록 좋은 해답이죠.

출처: Designing AI resistant technical evaluations – Anthropic Engineering

Claude가 인간을 압도하기 시작하다

Hume은 실무 환경을 반영하려고 일부러 AI 도구 사용을 허용했습니다. 실제 업무에서도 엔지니어들이 AI 보조 도구를 쓰니까요. 문제는 여기서 시작됐어요.

Claude 3.7 Sonnet이 나오면서 상황이 묘해졌습니다. 지원자 절반 이상이 그냥 Claude에게 전체 과제를 맡겼으면 더 높은 점수를 받았을 거라는 게 드러났거든요. 2025년 5월, Claude Opus 4가 출시되자 상황은 더 심각해졌습니다. 제한 시간 내에 거의 모든 인간 솔루션을 이겼어요. Hume은 시험을 조정하고 시간을 4시간에서 2시간으로 줄였습니다.

그런데 Claude Opus 4.5가 나왔습니다. 이 모델은 2시간 안에 최고 인간 지원자의 성과와 동급을 달성했어요. 시간 제한이 없으면 인간이 여전히 Claude를 이길 수 있긴 합니다. 때로는 큰 차이로요. 하지만 채용 시험에 현실적인 2시간이라는 제약 안에서는? 불가능했습니다.

AI 금지가 아닌 근본적 전환

Hume은 AI 도구를 아예 금지하는 방안을 고려했지만 포기했습니다. 그건 현실을 반영하지 못하니까요. 실무에서 엔지니어들은 AI 보조 도구를 씁니다. 시험은 이 도구 없이 얼마나 잘하는지가 아니라, 도구와 함께 얼마나 잘 일하는지를 보여줘야 합니다.

최종 해법은 완전히 다른 접근이었어요. Hume은 Zachtronics라는 개발사의 프로그래밍 퍼즐 게임에서 영감을 받았습니다. 이 게임들은 극도로 제약이 많은 프로그래밍 환경으로 유명해요. 플레이어들은 최소한의 명령어와 제한된 메모리만으로 작업해야 하기 때문에 창의적인 해법을 찾아야 하죠.

새 테스트는 비슷하게 특이한 제약을 사용합니다. Claude는 이런 유형의 과제를 학습 데이터에서 거의 본 적이 없기 때문에 실패합니다. “현실성은 더 이상 우리가 누릴 수 있는 사치가 아닐지 모릅니다”라고 Hume은 썼어요. 원래 테스트는 실제 업무와 비슷해서 효과적이었습니다. 새 테스트는 인간도 AI도 한 번도 본 적 없는 새로운 작업을 시뮬레이션하기 때문에 효과적입니다.

당신도 도전할 수 있습니다

Anthropic은 원래 테스트를 GitHub에 공개했습니다. 시간 제한이 없다면 인간은 여전히 우위를 점합니다. 지금까지 제출된 가장 빠른 인간 솔루션은 Claude의 최고 성과를 상당한 차이로 앞섭니다. Claude보다 더 효율적인 솔루션을 제출하면 Anthropic에 바로 지원할 수 있어요. 나머지 분들은 일반 프로세스를 통해 지원하고 새 테스트를 받으면 됩니다.

이 이야기가 보여주는 건 단순한 채용 에피소드가 아닙니다. AI가 실무 과제에서 인간을 압도하기 시작했을 때, 우리는 어떻게 대응해야 할까요? Anthropic의 답은 명확합니다. AI를 배제하는 게 아니라, AI조차 풀지 못하는 새로운 문제를 만드는 것. 그리고 그 과정에서 인간의 창의성과 적응력을 시험하는 것입니다.

참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다