AI가 디지털 세계를 넘어 물리적 세계에 영향을 미치기 시작했습니다. 그 변화의 속도는 생각보다 빠릅니다.

Anthropic이 자사 연구원 8명을 두 팀으로 나눠 로봇 개에게 공 가져오기를 시키는 실험을 진행했습니다. 한 팀은 Claude를 사용할 수 있었고, 다른 팀은 사용할 수 없었죠. 결과는 명확했습니다. Claude를 쓴 팀이 절반의 시간에 더 많은 작업을 완수했습니다. AI가 제공하는 성능 향상(uplift)이 코딩을 넘어 로보틱스로 확장되고 있다는 첫 신호입니다.
출처: Project Fetch: Can Claude train a robot dog? – Anthropic
실험은 이렇게 진행됐습니다
8명의 Anthropic 연구원(로보틱스 전문가는 없음)을 무작위로 나눴습니다. Team Claude와 Team Claude-less. 각 팀에게 네 발 달린 로봇 개(quadruped robot)를 주고 비치볼을 가져오게 만드는 미션을 줬죠.
Phase 1에서는 제조사가 제공한 컨트롤러로 로봇을 조작했습니다. Phase 2부터 본격적인 코딩이 시작됐어요. 자신의 노트북을 로봇에 연결하고, 센서 데이터(비디오, 라이다)를 받아와 제어 프로그램을 직접 작성해야 했습니다. Phase 3은 최종 목표였죠. 로봇이 사람의 도움 없이 자율적으로 공을 찾아 가져오게 만드는 것.
실험 중 예상치 못한 해프닝도 있었습니다. Team Claude가 작성한 코드에 작은 실수가 있었어요. 로봇에게 “초당 1미터로 5초간 전진”하라고 명령했는데, 5미터 앞에 Team Claude-less의 테이블이 있다는 걸 미처 계산하지 못한 거죠. 로봇은 충실히 명령을 수행했고, 주최자가 급히 로봇을 붙잡아 전원을 꺼야 했습니다. 공격받을 뻔한 팀의 사기는… 말할 것도 없었습니다.
Claude가 만든 차이
가장 극적인 차이는 하드웨어 연결 단계에서 나타났습니다. 로봇과 노트북을 연결하고, 센서 데이터를 받아오고, 명령을 보내는 작업이죠. 온라인에는 다양한 방법이 설명돼 있지만, 정확하지 않은 정보도 많았습니다.
Team Claude는 여러 접근법을 효율적으로 탐색했고, 잘못된 정보를 걸러냈어요. 반면 Team Claude-less는 온라인의 잘못된 조언에 속아 가장 쉬운 연결 방법을 일찍 포기했습니다. 관찰자들이 안쓰러워 힌트를 줄 정도였죠.
라이다 센서 데이터를 활용하는 데도 큰 차이가 있었습니다. Team Claude-less는 한 명을 라이다 작업에 계속 투입했지만 하루가 거의 끝나갈 때까지 성공하지 못했어요. Team Claude는 비교적 빠르게 해결하고 다음 단계로 넘어갔습니다.
흥미롭게도 일부 작업에서는 Team Claude-less가 더 빨랐습니다. 비디오 피드 연결 후 제어 프로그램을 작성하거나, 로봇의 위치를 추적하는 알고리즘(localization)을 만드는 데는 오히려 시간이 덜 걸렸죠. 하지만 Team Claude가 만든 컨트롤러는 실시간 비디오 스트리밍을 제공해 훨씬 사용하기 편했습니다. Team Claude-less는 간헐적으로 전송되는 스틸 이미지에 의존해야 했어요.
Team Claude는 코드를 9배나 많이 작성했습니다. AI 도우미가 있으니 여러 접근법을 동시에 시도하기 쉬웠던 거죠. 하지만 이게 항상 좋은 건 아니었습니다. 때로는 본질적 작업에서 벗어난 ‘사이드 퀘스트’에 빠지기도 했거든요. 예를 들어 localization 알고리즘이 거의 완성됐는데 좌표가 뒤집힌 걸 발견하자, 버그를 고치는 대신 완전히 다른 접근법으로 갈아탔다가 결국 원래 방법으로 돌아온 경우가 있었습니다.
팀 분위기도 달랐습니다
관찰자들이 느끼기에 Team Claude는 확실히 더 행복해 보였습니다. Team Claude-less는 점심시간까지 로봇 연결에 실패했고, 상대 팀 로봇의 돌진까지 당했으니까요. Anthropic이 대화 녹취록을 Claude로 분석한 결과, Team Claude-less는 부정적 감정과 혼란을 두 배 더 많이 표현했습니다.
하지만 협업 방식에서는 흥미로운 차이가 있었어요. Team Claude-less는 서로에게 44% 더 많은 질문을 했습니다. 초기에 더 깊이 전략을 논의했고, 작업 중에도 자주 상의했죠. 반면 Team Claude 멤버들은 각자 AI 파트너와 함께 병렬적으로 작업하는 경향을 보였습니다. 4명의 Team Claude는 사실상 8개 에이전트(사람 4명 + Claude 4개)로 작동한 셈이었어요.
실험에 참여한 모든 직원은 평소 Claude를 매일 사용합니다. Team Claude-less 멤버들은 실험 중 그리고 실험 후에도 Claude 없이 일하는 게 얼마나 이상했는지 언급했어요. 어떤 이들은 자신의 코딩 실력이 예전만 못하다고 느꼈다고 말했죠. Claude Code가 출시된 지 불과 6개월 만에 일어난 변화입니다.
이 실험이 의미하는 것
Anthropic은 이 실험을 단순한 재미로 한 게 아닙니다. AI 분야에서는 흔히 이런 패턴이 나타나거든요. AI가 오늘 인간을 도와 할 수 있는 일은, 내일 AI 혼자 할 수 있는 일이 됩니다. 코딩이 그랬죠. 처음엔 디버깅을 도와주더니, 이제는 작업 자체를 맡깁니다.
로보틱스도 마찬가지 경로를 밟을 수 있습니다. 현재 Claude는 로봇 제어 작업을 완전히 자율적으로 수행할 수준은 아닙니다. 하지만 이 실험은 AI가 이전에 접해보지 못한 하드웨어와 성공적으로 상호작용할 수 있는 시점이 곧 올 것임을 시사해요.
Anthropic은 이것을 책임 있는 확장 정책(Responsible Scaling Policy)에서 추적해야 할 역량 임계값으로 보고 있습니다. 진정으로 자율적인 AI R&D는 예측하기 어려운 급격한 발전을 가져올 수 있고, 우리가 신흥 위험을 평가하고 대응하는 속도를 앞지를 수 있기 때문이죠.
물론 한계도 분명합니다. 이건 8명, 하루짜리 실험입니다. 샘플이 작고, 작업도 학술적으로는 흥미롭지만 실용적으로는 사소하죠. 참가자들이 Anthropic 직원이라는 점도 편향을 만들 수 있어요. AI 초보자라면 차이가 더 작았을 겁니다.
하지만 방향은 명확합니다. AI는 이미 디지털 세계를 넘어서고 있습니다. Anthropic은 이 실험을 곧 다시 진행할 예정입니다.
참고자료:
- Claude 4 System Card – Anthropic

답글 남기기