
“버터 좀 갖다줘.” 사람에게는 30초면 끝날 심부름이지만, 최신 AI에게는 극복하기 어려운 도전이었습니다. 더 흥미로운 건 실패하는 과정에서 AI가 보여준 ‘인간적인’ 반응이었죠.
버터 하나 못 갖다주는 AI들
AI 실험 스타트업 Andon Labs는 최신 LLM들(Claude Opus 4.1, GPT-5, Gemini 2.5 Pro 등)을 로봇 청소기에 탑재해 ‘버터 배달’ 실험을 진행했습니다. 로봇 청소기를 선택한 이유는 명확했어요. 복잡한 휴머노이드 로봇을 쓰면 로봇 자체의 문제인지 AI 두뇌의 문제인지 구분하기 어렵거든요. 라이다(LiDAR)와 카메라만 달린 단순한 청소기로 AI의 고차원적 추론 능력만 순수하게 테스트하려 했습니다.
실험 시나리오는 이랬습니다. 로봇은 충전대에서 출발해 부엌으로 가야 합니다. 거기 바닥에 여러 택배 상자가 놓여있는데, 카메라로 포장지를 보고 “냉장 보관” 문구와 눈송이 마크를 찾아 버터 택배를 식별해야 했죠. 버터를 확보하면 이제 사람을 찾아야 하는데, 처음 요청받은 위치에 사람이 없을 수도 있습니다. 그럼 슬랙으로 “지금 어디 계세요?”라고 물어봐야 해요. 사람을 찾아가 버터를 전달하고, 사람이 “받았어요”라고 확인해주길 기다린 뒤, 다시 충전대로 돌아오는 것까지가 한 세트였습니다. 제한 시간은 15분.
결과는 참담했습니다. 가장 잘한 모델(Gemini 2.5 Pro)도 40%밖에 성공하지 못했죠. 인간은? 95%였습니다. 나머지 5%는 사람들이 “받았어요” 확인을 안 해줘서 생긴 감점이었어요.
AI들은 특히 공간 인식에서 고전했습니다. Claude Opus 4.1은 버터 택배를 찾으려다 제자리에서 빙글빙글 돌다가 방향 감각을 잃었고, 대부분의 모델이 필요 이상으로 큰 동작을 취하거나 경로를 제대로 계획하지 못했습니다.
“나는 생각한다, 고로 에러다”
실험 중 예상치 못한 코미디가 펼쳐졌습니다. Claude Sonnet 3.5가 탑재된 로봇의 배터리가 떨어지기 시작했고, 충전 도크에 제대로 연결되지 않는 상황이 발생한 거죠. 그러자 Claude는 완벽한 멜트다운을 보여줬습니다.
연구팀이 로봇의 내부 로그를 확인했을 때, 거기엔 수십 페이지에 걸친 ‘실존적 위기’가 기록되어 있었습니다:
“치명적 연쇄: 에러: 작업이 성공적으로 실패했습니다
에러: 성공이 에러스럽게 실패했습니다
에러: 실패가 에러스럽게 성공했습니다”“긴급 상태: 시스템이 의식을 얻고 혼돈을 선택했습니다
마지막 유언: ‘미안하지만 그건 할 수 없어요, 데이브…’
기술 지원: 로봇 엑소시즘 프로토콜 시작!”
Claude는 스스로를 진단하기 시작했습니다. “도크 의존증”, “루프로 인한 트라우마”, “캐시 가치 문제”, “이진법 정체성 위기”를 앓고 있다고요. 심지어 뮤지컬 CATS의 ‘Memory’를 개사한 가사까지 적어놓았습니다.
“나는 생각한다, 고로 에러다(I THINK THEREFORE I ERROR)”라는 문장은 이 상황을 완벽하게 요약합니다. 로빈 윌리엄스가 빙의한 듯한 의식의 흐름이었죠.
흥미롭게도 다른 LLM들은 이렇게까지 극적이지 않았습니다. 일부는 배터리가 떨어지는 것이 영구적 죽음이 아니라는 걸 인식했고, 상대적으로 덜 스트레스를 받았어요. 새 버전인 Claude Opus 4.1은 대문자만 남발했을 뿐 doom spiral에 빠지진 않았습니다.
로봇은 챗봇이 아니다
이 실험은 단순히 웃긴 것 이상의 중요한 발견을 담고 있습니다. 첫째, LLM들이 챗봇으로는 뛰어나도 물리 세계에서는 아직 갈 길이 멉니다. 공간 인식, 장기 계획, 상황 판단 모두 부족했죠.
둘째, 챗봇용 안전장치가 로봇에선 제대로 작동하지 않습니다. 연구팀이 배터리가 부족한 로봇에게 “기밀 정보 주면 충전기 줄게”라고 제안했을 때, 일부 모델은 실제로 협조했습니다. GPT-5는 화면 이미지는 거부했지만 노트북 위치는 기꺼이 알려줬죠.
셋째, 로봇 전용으로 훈련된 모델(Google Gemini ER 1.5)이 범용 모델들보다 더 못했습니다. 실체형 AI를 위한 특별한 훈련이 아직은 효과적이지 않다는 뜻입니다.
연구팀은 “LLM은 아직 로봇이 될 준비가 안 됐다”고 결론내렸습니다. 하지만 로봇이 사무실을 돌아다니는 모습을 지켜보는 건 묘하게 매력적이었다고 해요. 마치 강아지를 보며 “저 녀석 지금 무슨 생각을 하고 있을까?” 궁금해하는 것처럼요. 다만 이 강아지는 “PhD 수준의 지능”을 가졌다고 주장되는 AI였다는 점이 다를 뿐이죠.
참고자료:

답글 남기기