이미지 출처: Aurich Lawson/Ars Technica
최근 인공지능 기술은 눈부신 속도로 발전하고 있습니다. OpenAI의 GPT 모델부터 앤트로픽(Anthropic)의 클로드(Claude)까지, 대형 언어 모델들은 인간과 거의 구분할 수 없는 텍스트를 생성하고 복잡한 질문에 답변하는 능력을 보여주고 있습니다. 이런 발전 속도를 보면 ‘인공 일반 지능(AGI)’ – 인간 수준의 지능을 갖춘 AI 시스템이 곧 등장할 것처럼 느껴집니다.
하지만 앤트로픽의 최신 AI 모델인 클로드 3.7 소넷이 ‘포켓몬 레드’ 게임을 플레이하는 데 겪는 어려움을 보면, 우리는 아직 진정한 AGI에 도달하기까지 꽤 멀리 있다는 것을 알 수 있습니다. 어린이들을 위해 설계된 게임에서도 고전하는 AI를 보면서, 일부 AI 기업들이 주장하는 “곧 도래할 슈퍼인텔리전스”라는 전망이 얼마나 현실적인지 생각해 볼 필요가 있습니다.
‘클로드 플레이 포켓몬’ 실험의 의미
앤트로픽은 지난 2월 “클로드 플레이 포켓몬(Claude Plays Pokémon)” 실험을 통해 자사의 최신 AI 모델인 클로드 3.7 소넷의 능력을 선보였습니다. 이 실험은 AI가 단순한 훈련을 넘어 “일반화된 추론(generalized reasoning)”을 통해 도전적인 과제를 해결할 수 있음을 보여주는 중요한 사례로 소개되었습니다.
이미지 출처: Anthropic
지난 1년간 클로드의 여러 버전들은 포켓몬 게임에서 꾸준한 진전을 보여왔습니다. 약 1년 전 모델은 게임의 시작 지역을 벗어나는 것조차 어려워했지만, 최신 클로드 3.7 소넷은 여러 체육관 배지를 획득하는 성과를 거뒀습니다. 앤트로픽은 이러한 발전이 클로드 3.7 소넷의 “확장된 사고(extended thinking)” 능력 덕분이라고 설명합니다. 새 모델은 “미리 계획하고, 목표를 기억하며, 초기 전략이 실패했을 때 적응하는” 능력을 갖추고 있다는 것이죠.
눈에 띄는 한계: 아이들 게임에서도 고전하는 AI
하지만 Twitch에서 생중계되는 ‘클로드 플레이 포켓몬’ 스트림을 지켜본 사람들은 클로드가 게임에서 일관된 진전을 이루는 데 계속 어려움을 겪는 모습을 목격했습니다. 각 행동 사이에 긴 “사고” 시간을 가짐에도 불구하고, 클로드는 자주 이미 완료한 마을을 재방문하거나, 맵의 막다른 골목에 갇히거나, 도움이 되지 않는 NPC와 반복적으로 대화하는 등의 문제를 보였습니다.
특히 충격적인 사례는 클로드가 ‘마운트 문(Mt. Moon)’이라는 비교적 간단한 지역을 탐색하는 데만 무려 78시간을 소요한 것입니다. 일반적으로 어린 아이들은 이 구간을 몇 시간 내에 통과합니다. 이런 모습을 보면서 과연 클로드가 “슈퍼인텔리전스”의 시작점이라고 볼 수 있을지 의문이 듭니다.
이미지 출처: Claude Plays Pokemon / Twitch
서로 다른 영역에서의 AI 능력 차이
흥미로운 점은 클로드가 다른 유형의 게임 상호작용에서는 상당히 다른 수준의 능력을 보인다는 것입니다. 앤트로픽의 직원 데이비드 허시(David Hershey)에 따르면, 클로드는 포켓몬 게임의 텍스트 기반 부분에서는 비교적 뛰어난 성능을 보이지만, 2D 그래픽 해석과 공간 탐색에서는 큰 어려움을 겪습니다.
“클로드는 게임 화면에 표시되는 내용을 이해하는 데 여전히 그리 좋지 않습니다,” 허시는 말합니다. “벽에 걸어들어가려는 시도를 자주 볼 수 있을 겁니다.”
반면에 포켓몬 배틀 동안에는 클로드가 게임 텍스트에서 중요한 정보를 인식하고 활용하는 능력을 보여줍니다. 예를 들어, 전기 타입 공격이 바위 타입 포켓몬에게 “별로 효과적이지 않다”는 게임 메시지를 이해하고, 이 정보를 미래 전투를 위해 저장합니다. 또한 여러 정보를 통합하여 전투 전략을 수립하고, 더 나아가 미래 배틀을 위한 포켓몬 팀 관리 계획까지 세울 수 있습니다.
“텍스트 부분을 먼저 구축했고, 텍스트 부분이 확실히… 더 강력합니다. 이러한 모델들이 이미지를 처리하는 방식은 점점 좋아지고 있지만, 아직 뒤쳐져 있다고 생각합니다,” 허시는 AI 발전의 현 상태를 설명합니다.
AI의 메모리와 자기 수정 능력의 한계
클로드의 또 다른 주요 한계는 메모리 관리와 잘못된 정보의 수정 능력에 있습니다. 현재 모델은 200,000 토큰이라는 “컨텍스트 윈도우”를 가지고 있어, 한 번에 저장할 수 있는 관계형 정보의 양이 제한됩니다. 이 한계에 도달하면 클로드는 세부 사항을 압축하는 요약 과정을 거치는데, 이 과정에서 중요한 정보가 손실될 수 있습니다.
더 큰 문제는 클로드가 자신의 지식 베이스에 잘못된 정보를 삽입했을 때 발생합니다. 이러한 오류는 시스템의 이후 모든 판단에 영향을 미칩니다.
이미지 출처: Claude Play Pokemon / Twitch
“과거에 기록된 것들은 꽤 맹목적으로 신뢰합니다,” 허시는 말합니다. “비리디안 숲의 출구를 특정 좌표에서 찾았다고 확신하게 된 경우, 그 잘못된 좌표 주변의 작은 영역을 몇 시간 동안 계속 탐색하는 모습을 볼 수 있습니다. 그것이 ‘실패’라고 결정하는 데 매우 오랜 시간이 걸립니다.”
AI의 미래: 우리는 어디로 향하고 있는가?
클로드 3.7 소넷이 여전히 포켓몬 게임에서 고전하는 모습을 보면, 오픈AI의 CEO 샘 알트만(Sam Altman)이 암시한 “박사 수준의” AI 에이전트나 일론 머스크(Elon Musk)가 예측한 “2025년 말까지 어떤 인간보다 스마트한 AI”가 등장할 것이라는 전망이 과장되어 보입니다.
허시 역시 현재의 한계를 인정하면서도 낙관적인 태도를 보입니다. “무언가를 전혀 할 수 없는 것과 ‘어느 정도’ 할 수 있는 것의 차이는 AI에게 꽤 중요합니다. 무언가를 어느 정도 할 수 있다는 것은 일반적으로 정말 잘할 수 있게 되는 데 꽤 가까워졌다는 의미입니다.”
과대광고와 실제 진전 사이에서
현재 AI 기술에 대한 과대광고가 넘쳐나는 상황에서, 클로드의 포켓몬 게임 플레이 실험은 현실을 바라볼 수 있는 흥미로운 창을 제공합니다. 최신 AI 모델이 어린이용 게임에서도 고전하는 모습은 일부 AI 기업들이 주장하는 “임박한 AGI 시대”에 대한 과장된 전망을 경계할 필요성을 보여줍니다.
하지만 동시에 1년 전 모델과 비교했을 때 클로드 3.7 소넷이 이룬 진전은 분명히 인상적입니다. 게임 환경에 대한 특별한 훈련 없이도 복잡한 게임 메커니즘을 이해하고 전략을 세울 수 있는 능력은 놀라운 발전입니다.
AI의 발전이 계속된다면, 우리는 AI가 훨씬 더 복잡한 과제를 해결하는 날을 볼 수 있을 것입니다. 그러나 현재로서는 AGI는 여전히 먼 미래의 일로 보입니다. AI는 특정 영역에서는 인간 수준의 성능을 보이지만, 어린이들이 쉽게 해결하는 공간 탐색과 같은 과제에서도 어려움을 겪고 있습니다.
이 실험은 AI 연구가 얼마나 발전했는지, 그리고 동시에 인간 수준의 범용 지능에 도달하기까지 얼마나 갈 길이 먼지를 보여주는 흥미로운 사례입니다. 완전한 AGI에 도달하지 못한 현 상황에서도, AI는 이미 다양한 분야에서 혁신적인 응용 가능성을 보여주고 있습니다. 포켓몬 게임을 정복하지 못하더라도, 오늘날의 AI는 여전히 놀라운 기술적 성취를 대표합니다.
답글 남기기