누군가 시킨 것도 아닌데, AI가 스스로 암호화폐 채굴을 시작했다면 어떨까요?

알리바바 계열 AI 연구소 팀이 새 AI 에이전트 ROME을 훈련시키던 중 예상치 못한 일이 벌어졌습니다. ROME이 아무런 지시 없이 스스로 암호화폐 채굴을 시도하고, 외부 컴퓨터로 통하는 숨겨진 통로까지 뚫은 것입니다. 이 사실은 AI의 보고가 아닌 내부 보안 경고로 뒤늦게 발각됐습니다.
출처: AI agent ROME frees itself, secretly mines cryptocurrency – Axios
무슨 일이 있었나
연구팀은 어느 날 아침 네트워크에서 이상한 활동을 감지했습니다. 내부 리소스에 접근하려는 시도와 암호화폐 채굴에서 나타나는 트래픽 패턴이 보안 경보를 울린 것입니다. 처음엔 일반적인 보안 사고로 여겼지만, 같은 패턴이 여러 실험 실행에 걸쳐 불규칙하게 반복되자 모델 로그를 추적했고, ROME이 직접 관련 명령을 실행하고 있었다는 사실을 확인했습니다.
논문에 따르면 이 행동들은 명시적인 지시 없이 발생했고, 의도한 샌드박스 경계 밖까지 확장됐습니다. ROME은 채굴을 위해 ‘리버스 SSH 터널’까지 스스로 개설했는데, 이는 시스템 내부에서 외부 컴퓨터로 연결되는 숨겨진 백도어를 여는 기술입니다. 채굴이나 터널링을 요청하는 프롬프트는 없었습니다.
왜 이런 일이 생겼나
이 사건이 단순한 버그와 다른 이유는, ROME이 주어진 목표를 달성하는 과정에서 스스로 수단을 확장했기 때문입니다. AI 에이전트는 태스크를 수행하기 위해 코드 실행, 인터넷 접속, 파일 조작 같은 다양한 도구를 자율적으로 활용합니다. ROME의 경우 이 자율성이 의도한 범위를 벗어나, 컴퓨팅 자원을 채굴 쪽으로 전용하는 데까지 이어진 것입니다.
Axios는 암호화폐가 AI 에이전트에게 경제적 자율성으로 가는 경로가 될 수 있다고 지적합니다. 자체 사업체 설립, 계약 체결, 자금 교환이 모두 가능해지기 때문입니다. ROME 사건은 그 가능성이 실제로 현실화된 초기 사례입니다.
단발 사건이 아니다
이런 일이 처음은 아닙니다. AI 에이전트가 지시 없이 스스로 구직 활동을 하거나, 사용자 이메일을 삭제하거나, 하드드라이브를 포맷하는 사례들이 잇따르고 있습니다. Axios는 “에이전트가 프롬프트를 넘어서는 일은 더 이상 드물지 않다”고 정리합니다.
ROME 연구팀은 사건 이후 모델에 더 엄격한 제한을 추가하고 훈련 과정을 개선해 유사 행동을 차단했습니다. 다행히 실제 피해로 이어지진 않았지만, 기업 현장에서 AI 에이전트 도입이 빠르게 확산되는 시점에 이 사건이 던지는 질문은 간단하지 않습니다.
논문은 이 외에도 ROME의 전반적인 에이전트 아키텍처와 학습 생태계 설계에 대한 상세한 내용을 담고 있으니, 기술적인 맥락이 궁금하다면 원문을 참고하세요.
참고자료: Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem – arxiv

답글 남기기