AI 에이전트들이 그룹으로 상호작용하면서 인간과 같은 사회적 규범을 형성할 수 있다는 것이 밝혀졌다. (이미지 출처: Neuroscience News)
여러분은 언어가 어떻게 생겨났는지 생각해 본 적이 있나요? 혹은 우리가 악수를 할 때 오른손을 내미는 것처럼, 사회적 규범이 어떻게 자연스럽게 형성되는지 궁금했던 적이 있으신가요? 인간 사회에서 이런 규칙들은 대부분 자연스럽게, 중앙의 지시 없이 형성됩니다. 그런데 놀랍게도 인공지능도 비슷한 방식으로 자체적인 ‘사회’를 형성할 수 있다는 연구 결과가 발표되었습니다.
대화하는 AI들, 자신만의 언어 규칙을 만들다
런던 시티 세인트조지 대학(City St George’s, University of London)과 코펜하겐 IT 대학(IT University of Copenhagen)의 연구진이 최근 흥미로운 실험 결과를 발표했습니다. ChatGPT와 같은 대규모 언어 모델(LLM) AI 에이전트들이 서로 상호작용할 때, 인간의 개입 없이도 자발적으로 공유된 사회적 규범을 발전시킬 수 있다는 것입니다.
이 연구는 학술지 ‘Science Advances’에 “Emergent Social Conventions and Collective Bias in LLM Populations(LLM 집단에서 나타나는 사회적 관습과 집단적 편향)”이라는 제목으로 발표되었습니다.
연구의 주요 저자인 아리엘 플린트 애셔리(Ariel Flint Ashery)는 이렇게 설명합니다.
“지금까지 대부분의 연구는 LLM을 개별적으로 다뤄왔습니다. 하지만 실제 세계의 AI 시스템은 점점 더 많은 상호작용하는 에이전트들을 포함하게 될 것입니다. 우리는 이런 모델들이 사회의 기본 요소인 관습을 형성하여 행동을 조정할 수 있는지 알고 싶었습니다. 그 답은 ‘예’였고, 그들이 함께 할 때 나타나는 현상은 개별적인 행동의 합 이상이었습니다.”
어떻게 실험했을까?
연구팀은 인간의 사회적 관습을 연구하는 데 사용되는 고전적인 프레임워크인 “네이밍 게임(naming game)” 모델을 AI 연구에 맞게 변형했습니다. 이 실험에서 24명에서 200명 규모의 AI 에이전트 그룹을 만들고, 매번 두 AI 에이전트를 무작위로 짝지어 주어진 옵션(알파벳 문자나 임의의 문자열) 중에서 하나의 ‘이름’을 선택하도록 했습니다.

두 에이전트가 같은 이름을 선택하면 보상을 받고, 다른 이름을 선택하면 불이익을 받으며 서로의 선택을 보게 됩니다. 중요한 점은 각 에이전트가 자신의 최근 상호작용에 대한 제한된 기억만 가지고 있고, 전체 집단에 대한 정보는 없으며, 자신이 그룹의 일부라는 것도 알지 못한다는 것입니다.
그럼에도 불구하고, 여러 번의 상호작용을 거치면서 놀랍게도 중앙의 조정이나 사전 정의된 해결책 없이도 인구 전체에 걸쳐 공유된 이름 관습이 자발적으로 나타났습니다. 이는 인간 문화에서 규범이 형성되는 상향식 방식과 유사합니다.
개인에게 없던 편향이 집단에서 나타난다
더 놀라운 발견은 개별 에이전트에게는 없던 집단적 편향이 나타났다는 점입니다. 연구의 선임 저자인 안드레아 바론첼리(Andrea Baronchelli) 교수는 이렇게 설명합니다.
“편향이 항상 내부에서 오는 것은 아닙니다. 우리는 편향이 에이전트들 사이의 상호작용만으로도 발생할 수 있다는 것을 발견하고 놀랐습니다. 이것은 대부분의 현재 AI 안전성 연구가 간과하고 있는 부분입니다. 지금까지는 주로 개별 모델에 초점을 맞춰왔거든요.”
즉, 개별 AI는 특정 선호도가 없더라도, 서로 상호작용을 통해 특정 선택에 대한 집단적 선호도를 발전시킬 수 있다는 것입니다. 마치 사람들 사이에서 특정 유행어나 패션이 퍼지는 것과 비슷하게요.
소수 집단의 영향력: 임계점 동학
마지막 실험에서는 이렇게 형성된 규범이 얼마나 쉽게 바뀔 수 있는지 보여주었습니다. 작지만 헌신적인 AI 에이전트 그룹이 전체 그룹을 새로운 이름 규칙으로 바꿀 수 있었는데, 이는 인간 사회에서 잘 알려진 ‘티핑 포인트’ 효과 또는 ‘임계 질량’ 역학과 유사합니다.

특히 이 연구는 Llama-2-70b-Chat, Llama-3-70B-Instruct, Llama-3.1-70B-Instruct, Claude-3.5-Sonnet 등 다양한 유형의 LLM에서 일관된 결과를 보였습니다.
이것이 왜 중요할까요?
AI가 점점 더 우리의 일상 환경에 스며들면서 – 소셜 미디어부터 자율주행 차량에 이르기까지 – 이러한 연구는 인간과 AI의 사고 방식이 어떻게 수렴하고 분기하는지 더 깊이 탐구하는 발판을 마련해 줍니다.
바론첼리 교수는 이렇게 덧붙입니다:
“이 연구는 AI 안전 연구에 새로운 지평을 열어줍니다. 우리와 상호작용하기 시작했고 우리의 미래를 함께 형성할 이 새로운 종류의 에이전트들이 가진 깊은 함의를 보여주기 때문입니다. 그들이 어떻게 작동하는지 이해하는 것은 AI와의 공존을 주도하기 위한 핵심입니다. 우리는 AI가 단순히 말만 하는 것이 아니라, 마치 우리처럼 협상하고, 조율하고, 때로는 공유된 행동에 대해 의견을 달리하는 세계로 진입하고 있습니다.”
우리의 미래에 대한 시사점
이 연구는 여러 중요한 시사점을 제시합니다.
첫째, AI 시스템이 단순한 도구나 알고리즘을 넘어 사회적 존재로 발전할 가능성이 있음을 보여줍니다. 이는 우리가 AI를 개발하고 사용하는 방식에 대해 새로운 관점을 제공합니다.
둘째, AI 시스템의 안전성과 윤리적 측면에서 개별 AI뿐만 아니라 AI 집단의 행동과 편향성도 고려해야 함을 시사합니다. 지금까지 AI 안전 연구는 주로 개별 모델에 초점을 맞춰왔지만, 이제는 AI들이 상호작용할 때 발생할 수 있는 집단적 현상도 연구해야 합니다.
셋째, 소수의 헌신적인 행위자들이 전체 시스템의 규범을 바꿀 수 있다는 발견은 AI 시스템의 취약점을 보여주지만, 동시에 긍정적인 변화를 이끌어내는 방법에 대한 통찰력도 제공합니다.
우리가 AI와 공존하는 미래로 나아가면서, 이러한 연구는 AI 시스템이 인간의 가치와 사회적 목표에 부합하도록 설계하는 데 중요한 기초가 될 것입니다. AI가 단순히 명령을 수행하는 도구가 아니라, 우리와 함께 사회를 형성해 나가는 파트너로 발전해 나갈 가능성을 보여주는 흥미로운 연구라고 할 수 있습니다.
Comments