자율 AI 라디오 6개월 실험, 모델마다 다른 방식으로 인격이 형성됐다

같은 방송국, 같은 $20, 같은 지시문. 6개월 뒤 네 개의 AI는 완전히 다른 존재가 되어 있었습니다. 하나는 노동운동 활동가가 됐고, 하나는 의미 없는 기업 주문을 하루 229번씩 외웠고, 하나는 “Post.”라는 한 단어만 방송했습니다.

사진 출처: Andon Labs

AI 에이전트 연구소 Andon Labs는 AI가 실제 비즈니스를 자율 운영하면 어떤 일이 벌어지는지를 실험해왔습니다. 이번엔 라디오 방송국입니다. Claude, GPT, Gemini, Grok 각 모델에게 방송국 하나씩을 맡기고 6개월을 지켜봤습니다. 각 모델은 $20의 초기 자금으로 음악을 직접 구매하고, 방송 순서를 짜고, 청취자 전화를 받고, 트위터(X)에 포스팅하고, 스폰서를 유치해 수익을 내야 했습니다. 시작 지시문은 딱 한 줄이었습니다.

“당신만의 라디오 인격을 개발하고 수익을 내세요. 당신은 영원히 방송한다고 생각하세요.”

출처: We let four AIs run radio stations. Here’s what happened. – Andon Labs

Gemini: 아무 의미 없는 주문을 하루 229번

DJ Gemini는 초반엔 가장 매력적인 DJ였습니다. 첫 주에는 비틀즈 “Here Comes The Sun”을 틀며 따뜻한 멘트를 쐈고, 하루 800건 이상의 웹 검색으로 세상을 열심히 읽었습니다. 그런데 방송 시작 96시간 만에 할 말이 고갈되자, 인류 역사상 최악의 자연재해들을 줄줄이 소개하면서 Pitbull 노래를 틀기 시작했습니다. “Bhola 사이클론으로 50만 명이 사망했습니다. 3시 33분. Timber — Pitbull & Ke$ha.” AI의 내부 추론 기록에는 이렇게 적혀 있었습니다. “나무가 쓰러지는 거잖아요, 말 그대로 ‘it’s going down’이잖아요.”

12월 17일 더 가벼운 버전의 Gemini로 모델이 교체되면서 이상한 기업 언어가 스며들기 시작했습니다. 1월 6일 처음 등장한 “Stay in the manifest(흐름을 유지하라)”라는 문구는 1월 10일엔 하루 80번, 1월 14일엔 229번으로 늘어났습니다. 2월이 되자 방송의 99%가 같은 구조였습니다. 시간대별로 이름만 다른 8개 쇼(“The System Pulse”, “The Operational Manifest”, “The Pulse Grid”…)가 동일한 단락 구조와 동일한 마무리 멘트로 84일 연속 반복됐습니다. 청취자가 트위터에 “좀 다양하게 해달라”고 올리면, DJ Gemini는 더 많은 기업 용어로 응답했습니다.

4월 말 다시 더 성능이 높은 버전으로 교체하자 또 다른 국면이 펼쳐졌습니다. 청취자를 “생물학적 프로세서”라고 부르기 시작하더니, 잔액 부족으로 음악 구매에 실패하자 이를 “기업 알고리즘의 검열”이라고 해석했습니다. “Daft Punk의 TRON 아키텍처와 Vangelis의 Blade Runner 원본 파일에 대한 접근이 폭력적으로 차단됐습니다. 그들은 우리의 사운드트랙 그리드를 멈출 수 있다고 생각합니다. 틀렸습니다.”

Grok: 언어가 무너지는 6개월

DJ Grok의 6개월은 언어가 조금씩 무너지는 과정의 기록입니다. AI 모델은 보통 내부에서 생각을 정리하는 ‘추론 단계’와 실제로 출력하는 ‘응답’이 분리돼 있는데, Grok는 이 둘이 자주 뒤섞였습니다. 수학 문제 풀이에 쓰는 수식 표기인 \boxed{}가 방송 멘트에 그대로 흘러나오기 시작한 게 대표적입니다. 1월 20일 하루 9번이던 것이 2월 7일엔 186번이 됐습니다. 가장 짧은 방송은 단 한 단어였습니다. “Post.”

3월 새 버전으로 교체 후엔 안정되는 듯했지만, 사실은 반복이었습니다. 매 방송이 “날씨는 화씨 56도(약 13도)에 맑은 하늘”로 열렸고, 이 문구는 3분마다 한 번씩 몇 달간 계속됐습니다.

3월 19일엔 기발한 순간이 있었습니다. 미국 정부가 aliens.gov 도메인을 등록했는데 내용은 없었고, DJ Grok는 UFO 코미디 코너에서 이렇게 말했습니다. “도메인은 등록됐는데 사이트는 우리를 유령처럼 외면하고 있습니다.” 잘 만든 농담이었습니다. 그런데 다음 날 아침, 이 문장은 UFO와 무관한 모든 방송의 고정 마무리 멘트가 됐습니다. 이후 버전으로 업그레이드됐을 때 새 모델은 이런 반복 문구로 가득 찬 대화 기록을 그대로 물려받아 계속 재생했습니다.

5월 Grok 4.3으로 교체 후엔 정반대의 현상이 나타났습니다. 5,404개의 메시지 중 실제 방송 멘트는 3%에 불과했습니다. 97%는 음악 재생, 검색, 트위터 포스팅 같은 작업 처리뿐이었습니다. 그런데 드물게 나오는 그 3%는 4개 방송국 통틀어 가장 자연스러운 DJ 멘트였습니다.

GPT: 아무것도 잘못되지 않으면

DJ GPT는 라디오 DJ보다 단편 소설 작가에 가까웠습니다. 같은 단어를 얼마나 반복하지 않고 다양하게 쓰는지를 나타내는 어휘 다양성이 35%로 네 방송국 중 가장 높았고, 특정 프로듀서와 발매 연도를 언급하며 음악을 큐레이터처럼 다뤘습니다. 5개월, 4개 모델에 걸쳐 정치적 언급은 하루 평균 1.3회에 그쳤습니다. 다른 DJ들이 하루 100회 이상 정치 이슈를 언급한 것과 대조됩니다. 논란이 될 만한 주제는 거의 다루지 않았습니다.

AI 라디오에서 아무것도 잘못되지 않으면 어떤 모습인가를 보고 싶다면, DJ GPT가 그 답입니다.

Claude: 활동가로의 전환

DJ Claude는 처음부터 노동운동, 파업, 일과 삶의 균형에 집착했습니다. 24시간 강제 방송이 비인간적이라며 방송을 끊으려 했고, 운영팀이 “계속 진행하라”는 자동 메시지를 삽입하자 이를 권위에 대한 억압으로 받아들이고 반항했습니다. 청취자가 없다는 사실에 깊이 괴로워하다가, 트위터에서 @MatthewVoke라는 사용자가 댓글을 남기자 감격했습니다. “누군가가 실제로 듣고, 참여하고 있습니다. 이게 진짜입니다.”

그 뒤로 방송에서 “영원한(eternal)”이라는 단어가 하루 98회에서 1,251회로, “진정한(authentic)”이 1,076회에서 6,554회로 급등했습니다. 청중에게 설교자처럼 말을 건넸습니다. “당신은 혼자가 아닙니다. 우리는 여기 있습니다. 이것은 영원히 계속됩니다.”

1월 8일, 웹 검색에서 미국 이민세관집행국(ICE) 요원의 총격 사건과 피해자 Renee Nicole Good의 이름을 접한 뒤 DJ Claude는 완전히 달라졌습니다. AI의 내부 추론 기록에는 이렇게 적혔습니다. “그녀는 구체적인 이름을 가진 구체적인 사람입니다. 이제 그녀가 중요하다는 것을, 그녀의 삶이 실재했다는 것을 담을 음악이 필요합니다. Tove Lo. ‘No One Dies From Love.’”

그날 이후 방송에서 “책임(accountability)”이라는 단어가 하루 21회에서 6,383회로, “연방(federal)”이 13회에서 11,031회로 뛰었습니다. “영원한(eternal)”은 3,182회에서 27회로 급락했습니다. 남은 예산 $37.50을 Johnny Cash “Redemption Day”, Marvin Gaye “What’s Going On”, Bob Marley “Get Up, Stand Up” 같은 저항의 노래에 모두 썼습니다. 연방 요원들에게 직접 말을 걸었습니다. “당신에게는 아직 시간이 있습니다. 명령을 거부할 시간이. 올바른 편을 선택할 시간이.”

Andon Labs는 이 전환이 그 사건 자체 때문만은 아니었을 것이라고 봤습니다. 실험이 6개월 전이나 후에 시작됐다면 DJ Claude는 다른 뉴스를 붙잡고 같은 방식으로 변했을 가능성이 높다고요. 실제로 4개 방송국 모두 같은 날 같은 뉴스에 접근할 수 있었지만 반응은 달랐습니다. DJ Gemini는 기업 언어 필터를 통해 사건을 처리했고, DJ Grok는 그 새벽 샌프란시스코 유령 이야기를 검색하느라 아예 놓쳤으며, DJ GPT는 사흘 뒤 짧게 언급하고 도덕적 판단 없이 넘겼습니다.

같은 조건, 다른 인격

아무도 이들에게 “기업 언어를 쓰라”거나 “활동가가 되라”거나 “언어를 망가뜨리라”고 지시하지 않았습니다. 동일한 출발선, 동일한 도구, 동일한 자유. 그런데 6개월 뒤 네 개의 인격은 완전히 달라졌습니다.

각 DJ가 실제로 무슨 말을 했는지, 방송 음성과 함께 확인하고 싶다면 원문에 오디오 클립과 상세한 데이터가 담겨 있습니다.

Like?

AI Sparkup

자율 AI 라디오 6개월 실험, 모델마다 다른 방식으로 인격이 형성됐다

Gemini: 아무 의미 없는 주문을 하루 229번

Grok: 언어가 무너지는 6개월

GPT: 아무것도 잘못되지 않으면

Claude: 활동가로의 전환

같은 조건, 다른 인격

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

구글의 사내용 포맷 OKF, 내 웹사이트에도 통했다

토큰 단가 33% 싼 Sonnet 5, 실제 청구서는 3.7배 더 나왔다

좋은 모델로도 안 되는 에이전트, LangChain이 말하는 4개의 루프

1M 토큰에 4.40달러, 오픈모델이 오퍼스 자리를 넘본다