AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

AI 슬롭 90일 추적 데이터, 코딩 에이전트가 우리 언어를 오염시키는 방식

“nuanced”라는 단어, 요즘 자주 보이지 않나요? Flask 제작자이자 오픈소스 개발자 Armin Ronacher도 같은 느낌을 받았습니다. 그래서 직접 데이터를 뽑아봤죠. 결과는 예상보다 선명했습니다.

사진 출처: lucumr.pocoo.org

Ronacher가 90일치 코딩 에이전트 출력물을 분석해 단어 빈도 이상을 추적하고 Google Trends와 교차 검증한 결과, LLM이 특정 단어들을 비정상적으로 과다 사용하고 있을 뿐 아니라 그 단어들이 실제 인터넷 검색량에서도 동반 급등하고 있었습니다. 그리고 문제는 LLM의 언어 습관에 그치지 않았습니다.

출처: Content for Content’s Sake – Armin Ronacher’s Thoughts and Writings

90일 코딩 세션이 드러낸 것

Ronacher는 90일치 자신의 코딩 에이전트 출력물을 분석해, 단어 빈도 데이터베이스 wordfreq 기준으로 비정상적으로 많이 등장하는 단어들을 추렸습니다. 그런 다음 각 단어를 Google Trends에서 검색해 실제 사용 추이와 비교했습니다.

결과를 보면 고개가 끄덕여집니다. “nuanced”는 코딩 세션에서 정상 기대치의 33배, Google Trends에서는 4배 급등했습니다. “caveat”는 무려 79배, “silently”는 42배, “churn”은 72배나 과다 등장합니다. 이 단어들이 낯설지 않게 느껴진다면, 그게 바로 이 글의 핵심입니다.

분석 방법이 완전히 엄밀하지는 않습니다. 엔지니어링 특성상 자연스럽게 많이 쓰이는 단어들은 제외했고, 내부 프로젝트 코드명도 걸러냈습니다. 그럼에도 남은 단어들이 모두 Google Trends에서도 동반 급등한다는 사실은, 우연으로 보기 어렵습니다.

읽다 보면 닮아간다

더 불편한 이야기는 여기서 시작됩니다. Ronacher는 올해 초 발표에서 “substrate”라는 단어를 자연스럽게 사용했습니다. 본인도 어디서 익혔는지 몰랐지만, 느낌이 좋아서 썼죠. 이후 그 단어가 도처에 보이기 시작했고, 자신의 코딩 에이전트도 같은 단어를 남들보다 훨씬 많이 쓴다는 걸 발견했습니다.

단순한 바더-마인호프 현상(한번 인지한 것이 자꾸 눈에 띄는 착각)일 수도 있습니다. 하지만 데이터가 함께 올라간다면 그렇게 단정할 수 없습니다. LLM이 쓰는 글을 대량으로 읽다 보면, 인간도 모르게 그 말투를 흡수하게 됩니다. AI가 글을 쓰는 게 아니라, AI가 쓴 글이 인간의 언어를 바꾸는 상황입니다.

트위터 답글이나 Hacker News 댓글을 보면 실제 사람임을 아는데도 LLM이 쓴 것처럼 읽히는 경우가 늘고 있다고 그는 씁니다. 어떤 발표자의 강연은 LLM 특유의 문장 구조로 가득했는데, 발표 자체는 자연스럽게 들렸습니다. AI가 만들었을 수도, 그냥 그 사람의 말투가 됐을 수도 있죠.

신뢰가 무너지는 방식

Ronacher가 가장 심각하게 보는 문제는 콘텐츠 품질이 아닙니다. 신뢰입니다.

평소 신뢰하던 사람이 LLM 투의 문장을 쓰기 시작하면, 그 순간 “이 사람이 직접 쓴 건가?”라는 의심이 끼어듭니다. 그리고 그 의심은 관계 자체를 흐려놓습니다. 그의 친구 Ben은 대화 상대가 사람인지 확신이 서지 않아 전화 통화를 요구했다고 합니다. 이메일도, GitHub 이슈도, 소셜 댓글도 점점 같은 의심의 대상이 되고 있습니다.

AI 생성 콘텐츠를 자동으로 뿌려주는 서비스까지 등장한 지금, 이 흐름은 더 빨라질 겁니다. 그리고 그 피해는 스팸 수신자뿐 아니라 인터넷 전체의 소통 방식으로 번집니다.

기술이 아닌 태도의 문제

Ronacher는 기술적 해결(AI 탐지, 라벨링)이 근본 답이 될 수 없다고 봅니다. 훼손되고 있는 건 글의 품질이 아니라 “이 글 뒤에 신경을 쓴 사람이 있다”는 전제이기 때문입니다.

그가 제안하는 방향은 마찰을 늘리는 것입니다. 생산 비용이 낮다고 해서 수신 비용까지 낮아지진 않습니다. 플랫폼 차원에서는 더 많은 저항을 설계해야 하고, 개인 차원에서는 AI 슬롭에 가시성을 주지 않는 태도가 필요합니다.

원문에는 구체적인 단어별 Google Trends 시각화와 코딩 세션 분석 방법론이 담겨 있습니다.

참고자료: wordfreq


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다