AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

모두가 같은 AI 쓰면 생기는 일, AI 수렴 현상 실증 데이터

2022년 11월, ChatGPT가 출시된 그 주를 기점으로 영국 의회 속기록에서 이상한 변화가 시작됐습니다. 15년간 거의 쓰이지 않던 표현들이 ChatGPT 출시 시점을 기점으로 수직 상승했습니다. “I rise to speak”, “underscores”, “bustling” 같은 표현들이 650명의 의원 발언록에 일제히 등장하기 시작한 것입니다.

사진 출처: Mark Williams-Cook, “Do !not think like a robot” 발표 자료

SEO 전문가 Mark Williams-Cook이 Substack에 쓴 글은 이 현상을 “AI 수렴 문제(AI Convergence Problem)”라 명명하고, 여러 연구 결과와 실증 사례를 들어 설명합니다. 같은 AI를 쓰는 사람들이 점점 같아지고 있다는 이야기입니다.

출처: The AI Convergence Problem – Mark Williams-Cook

LLM이 잘 못하는 것과 잘 하는 것, 둘 다 문제다

LLM의 한계는 이미 잘 알려진 편입니다. Apple 연구팀이 발표한 논문 “The Illusion of Thinking”은 추론 모델들이 문제 복잡도가 일정 수준을 넘으면 정확도가 급격히 떨어지고, 오히려 문제가 어려울수록 더 적은 토큰을 사용한다는 것을 보여줬습니다. 마치 포기하는 것처럼요.

또 다른 연구 GSM-Symbolic에서는 수학 문제에 답과 무관한 조건 하나를 추가했을 때 성능이 최대 65%까지 하락했습니다. 보이는 것이 추론이 아니라 패턴 매칭이라는 뜻입니다.

세차장 예시가 이를 잘 보여줍니다. “세차장이 100m 거리에 있는데 걸어갈까요, 차를 몰고 갈까요?” 라는 질문에 ChatGPT, Claude, Grok 모두 “걸어가세요, 운동도 되고 친환경적이에요”라고 답했습니다. 차를 세차하려면 차가 그곳에 있어야 한다는 사실을 놓친 것이죠. 학습 데이터에 “짧은 거리는 걷는 게 낫다”는 맥락이 압도적으로 많았기 때문입니다.

그런데 Mark의 글이 지적하는 더 중요한 문제는, LLM이 잘 하는 영역에서 나타납니다.

잘 할수록 평균으로 수렴한다

LLM이 어떤 작업을 잘 한다는 것은, 그 작업에 관한 학습 데이터가 충분히 많다는 의미입니다. 같은 인터넷 데이터로 훈련된 모델들은 비슷한 평균값을 향해 결과를 생성합니다. 이를 뒷받침하는 연구들이 여럿 있습니다.

컬럼비아대·MIT 연구팀은 LLM 에이전트에게 정체성과 관련된 선택을 맡겼을 때 사람들의 선택이 더 대중적인 방향으로 이동하고, 개인의 독특한 취향이 줄어든다는 것을 발견했습니다. 이를 “Basic B*** Effect”라고 불렀습니다.

Science Advances에 실린 또 다른 연구는 생성형 AI가 개인의 창의성은 높여주지만 집단 전체의 콘텐츠 다양성을 줄인다는 것을 보여줍니다. 각자의 글은 더 나아지지만, 모두의 글이 비슷해지는 현상입니다. LLM의 “mode collapse” 연구도 이와 같은 방향을 가리킵니다. 여러 유효한 답이 존재함에도 모델이 같은 몇 가지 패턴을 반복한다는 것입니다.

의회 속기록에서 포착된 수렴

앞서 언급한 영국 의회 사례가 이를 가장 선명하게 보여줍니다. Pimlico Journal이 2007년부터 2025년까지 하원 속기록(Hansard)을 분석한 결과, ChatGPT 출시 시점을 기점으로 특정 표현의 사용 빈도가 수직 상승했습니다. “I rise to speak”는 Z-score 3.60까지 치솟았고, 이 현상은 The Telegraph에도 보도됐습니다.

각자 지역구가 다르고, 추구하는 정치적 의제가 다르고, 개인 브랜드를 만들어야 하는 650명의 의원들이 같은 표현을 쓰기 시작했다는 것은, 차별화를 목표로 하는 모든 영역에 시사하는 바가 큽니다.

수렴은 공모나 태만이 아닌, 구조적으로 발생합니다. 같은 학습 데이터, 같은 최적화 목표, 빠른 피드백 루프—이 세 가지가 겹치면 다양한 출발점에서 시작했더라도 같은 지점으로 수렴하게 됩니다.

수렴이 중요한 이유

LLM이 생성한 콘텐츠가 서로 비슷해진다는 것은, 그 콘텐츠를 통해 차별화하려는 시도가 구조적으로 어려워진다는 의미입니다. 개인이 AI 도구를 활용해 더 많은 것을 빠르게 만들어낼 수 있게 됐지만, 그 결과물이 타인의 것과 점점 구분되지 않는다면 생산성 향상이 가져다주는 이점이 상쇄됩니다.

반대로, 이 현상을 이해하고 있다면 역설적으로 기회가 됩니다. 수렴하지 않는 것—직접 경험, 독자적인 관점, 공개된 학습 데이터에 없는 정보—의 가치가 높아지기 때문입니다. Mark 본인이 LinkedIn에서 MS Paint로 그린 엉터리 그림이 AI 생성 이미지보다 더 많은 반응을 얻은 것도 같은 맥락입니다. 사람이 만든 흔적이 희소해질수록, 그것은 눈에 띄게 됩니다.

원문에는 수렴 메커니즘의 세부 분석과 소프트웨어 영역에서의 유사 사례도 다루고 있습니다.

참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다