AI Sparkup

복잡한 AI 세상을 읽는 힘 ⚡

AI가 긴 대시(—)를 남발하는 진짜 이유

“AI가 쓴 글인지 어떻게 알아보세요?” 이 질문에 많은 사람들이 같은 답을 내놓습니다. “긴 대시(em-dash, —)를 엄청 많이 쓰잖아요.” 실제로 평소 긴 대시를 즐겨 쓰던 사람들이 AI로 오해받을까 봐 사용을 멈췄다는 이야기까지 나올 정도입니다. 더 흥미로운 건, 프롬프트로 긴 대시를 쓰지 말라고 아무리 요청해도 잘 안 먹힌다는 겁니다. 그런데 정작 AI가 왜 긴 대시를 이렇게 좋아하는지는 명확히 밝혀지지 않았습니다.

설득력 없는 가설들

가장 흔한 설명은 “원래 영어 텍스트에 긴 대시가 많으니까 학습한 대로 쓰는 것”이라는 주장입니다. 하지만 이건 논리에 맞지 않죠. 만약 AI가 쓰는 긴 대시 빈도가 인간과 같다면, 왜 모두가 AI 글의 특징으로 인식할까요?

“긴 대시가 다재다능해서 다음 토큰 예측 시 옵션을 열어둘 수 있다”는 설명도 있습니다. 문장을 이어갈 수도, 새로운 포인트를 시작할 수도 있다는 거죠. 하지만 다른 구두점도 비슷하게 유연합니다. “토큰 효율성 때문”이라는 주장도 있는데, 실제로는 많은 긴 대시를 쉼표로 바꿔도 토큰 수는 같습니다.

RLHF(인간 피드백 강화학습) 작업자들의 영어 방언이 영향을 미쳤을 가능성도 검토됐습니다. OpenAI는 케냐와 나이지리아 같은 아프리카 국가에서 RLHF 작업을 많이 진행했는데, 이것이 GPT-4o가 “delve”(탐구하다) 같은 단어를 자주 쓰는 이유로 알려져 있죠. 하지만 나이지리아 영어 텍스트 데이터를 분석해보니 긴 대시 사용률은 오히려 일반 영어보다 낮았습니다.

가장 유력한 답: 1800년대 후반 도서들

결정적 힌트는 GPT-3.5와 GPT-4o의 차이에 있습니다. GPT-3.5는 긴 대시를 거의 쓰지 않았는데, GPT-4o는 10배나 더 많이 사용합니다. 2022년과 2024년 사이에 무슨 일이 있었을까요?

바로 학습 데이터의 변화입니다. 초기 모델들은 주로 인터넷 데이터와 불법 복제된 현대 도서를 학습했습니다. 하지만 AI 기업들이 더 고품질의 학습 데이터가 필요하다는 걸 깨닫고, 대량의 인쇄 도서를 직접 스캔하기 시작했죠. 법원 문서에 따르면 Anthropic은 2024년 2월부터 이 작업을 시작했고, OpenAI도 비슷한 시기에 같은 일을 했을 가능성이 큽니다.

여기서 핵심은 시대입니다. 구두점 사용 빈도 연구에 따르면, 영어에서 긴 대시 사용률은 1860년경 정점(약 0.35%)을 찍었다가 점차 감소해 현대에는 0.25~0.275% 수준입니다. 즉, 약 30% 차이가 나는 거죠. 불법 복제 도서는 최신 인기작 위주인 반면, AI 기업이 직접 스캔한 도서들은 상대적으로 오래된 것들이 많았을 겁니다. 특히 저작권 없는 고전들이 대량 포함됐을 가능성이 높고요.

실제로 『모비딕』에는 무려 1,728개의 긴 대시가 들어있습니다. AI 모델들이 이런 고전 문학을 대량으로 학습하면서, 자연스럽게 1800년대 후반~1900년대 초반 영어의 구두점 습관까지 배웠다는 설명입니다.

출처: The Washington Post

여전히 남은 질문들

이 가설이 가장 설득력 있지만, 완벽하진 않습니다. 만약 AI가 정말 1800년대 도서에서 배웠다면, 왜 긴 대시만 배우고 다른 고전적 문체는 나타나지 않을까요? 모비딕처럼 쓰지는 않으면서 긴 대시만 따라 하는 이유는 뭘까요?

또 다른 가능성도 있습니다. 긴 대시가 더 대화체처럼 느껴져서 RLHF 작업자들이 선호했고, 이것이 점점 강화됐을 수도 있습니다. 실제로 샘 알트먼은 인터뷰에서 “사람들이 좋아해서 긴 대시를 더 넣었다”고 언급한 적이 있죠.

확실한 건, AI 글쓰기의 가장 두드러진 특징 중 하나인 긴 대시 과용이 왜 생겼는지조차 명확한 합의가 없다는 사실입니다. 그리고 그 답은 아마도 AI 기업들의 학습 데이터 수집 전략 — 구체적으로는 어떤 시대의 책들을 얼마나 스캔했는지 — 에 숨어 있을 겁니다.

참고자료: Why do AI models use so many em-dashes?


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다