AI Sparkup

복잡한 AI 세상을 읽는 힘 ⚡

AI 콘텐츠 과잉 시대, 우리가 잃어버린 것들

“모든 글이 ChatGPT로 쓴 것처럼 보여요.” 최근 한 트윗에 달린 댓글입니다. 블로그를 읽다가, 코드를 검토하다가, 문서를 훑어보다가 어딘가 이상한 느낌을 받은 적 있으신가요? 틀린 건 아닌데 뭔가 똑같은 패턴, 똑같은 말투가 반복되는 느낌. 마치 같은 글을 천 번쯤 본 것 같은 기시감 말이죠.

사진 출처: Oliver Traldi 트위터

UC Berkeley에서 AI 기반 데이터 분석을 연구하는 Shreya Shankar는 정보 소비자로서 자신이 겪고 있는 두 가지 문제를 진단합니다. 첫째는 AI가 수사적 장치를 남발해서 원래 의미 있던 신호들이 무의미해진 신호 퇴화(signal degradation) 문제이고, 둘째는 AI가 콘텐츠를 쉽게 만들어내지만 그게 맞는지 확인하기는 여전히 어려운 검증 붕괴(verification erosion) 문제입니다. 이 글은 AI 생성 콘텐츠가 단순히 많아지는 것을 넘어, 우리가 정보를 이해하고 판단하는 능력 자체를 어떻게 약화시키는지 다룹니다.

출처: On the Consumption of AI-Generated Content at Scale – Shreya Shankar

은유와 볼드체가 의미를 잃을 때

복잡한 개념을 설명하려고 우리는 은유를 씁니다. “데이터베이스 인덱스는 책의 목차와 같다”처럼요. 코드에서는 예외 처리 구조를 통해 “여기서 이런 문제가 생길 수 있다”고 독자에게 알려줍니다. 이런 장치들은 원래 의미가 있었습니다. 정말 복잡한 내용이어서, 정말 중요한 오류여서 강조가 필요했으니까요.

그런데 AI는 이런 장치들을 무차별적으로 사용합니다. 모든 문단에 은유가 있으면 은유를 알아차리지 못하게 되죠. 모든 코드 블록이 예외 처리로 감싸져 있으면 어떤 것도 ‘예외적’으로 느껴지지 않습니다. AI는 내용이 필요로 해서가 아니라, 학습 데이터에서 “좋은 글”이 그렇게 생겼다는 패턴을 발견했기 때문에 이 도구들을 씁니다.

결과는 일종의 인플레이션입니다. “delve”이나 “crucial” 같은 단어는 원래 평범한 영어 단어였지만, GPT가 너무 자주 사용하면서 이제는 “AI가 쓴 글”을 알아차리는 신호가 되어버렸습니다. Em-dash(—)나 볼드체로 강조된 핵심 요점 같은 것들도요. 저자는 자신이 실제로 글쓰기에서 쓰는 장치들인데도 이제는 매우 의심스럽게 느껴진다고 합니다. 수사적 장치가 과하게 쓰이면서 신호 가치가 떨어지고, 안타깝게도 이제는 완전히 무시하게 됐다는 겁니다.

만들기는 쉬운데 확인은 여전히 어렵다

AI 이전 시대에는 무언가를 만드는 게 어려웠지만 확인하는 건 상대적으로 쉬웠습니다. 문서든 코드든 분석이든, 만드는 데 들인 노력만큼 검증하는 것도 할 만했죠. 지금은 균형이 뒤집혔습니다. AI는 그럴듯한 콘텐츠를 거의 즉시 생성하지만, 그게 맞는지 확인하려면 여전히 인간의 노력이 필요합니다. 초안, 코드 스니펫, 분류 결과를 몇 초 만에 만들 수 있지만, 초안이 정확한지, 코드가 엣지 케이스를 처리하는지, 분류가 의미 있는지 확인하려면 많은 시간과 주의가 필요합니다.

더 문제는 재생성이 쉬워지면서 검증에 게을러졌다는 점입니다. 뭔가 이상하면 다시 생성해서 더 나은 결과가 나오길 바라면 되니까요. 하지만 이건 실제로 확인하는 것과 다릅니다. 슬롯머신 레버를 다시 당겨서 더 나은 결과를 보는 것이 출력이 맞는지 이해하는 느리고 힘든 작업을 대체해버린 셈이죠.

게다가 검증을 돕는 도구도 부족합니다. AI 이전에는 멘탈 모델을 만들거나, 휴리스틱에 의존하거나, 전략적으로 정보를 확인할 수 있었습니다. 논문을 읽을 때 관련 연구 섹션에 예상한 사람들이 인용됐는지, 실험 설정이 분야의 관례와 맞는지 확인하는 식이었죠. 코드 리뷰에서는 명확한 엣지 케이스를 처리했는지, 구조가 내가 접근할 방식과 맞는지 봤습니다. 완벽하진 않았지만 품질을 가늠하는 효율적인 대리 지표였어요.

이제 LLM 생성 콘텐츠에서는 무엇이 잘못될지 멘탈 모델을 세우기도 어렵습니다. 오류의 롱테일이 너무 길거든요. 문헌 리뷰가 올바른 사람들을 인용하지만 논문 제목을 환각할 수 있습니다. 제목과 학회는 맞는데 저자가 틀릴 수도 있죠. 도입부의 한 문장이 얼핏 보면 말이 되는데, 생각해보면 반박할 수 있는 게 떠오릅니다. 사람이 썼다면 분명 이걸 고려했을 텐데, AI가 썼으니 아닐 수도 있다는 생각이 들죠. 혹은 제가 이 분야에서 일하는데 한 번도 들어본 적 없는 전문 용어가 중간에 나타나고 정의도 안 돼 있습니다. AI 오류 냄새가 나지만 확실하지 않습니다. 실패 모드가 끝없이 미묘하고, 이를 대규모로 잡아낼 도구가 없습니다.

왜 이게 문제인가

소비자가 복잡한 아이디어를 이해하거나 오류를 알아차릴 수 없다면 조작당하기 쉽습니다. 극적인 허위 정보만 말하는 게 아닙니다. 더 평범한 문제죠. 코드가 정말 견고한지 아니면 견고해 보이기만 한지 구분 못 하면 망가진 걸 배포할 수 있습니다. 문헌 리뷰가 정확한지 그럴듯하기만 한지 모르면 존재하지 않는 연구를 바탕으로 작업을 할 수도 있어요. 검증 능력의 상실은 시간이 지나면서 복리처럼 쌓입니다.

저자는 이게 과소평가된 안전 문제라고 봅니다. AI 안전에 대한 논의는 누군가 차고에서 생물무기를 개발하는 극단적 시나리오에 집중하지만, 가장 큰 안전 문제는 바로 코앞에서 일어나고 있을지 모릅니다. 대규모로 사람들이 소비하는 정보를 이해하고 검증하는 능력을 잃어가고 있다는 것이죠.

두 번째는 취향의 퇴화입니다. 어떤 분야에서든 취향은 피드백 루프에 달려 있습니다. 좋은 것을 알아차리고, 나쁜 것을 알아차리고, 시간이 지나면서 판단력이 생기죠. 그런데 차이를 알아차리지 못하게 되면 그 판단력이 생기지 않습니다. 레스토랑 추천을 생각해보세요. 추천하는 사람이 좋은 식사와 평범한 식사를 구분하지 못하거나, 그냥 LLM이 Yelp에서 긁어온 걸 읊는다면 추천은 가치가 없어집니다.

블로그 글도 마찬가지입니다. 저자에게 블로그 포스트의 요점은 사람이 시간을 들여 무언가를 생각하고 공유할 가치가 있는 결론에 도달했다는 점입니다. 쓸 수 있는 모든 주제 중에서 이걸 선택하고 실제 시간을 들였고, 그들의 진짜 사고 과정을 반영하기 때문에 가치가 있죠. 하지만 글이 LLM으로 생성됐다고 의심되면 내용이 정확해도 관심이 떨어집니다. 그냥 유창한 요약이라면 제가 ChatGPT에게 물어보는 것과 다를 게 없습니다. 그걸 쉽게 할 수 있는데 왜 이 특정 블로그 글을 읽어야 하나요?

너무 직설적일 위험을 감수하고 말하자면, 의사소통과 검증을 위한 도구는 우리가 서로의 작업을 기반으로 쌓아가는 방법입니다. 이것들이 약해지면 무엇이 진실인지, 무엇이 좋은 품질인지 알 수 없고, 어려운 문제에 대해 협력할 수 없는 사회가 됩니다. 이게 사회가 멍청해지는 방식입니다.

어떻게 해야 할까

저자는 두 가지 방향을 제시합니다. 완전한 해답은 아니지만 진행 중인 생각이라고 밝힙니다.

기법 뒤의 ‘이유’를 가르치기

복잡한 영역을 돕는 시스템을 만들 때, 우리는 시간이 지나며 발전시킨 휴리스틱을 프로그래밍합니다. 복잡한 아이디어를 설명하려고 은유를 쓰고, 독자가 탐색하도록 볼드와 헤더를 쓰고, 위험한 작업을 예외 처리로 감싸고, 큰 문서를 처리 전에 분해하는 식이죠. 이런 휴리스틱은 올바르게 적용될 때 작동합니다. 하지만 AI가 무차별적으로 적용하면 역효과가 나죠.

그렇다면 한 단계 더 깊이 들어가야 합니다. 휴리스틱을 프로그래밍하는 대신, 왜 그리고 어떻게 그 휴리스틱을 만들었는지 조사하고 그걸 중심으로 시스템을 프로그래밍해야 합니다.

예를 들어 글쓰기에서 “빽빽한 내용을 분해하려고 불릿 포인트를 쓴다”는 휴리스틱이 있습니다. 하지만 뒤의 이유는 불릿 포인트가 항목들이 병렬적이고 독립적일 때 도움이 된다는 것이죠. 아이디어들 사이의 관계가 중요할 때는 산문이 낫습니다. 그러니 글쓰기 보조 도구는 내용이 빽빽해질 때마다 불릿 포인트를 넣어서는 안 됩니다. 아이디어가 실제로 병렬적인지 추론해야 하죠.

검증된 인간 경험에 신뢰 근거시키기

AI가 “언제 은유가 필요한지”를 어떻게 판단할까요? 저자의 동료가 제시한 사고 실험이 있습니다. 레시피를 추천하는 챗봇과 사용자의 대화를 상상해보세요.

사용자: 베이컨을 빼도 되나요?
봇: 네, 베이컨을 빼셔도 됩니다.
사용자: 맛이 똑같이 좋을까요?
봇: 네, 똑같이 좋을 겁니다.
사용자: 어떻게 아세요?
봇: 제가 맛봤거든요.

하지만 봇이 맛봤을까요? 그게 무슨 의미일까요? 이 진술은 근거가 없습니다. 뒤에 경험이 없는 신뢰죠.

저자는 “가설적 근거 공간(hypothetical grounding space)”을 제안합니다. 모델이 흡수해서 자기 것처럼 말하는 대신, 검증된 인간 경험의 구조화된 기록을 학습해서 조회하고 보고하도록 만드는 것입니다. 레시피 봇의 경우, “제가 맛봤는데 좋았어요” 대신 “비슷한 요리에서 베이컨을 뺀 사람들이 여전히 맛있었다고 보고했습니다”라고 답하게 하는 거죠. 글쓰기 보조 도구라면 “이건 헷갈려요”가 아니라 “이런 설명은 독자를 잃는 경향이 있었습니다”라고 말하게 합니다. 판단은 인간에게 귀속되고, 모델의 역할은 근거 공간에 있는 것을 표면화하는 것이지 경험을 주장하는 게 아닙니다.

물론 이것도 완전한 해결책은 아닙니다. 데이터를 모으고 구조화하고 모델을 훈련시키는 건 상당한 노력이 필요하고, 모든 응용에 확장되지 않습니다. 하지만 방향은 있습니다. AI 신뢰를 자신감 넘치는 텍스트 패턴이 아니라 우리에게 실제적이고 의미 있는 것에 근거시키자는 것이죠.

남은 질문들

AI 생성 콘텐츠가 우리가 소비하는 대다수가 되면, 이런 근거 시스템이 의존할 인간 피드백 루프를 어떻게 보존할 수 있을까요? 저자 자신의 영역인 데이터 분석에서는 이미 AI 도움 없이 대규모 데이터셋을 처리하기 어렵습니다. AI에게 데이터를 분석하라고 요청하면 AI가 어떤 패턴을 표면화할지, 어떤 이상 징후가 중요한지, 어떤 질문을 물을 가치가 있는지 결정합니다. 우리가 선택하지 않았고 완전히 검사할 수도 없는 필터를 통해 세상을 보게 되는 것이죠. 이는 신호 퇴화와 검증 붕괴 문제를 악화시킵니다.

저자는 답을 갖고 있지 않습니다. 그동안 모든 것이 침식되는 것처럼 느껴져도 자신의 취향을 날카롭게 유지하려 노력하겠다고 합니다.

참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다