AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

AI 마케팅 환각 실태 조사, ChatGPT도 40% 이상 오류 냈다

사진 출처: Neil Patel

ChatGPT에게 마케팅 전략을 물었는데 존재하지 않는 통계를 인용하거나, Claude에게 사례 연구를 요청했는데 그럴듯하지만 가짜인 회사 이름을 만들어내는 경험, 다들 있으시죠. 이런 AI 환각은 단순히 가끔 나타나는 버그가 아닙니다.

마케팅 분석 회사 NP Digital이 565명의 마케터를 대상으로 설문조사를 실시하고, 6개 주요 LLM 플랫폼에서 600개 프롬프트를 테스트한 결과를 발표했습니다. 데이터가 보여주는 건 명확합니다. AI 환각은 실무자들이 매주, 심지어 매일 마주하는 현실이라는 것이죠.

출처: AI Hallucination and Accuracy: A Data-Backed Study – Neil Patel

47% 마케터, 매주 AI 오류 경험

조사에 따르면 마케터의 47.1%가 일주일에 여러 번 AI의 부정확한 정보를 마주칩니다. 70% 이상은 AI가 생성한 콘텐츠를 검증하는 데만 매주 1~5시간을 쓰고 있죠.

더 심각한 건 이미 공개된 실수들입니다. 마케터의 36.5%는 AI가 만든 잘못된 정보가 실제로 대중에게 공개됐다고 답했고, 39.8%는 아슬아슬하게 막았던 경험이 있다고 했습니다. 절반 이상(57.7%)은 클라이언트나 이해관계자로부터 AI 생성 콘텐츠의 품질에 대한 지적을 받았다고 응답했습니다.

공개된 오류 중 가장 흔한 유형은:

  • 부적절하거나 브랜드에 맞지 않는 콘텐츠 (53.9%)
  • 완전히 거짓이거나 환각된 정보 (43.5%)
  • 사용자 경험을 해치는 포맷 오류 (42.5%)

작업 유형별로 보면 HTML/스키마 생성(46.2%), 전체 콘텐츠 작성(42.7%), 리포팅과 분석(34.2%)에서 오류가 가장 자주 발생했습니다. 반면 브레인스토밍이나 아이디어 생성은 약 25%로 상대적으로 적었죠.

ChatGPT가 가장 정확했지만 여전히 40% 오류

연구팀은 ChatGPT, Claude, Gemini, Perplexity, Grok, Copilot 등 6개 주요 LLM에 동일한 600개 프롬프트를 던지고 인간 검토자가 정확도를 평가했습니다.

결과는 다음과 같습니다:

  • ChatGPT: 완전히 정확한 답변 비율 59.7%로 가장 높았습니다. 심각한 환각은 가장 적었고, 대부분의 실수는 질문을 잘못 해석하는 정도였죠.
  • Claude: 완전 정확도는 55.1%로 약간 낮았지만, 전체 오류율이 6.2%로 가장 낮았습니다. 틀릴 때도 정보를 지어내기보다는 빠뜨리는 경우가 많았습니다.
  • Gemini: 단순 질문에서는 51.3% 정확도를 보였지만, 복잡하거나 다단계 질문에서는 답변을 건너뛰는 경향이 있었습니다. 가장 흔한 오류는 누락이었죠.
  • Perplexity: 실시간 검색 기능 덕분에 암호화폐나 AI 같은 빠르게 변하는 분야에서 강점을 보였습니다. 하지만 속도에는 대가가 있었죠. 12.2%의 답변이 틀렸고, 주로 잘못된 분류나 작은 날조가 문제였습니다.
  • Copilot: 중간 수준이었습니다. 안전하고 간결한 답변을 제공했지만, 깊은 맥락은 자주 놓쳤습니다.
  • Grok: 가장 낮은 성능을 보였습니다. 오류율이 21.8%로 가장 높았고, 완전히 정확한 답변은 39.6%에 불과했습니다. 환각, 모순, 모호한 답변이 흔했죠.

흥미로운 점은 설문 응답자의 77.7%가 어느 정도의 부정확성은 받아들인다고 답했다는 겁니다. 속도와 효율성이 여전히 검증 작업보다 가치 있다고 보는 거죠.

어떤 질문이 AI를 가장 헷갈리게 하나

모든 모델이 공통적으로 어려워한 질문 유형이 있습니다:

다단계 프롬프트: “개념을 설명하고 예시도 들어줘”처럼 여러 요구가 담긴 질문에서 많은 도구가 절반만 답했습니다. 정의만 하거나 예시만 드는 식이죠.

최근 업데이트된 주제: 지난 몇 개월 내에 바뀐 내용(구글 알고리즘 업데이트, 새 AI 모델 출시 등)을 물으면 답변이 부정확하거나 완전히 지어낸 경우가 많았습니다. 오래된 정보를 최신인 것처럼 자신 있게 말하는 경우도 있었죠.

틈새 전문 분야: 암호화폐, 법률, SaaS, SEO 같은 전문 영역에서는 대부분의 LLM이 어려움을 겪었습니다. 용어를 지어내거나 핵심 맥락을 놓친 모호한 답변을 내놓았죠.

환각을 잡아내는 신호들

AI 환각은 항상 명백하게 “틀렸다”고 외치지 않습니다. 가장 위험한 것들은 그럴듯하게 들리죠. 하지만 반복적으로 나타나는 패턴이 있습니다:

  • 출처가 없거나 깨진 링크: AI가 제공한 링크를 클릭하면 존재하지 않는 경우가 많습니다.
  • 엉뚱한 질문에 대한 답변: 모델이 프롬프트를 잘못 해석해 관련은 있지만 틀린 방향으로 답하는 경우죠.
  • 구체성 없는 큰 주장: 구체적인 통계나 날짜 없이 포괄적인 진술만 하면 빈칸을 그럴듯한 내용으로 채우고 있을 가능성이 높습니다.
  • 출처 없는 통계: 환각된 숫자는 흔한 문제입니다. 통계가 놀랍거나 지나치게 편리하게 들리면 신뢰할 수 있는 출처로 검증하세요.
  • 같은 답변 내 모순: 첫 문단에서 한 말을 마지막에 가서 부정하는 경우도 있습니다.
  • 존재하지 않는 ‘실제’ 사례: 가짜 제품명, 회사, 사례 연구, 법적 판례 등이 포함되기도 합니다. 그럴듯해 보이지만 검색하면 아무것도 나오지 않죠.

마케터들의 대처법

AI 환각이 일상화되면서 마케터들의 업무 방식도 바뀌고 있습니다. 설문에서 나타난 가장 흔한 변화는 콘텐츠 검토 단계를 추가하는 것이었습니다. 많은 팀이 이제 AI를 주니어 어시스턴트처럼 취급합니다. 초안과 아이디어는 AI가 제안하지만, 최종 승인은 반드시 사람이 하는 거죠.

더 적극적으로 대응하는 조직들도 있습니다. 전담 팩트체커를 배치하거나, AI 출력물 검증을 위한 내부 가이드라인을 만드는 식입니다. 48.3%는 업계 차원의 표준이 필요하다고 답했습니다.

하지만 23%는 여전히 도구를 충분히 신뢰한다면 검증을 건너뛴다고 했습니다. ChatGPT조차 40% 이상 오류를 내는 상황에서, AI 환각 검증은 이제 선택이 아닌 워크플로의 일부가 됐습니다.


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다