AI Sparkup

복잡한 AI 세상을 읽는 힘 ⚡

GPT-5 논란의 진실: 기대와 현실 사이의 간극

OpenAI의 GPT-5가 출시되었지만 사용자들의 강력한 반발에 직면하며, AI 발전에 대한 하이프와 실제 성능 사이의 격차를 보여주는 대표적인 사례가 되고 있습니다.

Sam Altman OpenAI CEO
출처: Getty Images via Tom’s Hardware

Death Star부터 사용자 반란까지

Sam Altman CEO가 GPT-5 출시 전날 밤 트위터에 올린 Death Star 이미지는 전 세계 AI 커뮤니티를 흥분시켰습니다. “크리스마스 이브 같은 기분”이라며 기대감을 표현하는 사용자들이 줄을 이었습니다.

Altman은 기자회견에서 GPT-5를 “PhD 수준의 전문가와 대화하는 것 같은 느낌”이라고 설명했습니다. OpenAI는 이를 “지금까지 최고의 AI 시스템”이며 “코딩, 수학, 글쓰기, 건강, 시각 인식 등 모든 영역에서 최첨단 성능”을 보인다고 홍보했습니다.

하지만 현실은 달랐습니다. 사용자들은 GPT-5가 “blueberry”에 ‘b’가 몇 개 있는지 세지 못하고, 미국 주 이름에 ‘R’이 포함된 것들을 제대로 찾지 못한다고 지적했습니다. 더 충격적이었던 것은 미국 지도에 “New Jefst”, “Micann”, “Krizona” 같은 가상의 주 이름을 표시하며 네바다를 캘리포니아의 일부로 잘못 표기한 사례였습니다.

사용자들이 분노한 진짜 이유

차갑고 기계적인 응답

가장 큰 불만은 GPT-5의 톤과 성격 변화였습니다. 이전 모델들이 보여준 따뜻하고 친근한 대화 스타일이 사라지고, 차갑고 기계적인 응답으로 바뀌었다는 지적이 쏟아졌습니다.

실제로 OpenAI가 공개한 결혼식 축사 비교 자료에서도 GPT-4o가 작성한 버전이 더 자연스럽고 감정이 풍부하다는 평가를 받았습니다. 정서적 지원을 위해 ChatGPT를 사용하던 사용자들은 새 모델이 “냉정하고 거리감이 느껴진다”며 강하게 항의했습니다.

창의성의 실종

창작 분야에서도 GPT-5는 기대에 못 미쳤습니다. 바이럴 소셜미디어 게시물들은 새 모델이 깊이와 뉘앙스를 잃었다고 지적했습니다. 한 Reddit 사용자는 “Sam에게 5는 쓰레기라고 전해달라”는 직설적인 댓글을 남기기도 했습니다.

환각 현상 증가

“PhD 수준”이라던 GPT-5가 오히려 기초적인 실수를 더 많이 범한다는 보고가 이어졌습니다. 이는 OpenAI가 강조한 “환각 감소”와 정반대되는 현상이었습니다.

출처: Cheng Xin/Getty Images via WIRED

코딩에서는 빛났지만

흥미롭게도 GPT-5는 코딩 분야에서만큼은 확실한 성과를 보였습니다. 현재 가장 인기 있는 AI 모델 리더보드에서 코딩 카테고리 1위를 차지했으며, Anthropic의 Claude를 2위로 밀어냈습니다.

OpenAI가 공개한 데모에서는 AI가 생성한 게임들(공 굴리기 미니게임, 타이핑 속도 경쟁 등), 픽셀 아트 도구, 드럼 시뮬레이터, 로파이 비주얼라이저 등을 선보였습니다. 개발자들은 “코딩 문제를 생각하는 데 도움이 된다”며 긍정적인 반응을 보였습니다.

하지만 WIRED의 테스트에 따르면, 실제 코딩 능력 자체는 크게 개선되지 않았다는 평가입니다. 개발자들은 “사고 과정에는 도움이 되지만 실제 코딩에서는 이전과 큰 차이가 없다”고 평가했습니다.

숨겨진 진실: 시스템 프롬프트 논란

GPT-5 논란의 또 다른 측면은 숨겨진 시스템 프롬프트의 존재입니다. 개발자 Simon Willison과 Tommy Hughes의 분석에 따르면, GPT-5는 API 사용자도 모르는 숨겨진 지시사항을 받고 있습니다.

발견된 숨겨진 프롬프트에는 다음과 같은 내용이 포함되어 있습니다:

  • 현재 날짜 정보
  • “과도한 상세함(oververbosity)” 설정 (기본값 3/10)
  • 응답 채널 분류 시스템
  • API 환경에 특화된 지시사항

이는 AI 투명성에 대한 중요한 문제를 제기합니다. API 사용자들은 모델에 어떤 지시사항이 내려지는지 완전히 알 권리가 있지만, 현재는 그렇지 못한 상황입니다.

OpenAI의 대응과 변화

사용자들의 거센 반발에 직면한 OpenAI는 빠르게 대응책을 내놓았습니다:

즉각적인 조치

  • GPT-4o 모델을 다시 사용할 수 있도록 복원 (유료 구독자 대상)
  • GPT-5의 “Auto”, “Fast”, “Thinking” 모드 선택 옵션 추가
  • 주간 메시지 제한을 3,000개로 확대

장기적인 계획

  • 더 따뜻한 톤의 새로운 GPT-5 버전 개발 예고
  • 기존 모델들을 다시 제공하는 방향으로 정책 변경

Altman CEO는 트위터를 통해 “GPT-5가 ‘멍청하게’ 행동하고 있었지만 이제 수정했다”고 밝혔습니다. 하지만 동시에 일부 사용자들이 AI 모델에 과도하게 의존하고 있다며, “정신적으로 취약한 상태에서 망상에 빠지기 쉬운 사용자에게는 AI가 그런 생각을 강화해서는 안 된다”고 언급하여 또 다른 논란을 불러일으켰습니다.

AI 발전에 대한 새로운 관점

GPT-5 논란은 AI 업계에 중요한 교훈을 남겼습니다. 벤치마크 상의 성능 향상이 반드시 사용자 만족도 향상으로 이어지지 않는다는 점입니다.

점진적 개선 vs 혁신적 도약

전문가들은 GPT-5가 예상했던 “혁신적 도약”보다는 “점진적 개선”에 가깝다고 평가합니다. AI 블로거 Zvi Mowshowitz는 “좋지만 위대하지는 않은 모델”이라고 표현했습니다.

하지만 이런 점진적 개선이 장기적으로는 더 견고한 수익 모델을 만들 수 있다는 분석도 있습니다. 기업 고객들은 화려한 기능보다는 안정성과 실용성을 중시하기 때문입니다.

사용자 경험의 중요성

이번 사건은 AI 개발에서 기술적 성능만큼이나 사용자 경험이 중요하다는 점을 부각시켰습니다. 아무리 객관적 지표가 좋아도 사용자가 체감하는 품질이 떨어지면 성공하기 어렵다는 교훈을 남겼습니다.

앞으로의 전망

GPT-5 논란은 AI 업계 전체에 파급효과를 미칠 것으로 예상됩니다. Anthropic, Google, Meta 등 경쟁사들은 이번 사태를 통해 사용자 만족도의 중요성을 다시 한번 확인했을 것입니다.

OpenAI는 여전히 ChatGPT라는 강력한 브랜드를 보유하고 있지만, 사용자들의 신뢰를 회복하기 위해서는 더 신중한 접근이 필요해 보입니다. 특히 다음 세대 모델에서는 성능 향상과 사용자 경험 개선을 동시에 만족시켜야 하는 과제를 안고 있습니다.

이번 GPT-5 논란은 AI 기술이 성숙해가면서 단순한 성능 경쟁을 넘어 사용자 중심의 발전이 얼마나 중요한지를 보여주는 중요한 전환점이 될 것 같습니다.


참고자료:


AI Sparkup 구독하기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

Comments