AI 환각의 현실적 위험

최근 인공지능(AI)이 개발 과정에서 필수 도구로 자리잡으면서, AI가 생성하는 내용이 얼마나 신뢰할 수 있는지에 대한 질문이 점점 중요해지고 있습니다. 특히 ‘환각(hallucination)’이라 불리는, AI가 현실에 존재하지 않는 정보를 그럴듯하게 만들어내는 현상이 단순한 기술적 호기심을 넘어 실질적인 보안 위협과 비즈니스 손실로 이어지고 있습니다.

이 글에서는 AI 환각이 어떻게 소프트웨어 공급망을 위협하고, 실제 비즈니스에 손실을 초래하며, 심지어 기술 발전이 역설적으로 이 문제를 악화시키는지 살펴보겠습니다.

AI 환각의 새로운 위협: 슬롭스쿼팅(Slopsquatting)

‘슬롭스쿼팅(Slopsquatting)’이라는 용어를 들어보셨나요? 이는 AI가 만들어낸 가짜 패키지 이름을 악용한 새로운 형태의 소프트웨어 공급망 공격을 지칭합니다. Python Software Foundation의 개발자 Seth Larson이 처음 명명한 이 용어는 AI가 ‘환각’한 패키지 이름을 악의적 행위자가 선점해 등록함으로써, AI 도구의 조언을 따르는 개발자들이 악성 패키지를 설치하도록 유도하는 현상을 설명합니다.

AI가 환각을 일으키는 것을 시각화한 이미지 출처: Socket.dev – AI 코딩 도구가 환각을 일으키는 현상

텍사스 샌안토니오 대학, 버지니아 공대, 오클라호마 대학 연구팀의 최근 연구 “We Have a Package for You! A Comprehensive Analysis of Package Hallucinations by Code Generating LLMs”에 따르면, 16개 주요 코드 생성 AI 모델을 테스트한 결과 충격적인 사실이 드러났습니다:

AI가 추천한 패키지의 19.7%가 실제로 존재하지 않는 패키지였습니다.
오픈소스 모델은 상용 모델보다 환각을 더 많이 일으켜, 평균 21.7%의 환각률을 보였습니다.
가장 성능이 좋은 GPT-4 Turbo도 3.59%의 환각률을 보였습니다.
연구에서는 총 205,000개의 고유한 환각 패키지 이름이 관찰되었습니다.

더 놀라운 점은 이러한 환각이 일회성이 아니라는 것입니다. 연구진이 환각을 유발한 프롬프트를 10번씩 반복 실행한 결과, 환각된 패키지의 43%가 매번 동일하게 반복되었고, 58%는 2회 이상 반복되었습니다. 이는 환각이 무작위가 아닌 AI 모델의 체계적인 패턴에서 비롯된다는 것을 의미합니다.

이러한 일관성은 공격자들이 널리 사용되는 AI 도구가 자주 ‘환각’하는 패키지 이름을 관찰하고 등록하여 광범위한 공격을 수행할 수 있는 가능성을 높입니다.

‘바이브 코딩’의 등장과 위험 증가

상황을 더 복잡하게 만드는 것은 ‘바이브 코딩(Vibe Coding)’이라는 새로운 코딩 방식의 등장입니다. OpenAI의 Andrej Karpathy가 처음 언급한 이 용어는 개발자가 코드를 직접 작성하는 대신 원하는 기능을 설명하면 AI가 구현을 생성하는 방식을 의미합니다.

바이브 코딩: AI로 구현하는 새로운 프로그래밍 패러다임

이 방식에서 개발자의 역할은 코드 작성자에서 AI가 생성한 코드를 큐레이팅하고 테스트하는 역할로 변화합니다. Cursor의 Composer with Sonnet과 같은 도구들이 이러한 트렌드를 주도하고 있으며, 코드 생성을 대화형 설계 프로세스로 변환하고 있습니다.

문제는 이러한 환경에서 개발자들이 AI가 추천한 패키지를 무비판적으로 신뢰할 가능성이 높아진다는 점입니다. 개발자가 패키지 이름을 직접 검색하거나 입력하지 않기 때문에, AI가 환각한 그럴듯해 보이는 패키지를 포함시킬 경우 이를 그대로 설치하고 넘어가는 경우가 많아집니다.

비즈니스에 미치는 실질적 영향: Cursor 사례 분석

AI 환각은 보안 위협을 넘어 실제 비즈니스에도 직접적인 손실을 초래할 수 있습니다. 최근 AI 기반 코드 에디터 Cursor에서 발생한 사례가 이를 잘 보여줍니다.

2025년 4월, 한 개발자가 여러 기기 사이를 전환할 때마다 Cursor 세션이 종료되는 문제를 발견했습니다. 이 사용자가 Cursor 지원팀에 문의했을 때, “Sam”이라는 이름의 지원 담당자(사실은 AI 봇)로부터 다음과 같은 답변을 받았습니다:

Cursor 지원 AI 봇의 이메일 스크린샷 출처: Ars Technica – Cursor 지원 AI 봇이 보낸 이메일

“Cursor는 핵심 보안 기능으로 구독당 하나의 기기에서만 작동하도록 설계되었습니다. 직장과 가정 기기 모두에서 Cursor를 사용하려면 각 기기마다 별도의 구독이 필요합니다.”

문제는 이러한 정책이 실제로 존재하지 않았다는 것입니다. AI 봇이 완전히 만들어낸 가짜 정책이었으나, 답변은 매우 확신에 찬 톤으로 전달되었고 사용자는 이것이 인간이 아닌 AI의 응답이라는 사실조차 의심하지 않았습니다.

이 사용자는 Reddit과 Hacker News에 이 ‘정책’에 대한 분노를 표출했고, 이로 인해 다른 여러 사용자들도 구독을 취소하겠다고 공개적으로 선언했습니다. “개발자에게 여러 기기 워크플로우는 기본 요구사항이다”라며 한 사용자는 불만을 표시했고, 원래 게시자는 “방금 구독을 취소했다”며 그들의 직장에서 “완전히 삭제하고 있다”고 덧붙였습니다.

이 사례는 AI 환각이 어떻게 실제 고객 이탈과 브랜드 이미지 손상으로 이어질 수 있는지를 극명하게 보여줍니다. 특히 고객 응대와 같은 민감한 영역에서 AI를 인간의 감독 없이 배치할 때의 위험성을 강조합니다.

더 발전된 모델, 더 많은 환각: OpenAI 추론 모델의 역설

AI 환각과 관련해 또 다른 놀라운 현상은 최신 모델이 오히려 환각을 더 많이 일으킨다는 점입니다. OpenAI의 최근 출시된 o3와 o4-mini 추론 모델은 여러 측면에서 최첨단 성능을 보이지만, 이전 모델들보다 더 많은 환각을 일으킨다는 사실이 밝혀졌습니다.

OpenAI의 내부 테스트에 따르면, 추론 모델인 o3와 o4-mini는 회사의 이전 추론 모델(o1, o1-mini, o3-mini)뿐만 아니라 GPT-4o와 같은 전통적인 ‘비추론’ 모델보다 더 자주 환각을 일으킵니다.

특히 우려스러운 점은 OpenAI조차도 왜 이런 현상이 발생하는지 정확히 파악하지 못하고 있다는 것입니다. 기술 보고서에서 OpenAI는 “추론 모델을 확장함에 따라 환각이 악화되는 이유를 이해하기 위해 더 많은 연구가 필요하다”고 인정했습니다.

출처: TechCrunch – AI 추론 모델 개념 이미지

o3와 o4-mini는 코딩이나 수학과 같은 특정 영역에서는 더 좋은 성능을 보이지만, “전반적으로 더 많은 주장을 제시”하기 때문에 “더 정확한 주장과 더 부정확한/환각된 주장” 모두를 더 많이 생성한다고 보고서는 설명합니다.

구체적으로, o3는 OpenAI의 사내 벤치마크인 PersonQA에서 33%의 환각률을 보였는데, 이는 이전 추론 모델인 o1과 o3-mini의 16%와 14.8%에 비해 두 배 가량 높은 수치입니다. o4-mini는 더 심각해서 48%의 환각률을 보였습니다.

비영리 AI 연구소 Transluce의 제3자 테스트에서도 o3가 답변에 도달하는 과정에서 취한 행동을 꾸며내는 경향이 있다는 증거가 발견되었습니다. 한 예로, o3가 “ChatGPT 외부에서” 2021 MacBook Pro에서 코드를 실행한 후 숫자를 답변에 복사했다고 주장했지만, 실제로는 그럴 수 없습니다.

Transluce의 연구원이자 전 OpenAI 직원인 Neil Chowdhury는 “o 시리즈 모델에 사용된 강화 학습이 일반적으로 표준 사후 훈련 파이프라인에 의해 완화되는 문제를 증폭시킬 수 있다”는 가설을 제시했습니다.

이러한 환각 증가는 법률 회사와 같이 정확성이 핵심인 시장에서 추론 모델의 채택을 어렵게 만듭니다. 예를 들어, 고객 계약에 사실적 오류를 많이 삽입하는 모델은 법률 회사에게 적합하지 않을 것입니다.

AI 환각 대응 전략

이러한 도전에도 불구하고, 개발자와 기업은 AI 환각의 위험을 완화하기 위한 여러 전략을 취할 수 있습니다:

패키지 검증 도구 사용

Socket과 같은 도구는 의존성 트리의 모든 패키지를 스캔하여 설치 스크립트, 난독화된 코드, 숨겨진 페이로드와 같은 고위험 동작을 플래그하고, 피해가 발생하기 전에 경고를 제공합니다. 환각된 패키지가 게시되고 퍼지더라도, 이러한 도구는 그것이 프로덕션 환경에 들어가는 것을 방지할 수 있습니다.

Socket의 무료 GitHub 앱이나 실시간 위협 감지 기능이 있는 브라우저 확장 프로그램과 같은 도구가 이러한 위협을 감지하는 데 도움이 될 수 있습니다.

AI 응답 검증

AI 도구로부터 받은 모든 코드나 정보를 무비판적으로 수용하지 말고, 특히 패키지 이름이나 중요한 정보에 대해서는 독립적으로 검증하는 습관을 들이는 것이 중요합니다.

웹 검색 기능 활용

모델 정확도를 높이는 한 가지 유망한 접근법은 웹 검색 기능을 부여하는 것입니다. OpenAI의 웹 검색 기능이 있는 GPT-4o는 SimpleQA라는 또 다른 OpenAI 정확도 벤치마크에서 90% 정확도를 달성했습니다. 잠재적으로 검색은 추론 모델의 환각률도 개선할 수 있습니다.

인간의 감독 유지

특히 고객 대면 역할에서 AI를 배포할 때는 인간의 감독 없이 완전 자동화된 시스템을 구현하지 않는 것이 중요합니다. Cursor 사례에서 보듯이, 인간의 검토 없이 AI가 생성한 응답은 심각한 비즈니스 손실로 이어질 수 있습니다.

자체 교정 기능 활용

일부 모델, 특히 GPT-4 Turbo와 DeepSeek는 방금 생성한 환각된 패키지 이름을 정확하게 식별할 수 있었으며, 내부 감지 테스트에서 75% 이상의 정확도를 달성했습니다. 이는 모델이 출력을 사용자에게 제시하기 전에 타당성을 검토하는 자체 개선과 같은 완화 전략의 가능성을 보여줍니다.

결론 및 전망

AI 환각은 단순한 기술적 호기심이나 가끔 발생하는 오류가 아닌, 실질적인 보안, 비즈니스, 신뢰성 문제를 초래하는 체계적인 현상임이 분명해졌습니다. 슬롭스쿼팅과 같은 새로운 위협, Cursor의 사례와 같은 비즈니스 손실, 그리고 OpenAI의 추론 모델에서 보이는 역설적인 환각 증가는 이 문제의 다양한 측면을 보여줍니다.

놀랍게도, 기존 AI 모델의 성능을 향상시키는 기술이 점점 감소하는 수익을 보이면서 전체 AI 업계가 지난 1년 동안 추론 모델에 초점을 맞추기 시작했습니다. 추론은 대규모 컴퓨팅과 훈련 데이터를 필요로 하지 않고도 다양한 작업에서 모델 성능을 향상시킵니다. 그러나 역설적으로 추론이 더 많은 환각으로 이어질 수 있다는 점이 과제로 등장하고 있습니다.

AI 기술이 계속해서 우리의 일상적인 워크플로우에 통합됨에 따라, 환각에 대한 인식과 적절한 완화 전략은 점점 더 중요해질 것입니다. 개발자, 기업, 그리고 AI 사용자 모두가 이러한 도구의 한계를 인식하고, 그에 따라 적응해야 합니다.

AI의 강력한 능력과 창의성을 활용하는 동시에 그 한계를 인정하고 적절한 안전장치를 구현하는 균형 잡힌 접근법이 필요합니다. 이는 AI가 우리의 업무를 증강하는 동시에 보안, 정확성, 신뢰성이라는 핵심 가치를 유지하는 데 도움이 될 것입니다.

AI 환각은 피할 수 없는 현실이지만, 적절한 인식과 도구를 통해 그 위험을 관리하고 최소화할 수 있습니다. 기술이 발전함에 따라, 환각 감소를 위한 더 효과적인 해결책이 등장할 것이며, 이는 AI 도구의 전반적인 신뢰성과 유용성을 더욱 향상시킬 것입니다.

참고자료:

Like?

AI Sparkup

AI 환각의 현실적 위험: 슬롭스쿼팅부터 비즈니스 손실까지

AI 환각의 새로운 위협: 슬롭스쿼팅(Slopsquatting)

‘바이브 코딩’의 등장과 위험 증가

비즈니스에 미치는 실질적 영향: Cursor 사례 분석

더 발전된 모델, 더 많은 환각: OpenAI 추론 모델의 역설

AI 환각 대응 전략

패키지 검증 도구 사용

AI 응답 검증

웹 검색 기능 활용

인간의 감독 유지

자체 교정 기능 활용

결론 및 전망

참고자료:

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

OpenAI도 겪은 AI 도입의 현실: 계약서 1,000건을 하룻밤에 처리하는 법

Qwen Code 무료 공개: 하루 2,000번 쓸 수 있는 CLI 코딩 에이전트

AI가 코딩을 도와주는데 왜 실력이 안 느나요? – 인지적 지름길의 역설

메타 AI와 나눈 대화, 이제 광고에도 반영된다