AI 코드 생성의 함정: LLM 할루시네이션 현상 분석과 대응 방안

GitHub Copilot부터 ChatGPT까지, AI 기반 코드 생성 도구들이 개발자들의 일상을 바꾸고 있습니다. 몇 줄의 자연어 설명만으로도 복잡한 함수를 만들어주고, 반복적인 코딩 작업을 자동화해주는 이 도구들은 개발 생산성을 획기적으로 향상시켰죠.

하지만 이런 편리함 뒤에는 숨겨진 위험이 있습니다. AI가 그럴듯해 보이지만 실제로는 잘못된 코드를 생성하는 ‘할루시네이션(Hallucination)’ 현상입니다. 최근 한 연구에 따르면, 실제 개발 환경에서 LLM이 생성한 코드의 상당 부분이 다양한 형태의 할루시네이션을 포함하고 있다고 합니다.

할루시네이션이란 무엇인가

코드 생성에서의 할루시네이션은 AI가 문법적으로는 올바르지만 실제로는 존재하지 않는 함수, 라이브러리, 또는 잘못된 로직을 생성하는 현상을 말합니다. 예를 들어:

존재하지 않는 패키지나 라이브러리를 import하는 코드
실제 API와 다른 매개변수를 사용하는 함수 호출
프로젝트 컨텍스트와 맞지 않는 코드 구조

이는 단순한 오타나 문법 오류와는 다릅니다. 겉보기에는 완벽해 보이지만 실행하면 오류가 발생하거나, 더 위험하게는 예상과 다른 동작을 하는 코드를 만들어내는 것이죠.

출처: Unsplash

실제 개발 환경에서의 할루시네이션 유형

중국 중산대학교와 화웨이의 공동 연구팀이 6개 주요 LLM(ChatGPT, CodeGen, PanGu-α, StarCoder2, DeepSeekCoder, CodeLlama)을 대상으로 실시한 연구에서는 할루시네이션을 다음과 같이 분류했습니다:

1. 작업 요구사항 충돌 (43.53%)

가장 흔한 할루시네이션 유형으로, AI가 사용자의 요구사항을 제대로 이해하지 못해 발생합니다.

기능적 요구사항 위반: 요청한 기능과 다른 코드를 생성하는 경우입니다. 예를 들어 특정 시간대 처리가 필요한 함수를 요청했는데, AI가 이 부분을 누락한 코드를 생성하는 것이죠.

비기능적 요구사항 위반: 보안, 성능, 코딩 스타일 등을 고려하지 않은 코드를 생성합니다. 특히 위험한 것은 yaml.load() 대신 안전한 yaml.safe_load()를 사용해야 하는 상황에서 보안에 취약한 코드를 생성하는 경우입니다.

2. 사실적 지식 충돌 (31.91%)

AI의 지식 베이스에 있는 정보가 부정확하거나 과도하게 일반화된 경우 발생합니다.

배경 지식 충돌: 특정 도메인이나 표준에 대한 이해 부족으로 발생합니다. 예를 들어 OCFL(Oxford Common File Layout) 같은 특정 데이터 저장 표준을 요구했을 때, AI가 관련 없는 파일 구조를 생성하는 경우입니다.

라이브러리 지식 충돌: 프레임워크나 라이브러리를 잘못 사용하는 경우입니다. 동기 함수를 만들어야 하는데 비동기 처리 프레임워크인 asyncio를 사용하는 것이 대표적인 예입니다.

API 지식 충돌: 가장 실무에서 자주 마주치는 문제로, 존재하지 않는 매개변수를 사용하거나 deprecated된 API를 추천하는 경우입니다.

3. 프로젝트 컨텍스트 충돌 (24.56%)

실제 프로젝트 환경과 맞지 않는 코드를 생성하는 경우입니다.

환경 충돌: 현재 개발 환경에서 지원하지 않는 언어 기능이나 라이브러리 버전을 사용하는 경우입니다.

의존성 충돌: 프로젝트에 정의되지 않은 함수나 변수를 사용하는 경우입니다. 실제 개발에서는 70% 이상의 함수가 다른 모듈에 정의된 요소들에 의존하는데, AI가 이런 의존성을 제대로 파악하지 못할 때 발생합니다.

비코드 리소스 충돌: 설정 파일, 데이터 파일, 이미지 등 실제 프로젝트에 존재하지 않는 리소스를 참조하는 코드를 생성하는 경우입니다.

LLM별 할루시네이션 패턴의 차이

흥미롭게도 각 LLM마다 할루시네이션 패턴이 다르게 나타났습니다:

CodeGen과 StarCoder2: 작업 요구사항 충돌이 특히 높게 나타났습니다. 이는 주로 코드 데이터로만 훈련된 특성과 관련이 있을 것으로 추정됩니다.
DeepSeekCoder와 CodeLlama: 상대적으로 할루시네이션 발생률이 낮았습니다. 코드와 텍스트 데이터를 모두 활용한 다양한 훈련 데이터의 영향으로 보입니다.
PanGu-α: 사실적 지식 충돌이 높게 나타났는데, 주로 중국어 데이터로 훈련되어 영어로 표현된 기술적 지식에 상대적으로 약했던 것으로 분석됩니다.

Programming Team
출처: Unsplash

할루시네이션이 발생하는 근본 원인

연구진은 할루시네이션의 원인을 네 가지로 분석했습니다:

1. 훈련 데이터 품질 문제

LLM은 GitHub 등의 오픈소스 저장소에서 수집한 대량의 코드로 훈련되는데, 이 과정에서 품질이 낮은 코드나 잘못된 패턴도 함께 학습됩니다. 실제로 GitHub에는 안전하지 않은 yaml.load() 함수를 사용한 Python 코드가 25만 6천 줄이나 존재한다고 합니다.

2. 의도 이해 능력의 한계

LLM은 패턴 인식에는 뛰어나지만, 복잡한 요구사항의 미묘한 차이를 이해하는 데는 한계가 있습니다. 특히 여러 단계의 로직이나 예외 상황 처리가 필요한 경우 일부만 구현하거나 잘못 이해할 수 있습니다.

3. 지식 습득 능력의 제약

훈련 데이터에 특정 도메인의 정보가 부족하거나, 모델 훈련 이후에 등장한 새로운 기술에 대해서는 정확한 코드를 생성하기 어렵습니다. 또한 도메인별 데이터 분포의 불균형으로 인해 일부 영역에서는 할루시네이션이 더 자주 발생합니다.

4. 저장소 수준 컨텍스트 인식 부족

실제 개발에서는 전체 프로젝트의 맥락을 이해해야 하지만, LLM의 토큰 제한과 컴퓨팅 비용 때문에 모든 프로젝트 정보를 입력으로 제공하기 어렵습니다. 이로 인해 프로젝트 특화된 함수나 설정을 제대로 활용하지 못하게 됩니다.

실무에서의 위험한 사례들

최근 보안 연구에서는 ‘패키지 할루시네이션’이라는 새로운 공격 벡터가 주목받고 있습니다. AI가 존재하지 않는 패키지를 추천하면, 공격자가 해당 이름으로 악성 패키지를 실제로 등록하여 개발자들이 설치하도록 유도하는 것입니다.

또 다른 위험은 ‘Vibe Coding’이라 불리는 개발 패턴의 확산입니다. 개발자들이 AI가 제안하는 코드를 충분히 검토하지 않고 빠르게 복사-붙여넣기하는 방식으로 개발하는 것인데, 이는 할루시네이션으로 인한 위험을 크게 증가시킵니다.

특히 AI는 확신에 찬 어조로 잘못된 정보를 제공하기 때문에, 경험이 부족한 개발자들은 의심하지 않고 받아들이기 쉽습니다.

대응 방안: RAG 기반 완화 기법

연구진은 검색 증강 생성(RAG, Retrieval-Augmented Generation) 기반의 완화 방법을 제안했습니다. 이는 코드 생성 시 관련된 프로젝트 코드를 검색해서 참고 자료로 제공하는 방식입니다.

실험 결과, 모든 LLM에서 할루시네이션이 감소하는 효과를 보였습니다:

ChatGPT: 10.40% → 14.78% (4.38% 향상)
CodeLlama: 2.17% → 5.22% (3.05% 향상)
StarCoder2: 0.04% → 2.61% (2.57% 향상)

특히 프로젝트 컨텍스트 충돌과 작업 요구사항 충돌에서 효과가 컸지만, 사실적 지식 충돌에는 상대적으로 제한적인 효과를 보였습니다. 이는 현재 방식이 프로젝트 내부 코드만 참조하고 외부 지식 베이스는 활용하지 않기 때문입니다.

개발자를 위한 실용적 가이드라인

연구 결과를 바탕으로 다음과 같은 대응 전략을 제안합니다:

개발자 차원에서

의존성 고정: 패키지 해시를 활용해 의존성을 명확히 고정하세요
정적 분석 도구 활용: CI/CD 파이프라인에 정적 분석기를 포함시켜 자동으로 문제를 감지하세요
코드 리뷰 강화: AI 생성 코드라도 반드시 인간의 검토를 거치도록 하세요
점진적 적용: 중요한 로직부터는 AI 생성 코드를 점진적으로 적용하세요

조직 차원에서

교육 강화: ‘AI 생성’과 ‘검토 완료’는 다르다는 인식을 확산시키세요
내부 패키지 저장소 운영: 검증된 패키지만 사용할 수 있는 환경을 구축하세요
보안 우선 문화: 속도보다 보안을 우선시하는 개발 문화를 만들어가세요

도구 개발자 차원에서

신뢰도 점수 제공: AI 생성 코드의 확신도를 사용자에게 표시하세요
검증 가능성 강화: 생성된 코드의 검증 방법을 함께 제공하세요
할루시네이션 탐지: 실시간으로 할루시네이션을 감지하는 기능을 개발하세요

미래 전망과 과제

할루시네이션은 LLM의 확률적 특성에서 비롯되는 근본적인 문제로, 완전한 해결은 어려울 것으로 예상됩니다. 하지만 다음과 같은 방향으로 개선이 이루어질 것으로 기대됩니다:

기술적 발전 방향:

다중 에이전트 시스템을 활용한 검증 체계
더욱 정교한 RAG 시스템과 외부 지식 베이스 연동
실시간 할루시네이션 탐지 및 수정 기능

생태계 변화:

AI 생성 코드의 품질 평가 표준 수립
보안을 고려한 AI 코딩 도구 개발
개발자 교육 과정에 AI 활용 안전성 포함

AI 코드 생성 도구는 분명히 개발 생산성을 크게 향상시키는 혁신적인 기술입니다. 하지만 할루시네이션이라는 고유한 위험성을 이해하고 적절한 대응책을 마련하는 것이 중요합니다.

결국 핵심은 “신뢰하되 검증하라”입니다. AI의 도움을 받되, 생성된 코드에 대한 최종 책임은 여전히 개발자에게 있다는 점을 잊지 말아야 합니다. 적절한 도구와 프로세스를 통해 AI의 장점은 최대화하고 위험은 최소화하는 균형점을 찾아가는 것이 앞으로의 과제가 될 것입니다.

참고자료:

AI Sparkup