ChatGPT, 검색하는 질문과 안 하는 질문이 따로 있다

당뇨병 최신 치료 지침을 물었을 때, ChatGPT는 웹을 검색하지 않았습니다. 최신 정보가 중요한 질문인데도 학습 데이터만으로 답을 낸 겁니다.

AI 생성 이미지

SEO 컨설턴트 Suganthan이 자신의 브라우저 개발자 도구로 ChatGPT의 네트워크 트래픽을 직접 열어봤습니다. 약 1,240건의 응답을 들여다본 결과, 질문을 어떻게 쓰느냐에 따라 웹 검색 여부와 소스를 가져오는 경로, 심지어 답변에 섞이는 개인 데이터까지 달라진다는 걸 확인했습니다.

출처: How ChatGPT Actually Picks Sources (I Read the Network Traffic, Not the Outputs) – Suganthan

질문에 따라 검색 여부가 갈린다

ChatGPT는 질문을 받으면 먼저 그 질문을 내부적으로 분류합니다. Suganthan이 트래픽에서 발견한 필드는 turn_use_case인데, 여기 담기는 값이 instant search, shopping, text, local, thinking, image generation, 이렇게 여섯 가지였습니다. 이 중 text로 분류되면 웹 검색은 아예 일어나지 않습니다. 학습된 데이터만으로 답을 만들고 끝나는 겁니다.

문제는 이 분류가 주제가 아니라 질문의 문구로 결정된다는 점입니다. “타이어 교체하는 법”처럼 뻔한 질문이 text로 빠지는 건 당연해 보이는데, “당뇨병 최신 치료 지침”처럼 최신성이 핵심인 질문도 검색 없이 text로 처리된 사례가 있었습니다. 저자가 시도한 최신성 질문 10개 중 3개가 이런 식으로 검색 없이 답변됐다고 합니다.

문구 하나 차이로 경로가 갈리는 경우도 있었습니다. “근처 커피숍”이라고 물으면 로컬 파이프라인으로, “살 만한 4K TV”라고 물으면 쇼핑 파이프라인으로 넘어가는데, “리뷰가 있는 4K TV”라고 쓰면 일반 검색으로 남았습니다. 같은 주제를 묻고 있지만 ChatGPT 입장에서는 전혀 다른 질문인 셈입니다.

가져온 것과 인용된 것은 다른 사건이다

트래픽에는 소스마다 result_source라는 값도 붙어 있었습니다. ChatGPT가 어떤 경로로 그 페이지를 가져왔는지 보여주는 표시인데, 이건 답변 어디에도 드러나지 않습니다. 그런데 여기서 정작 중요한 건 따로 있습니다. 페이지를 가져오는 것과, 그 페이지를 인용하는 것은 전혀 다른 사건이라는 사실입니다.

저자가 모은 상업성 질문 묶음에서 레딧과 유튜브는 각각 278번, 201번 가져와졌습니다. 그런데 실제로 답변에 인용된 건 레딧 11번, 유튜브는 단 한 번도 없었습니다. 이유는 기계적입니다. 인용은 실제로 읽어들인 텍스트에 붙는데, 유튜브 페이지를 가져와도 얻는 건 제목이나 설명 같은 메타데이터뿐이고 영상 내용 자체는 읽지 못합니다. 반면 레딧 글타래는 텍스트가 그대로 페이지에 있으니 인용할 문장이 남는 거고요.

여기에 한 가지가 더 있습니다. 브랜드 이름이 답변에 언급되는 것과, 그 브랜드가 주장의 근거로 인용되는 것도 다른 일입니다. 가격이나 제품 정보처럼 검증 가능한 사실은 공식 페이지가 인용되지만, “뭐가 제일 좋은가” 같은 평가는 결국 제3자 리뷰가 근거로 쓰이는 경향이 있었습니다.

답변에는 개인 데이터가 섞여 들어간다

트래픽에서 또 하나 눈에 띈 건 personal_sources라는 값이었습니다. 저자의 과거 대화나 검색 기록과 겹치는 질문을 던졌더니, 답변을 만드는 데 쓰인 소스 목록에 convo_search, gmail, files 같은 항목이 함께 붙어 있었던 겁니다. 다만 이건 조건부로 작동했습니다. 비슷한 질문 세 개 중, 과거 기록과 실제로 겹치는 하나에서만 개인 데이터가 끼어들었죠.

로컬 검색에도 비슷한 제약이 있었습니다. local_results_limit라는 값이 2로 고정돼 있어서, “근처 괜찮은 카페”라고 물으면 열 곳이 아니라 딱 두 곳만 돌아왔습니다.

두 사람이 똑같은 문장으로 질문해도 서로 다른 답을 받는 이유 중 일부는 여기서 비롯되는 셈입니다. 한쪽에게만 있는 과거 대화, 한쪽에게만 걸리는 로컬 상한선이 답변의 모양을 조금씩 바꿔놓습니다.

결국 ChatGPT 뒤편에는 하나의 검색엔진이 아니라, 질문의 문구에 따라 갈라지는 여러 갈래의 경로가 있는 셈입니다. 같은 질문도 어떻게 쓰느냐에 따라 검색을 거치기도, 건너뛰기도 합니다. 답변에 누구의 데이터가 섞이느냐도 매번 조금씩 달라지고요. 오늘 받은 답이 어제와 미묘하게 다르게 느껴졌다면, 어쩌면 그건 착각이 아니었을지도 모릅니다.

Like?

AI Sparkup

ChatGPT, 검색하는 질문과 안 하는 질문이 따로 있다

질문에 따라 검색 여부가 갈린다

가져온 것과 인용된 것은 다른 사건이다

답변에는 개인 데이터가 섞여 들어간다

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

AI 트래픽 1년새 187% 증가, 인간은 3.1%에 그쳤다

ChatGPT, 검색하는 질문과 안 하는 질문이 따로 있다

메타 클라우드 진출설에 주가 9% 급등, 남는 컴퓨팅 판다

Claude Code 토큰 65% 줄이는 caveman 트릭의 진짜 근거