ChatGPT에게 “어떤 CRM이 우리 팀에 맞을까?”라고 물었을 때, 추론 강도 설정 하나만 다르게 해도 AI가 참고하는 웹사이트의 74%가 바뀝니다. 같은 질문, 같은 모델인데 사실상 다른 인터넷을 보고 있는 셈입니다.

AI SEO 컨설턴트 Kevin Indig가 Semrush AI Visibility Toolkit 데이터를 활용해 GPT-5.2의 추론 강도(최소 vs. 고강도)에 따른 인용 패턴 차이를 분석한 결과입니다. B2B SaaS, 금융, 소비자 테크, 헬스케어 등 4개 카테고리, 20개 구매 여정, 총 200개 응답을 비교했습니다.
출처: Reasoning lift: What happens to AI visibility when AI thinks harder – Growth Memo
고강도 추론, 얼마나 더 많이 검색하나
숫자부터 보면 격차가 뚜렷합니다. 고강도 추론 모드에서 GPT-5.2의 인용률은 50%에서 68%로 오르고, 응답당 평균 인용 수는 2.6개에서 4.5개로 거의 두 배가 됩니다. 팬아웃 쿼리(모델이 답변 전 내부적으로 실행하는 세부 검색)는 4.6배 늘어납니다. 전체 100개 프롬프트 기준으로 보면, 최소 추론은 245개의 검색을 실행하는 데 반해 고강도 추론은 1,130개를 실행합니다.
참조 도메인 수도 다릅니다. 고강도 추론은 전체 테스트에서 173개 도메인을 인용한 반면, 최소 추론은 127개였습니다. 그리고 이 두 목록의 겹침은 25.6%에 불과합니다. 고강도 추론에서만 등장하는 도메인이 99개입니다. 추론 강도가 올라간다는 것은 단순히 “더 많이 검색하는 것”이 아니라, 다른 출처를 보는 것을 의미합니다.
퍼널 단계별로 격차가 달라진다
더 흥미로운 패턴은 구매 여정 단계별로 나타납니다. 분석은 5단계 구조로 진행됐습니다.
- Problem(문제 인식): “우리 팀에 CRM이 필요한지 어떻게 알 수 있나?”
- Exploration(탐색): “B2B SaaS용 CRM 종류는 무엇이 있나?”
- Comparison(비교): “HubSpot vs. Salesforce vs. Pipedrive, 50명 팀 기준”
- Validation(검증): “HubSpot은 미드마켓 B2B에 가격 대비 가치가 있나?”
- Selection(선택): “HubSpot Sales Hub 시작하는 방법”
세 가지 패턴이 20개 구매 여정 전체에서 일관되게 나타났습니다.
첫째, 인용률 격차는 초기 단계일수록 큽니다. Problem 단계에서 두 모드의 인용률 차이는 35%p인 반면, Validation 단계에서는 5%p로 좁혀집니다. 최소 추론 모드에서 AI는 초기 질문을 “기억에서 답하는” 방식으로 처리하지만, 고강도 추론은 이를 리서치 태스크로 취급합니다.
둘째, 팬아웃 쿼리는 Comparison 단계에서 정점을 찍습니다. 고강도 추론은 응답당 24개의 세부 쿼리를 실행하고, 최소 추론은 5.5개입니다. Salesforce, HubSpot, Pipedrive를 50인 팀 기준으로 비교하는 단일 프롬프트가 API 한도, SOC 2 인증, OAuth 아키텍처, 엔터프라이즈 가격 등을 각각 개별 검색으로 분해하는 방식입니다.
셋째, 평균 인용 수는 Comparison(고강도 9.8개, 최소 5.8개)에서 최고치를 기록하고 Selection(4.7개, 2.6개)에서 줄어듭니다. 모래시계 형태입니다.
TOFU 콘텐츠가 다시 살아난다
이 분석에서 가장 주목할 만한 발견은 브랜드 ‘지속성’입니다. Problem 단계에서 인용된 브랜드가 Selection 단계까지 계속 언급되는지를 추적했습니다.
최소 추론에서는 이런 지속성이 단 한 건도 관찰되지 않았습니다. 각 단계가 사실상 초기화되는 셈입니다. 반면 고강도 추론에서는 20개 여정 중 4개에서 Problem 단계 브랜드가 Selection까지 이어졌습니다. 금융 카테고리에서 집중적으로 나타났는데, 이는 규제 페이지나 공식 브랜드 사이트 같은 권위 있는 출처가 고강도 추론의 그라운딩에 유리하게 작용하기 때문으로 보입니다.
고강도 추론 모드에서 단일 응답 내 동일 도메인 반복 인용도 늘었습니다. 고강도 응답의 51%에서 같은 도메인이 한 응답 안에 두 번 이상 등장한 반면, 최소 추론에서는 26%였습니다.
이것이 의미하는 바는 명확합니다. 고강도 추론 환경에서는 TOFU(상단 퍼널) 콘텐츠가 단순한 브랜드 인지가 아니라, 최종 선택 단계에서의 인용을 예측하는 선행 지표가 됩니다.
두 개의 다른 시스템
이 분석이 제기하는 본질적인 문제는 하나입니다. 지금까지 대부분의 AI SEO 전략은 ChatGPT를 단일 시스템으로 가정해왔습니다. 그런데 데이터는 추론 모드에 따라 인용하는 출처 유형, 참조 도메인, 단계별 노출 패턴이 모두 다르다고 말합니다.
한 가지 불확실성도 있습니다. 실제 사용자 중 얼마나 많은 비율이 고강도 추론을 쓰는지는 아직 측정되지 않았습니다. 다만 ChatGPT는 복잡한 비교나 규정·컴플라이언스 질문, 구체적인 제품 빌드 요청 같은 프롬프트에서 사용자 설정과 무관하게 자동으로 추론 모드를 높이기도 합니다.
원문에는 추론 강도에 따라 어떤 출처 유형이 득세하고 어떤 유형이 밀려나는지에 대한 추가 데이터도 담겨 있습니다.
참고자료: How Consumers Navigate High-Stakes AI Decisions – Growth Memo

답글 남기기