최근 AI 개발 커뮤니티에서 RAG(Retrieval-Augmented Generation, 검색 증강 생성) 기술이 크게 주목받고 있습니다. 그러나 현재 RAG 시스템 개발과 평가 방식에는 중요한 사각지대가 있습니다. 바로 실제 사용자 행동 데이터를 충분히 활용하지 못하고 있다는 점입니다.
RAG와 전통적 검색의 평가 방식 차이
전통적인 검색 시스템에서는 수천 명의 사용자가 “빨간 신발”과 같은 동일한 쿼리를 검색하고, 그 결과로 특정 상품을 클릭하거나 구매하는 행동 데이터를 집계합니다. 이렇게 수집된 실제 사용자 행동 데이터는 검색 결과의 관련성 평가와 시스템 개선에 직접적으로 활용됩니다.

반면, RAG 시스템에서는 다음과 같은 이유로 사용자 행동 데이터 활용이 어렵습니다:
- 사용자의 질문이 길고 대화식이어서 동일한 쿼리로 집계하기 어려움
- 사용자는 원본 검색 결과를 직접 보지 않고 LLM이 요약한 답변만 확인
- “수천 명이 ‘빨간 신발’을 검색해 특정 상품을 클릭했다”와 같은 데이터 집계가 불가능
이로 인해 RAG 개발 팀들은 인간 평가자나 LLM을 활용한 평가에 의존하게 되는데, 이는 실제 사용자의 미묘한 선호도와 행동 패턴을 놓치게 만듭니다.
RAG 애플리케이션별 사용자 데이터 수집 전략
RAG 애플리케이션은 크게 세 가지 유형으로 구분할 수 있으며, 각각 다른 데이터 수집 전략이 필요합니다:
- 전통적 검색 결과와 함께 제공되는 채팅
- 쇼핑 경험과 같이 제품 클릭, 건너뛰기 등 기존 검색 분석 활용 가능
- AI 패션 스타일리스트 서비스인 Daydream이 좋은 예시
AI 패션 스타일리스트 Daydream의 검색 결과와 채팅 인터페이스 (출처: softwaredoug.com)
- 인용과 링크가 포함된 대화형 응답
- Reddit Answers와 같이 특정 콘텐츠로 연결되는 링크 제공
- 각 링크의 참여도 외에도 답변에 대한 마우스 호버, 복사-붙여넣기 등 추가적인 분석 신호 필요
- 단순한 좋아요/싫어요 피드백보다 실용적인 액션(북마크, 공유, 확장 보기 등) 통합 권장
- 검색이 보이지 않는 완전히 투명한 RAG
- 이런 방식은 지양하고 투명하게 검색 중임을 사용자에게 알리는 것이 중요
- 인용이 많은 연구 중심 모드로 전환하고 사용자가 정보를 쉽게 찾을 수 있는 방법 제공
쿼리 집계와 확률적 접근법
RAG 시스템의 또 다른 도전 과제는 유사한 쿼리를 어떻게 집계할 것인가 하는 문제입니다. 예를 들어:
- “샬러츠빌에서 가장 좋은 식당은 무엇인가요?”
- “샬러츠빌에 있는 좋은 식당들은 어디인가요?”
이 두 쿼리는 의미적으로 유사하지만:
- “샬러츠빌에 있는 아이 동반 가능한 식당은 어디인가요?”
와 같은 쿼리와는 구분되어야 합니다.
이를 위한 한 가지 접근법은 임베딩 모델의 코사인 유사도를 활용하는 것입니다. 첫 두 쿼리의 유사도는 0.989로 매우 높은 반면, 첫 쿼리와 세 번째 쿼리의 유사도는 0.951로 상대적으로 낮습니다. 이 유사도를 확률로 변환하여 쿼리 간 관련성을 판단할 수 있습니다.
베타 분포를 활용한 불확실성 모델링
더 나아가, 적은 데이터로도 불확실성을 모델링할 수 있는 베타 분포 방식을 활용할 수 있습니다. 이 방식은 동전 던지기의 공정성을 판단하는 것과 유사하게, 초기에는 높은 불확실성에서 시작해 데이터가 축적될수록 더 확실한 확률 값으로 수렴합니다.
베타 분포를 활용한 검색 결과 관련성의 불확실성 모델링 (출처: softwaredoug.com)
예를 들어, “샬러츠빌에서 가장 좋은 식당은 무엇인가요?”라는 쿼리에 대해 “C&O 레스토랑”이 클릭되면 알파 값을 증가시키고, 클릭되지 않으면 베타 값을 증가시킵니다. 시간이 지남에 따라 더 많은 트래픽이 발생하면 불확실성이 줄어들고 분포가 좁아져 “진짜” 확률에 가까워집니다.
유사 쿼리에 대해서는 유사도에 비례하여 알파/베타 값을 조정할 수도 있습니다. 이러한 방식으로 시간이 지남에 따라 특정 쿼리에 대해 실제로 관련성이 높은 결과를 모델링할 수 있습니다.
RAG 시스템의 미래 과제
RAG 시스템의 사용자 중심 평가를 위해 해결해야 할 몇 가지 과제가 남아있습니다:
- 쿼리 간 유사성을 더 잘 측정할 방법은 무엇인가?
- 장문의 대화를 어떻게 요약된 단일 질문으로 변환할 것인가?
- 전통적 검색에서 발견된 위치 편향(상위 결과 선호) 같은 편향이 RAG에도 존재하는가?
- 이러한 접근법을 어떻게 RAG 결과의 관련성 향상에 활용할 것인가?
RAG 기술이 발전함에 따라 단순한 기술적 평가를 넘어 실제 사용자 행동과 선호도를 반영한 평가 시스템으로 나아가야 합니다. 이는 더 효과적이고 사용자 중심적인 AI 시스템 구축의 핵심이 될 것입니다.
Comments