
최근 몇 년간 AI 기술의 발전으로 사용자 경험을 혁신적으로 개선하는 다양한 사례들이 등장하고 있습니다. 특히 여행 산업에서는 개인화된 추천 시스템이 사용자들에게 더 관련성 높은 정보를 제공하는 핵심 요소로 자리잡았습니다. 에어비앤비도 예외가 아닙니다. 전 세계 수백만 개의 숙소 중에서 사용자에게 가장 적합한 숙소를 추천하기 위해 에어비앤비는 어떤 기술을 사용할까요? 오늘은 에어비앤비가 최근 공개한 ‘임베딩 기반 검색(Embedding-Based Retrieval, EBR)’ 시스템에 대해 살펴보겠습니다.
에어비앤비 검색의 도전 과제
에어비앤비 검색 시스템의 주요 목표는 사용자 쿼리에 가장 적합한 숙소를 찾아내는 것입니다. 그러나 이는 결코 쉬운 일이 아닙니다. 몇 가지 주요 도전 과제를 살펴보겠습니다:
- 대규모 데이터: 전 세계 수백만 개의 숙소 중에서 실시간으로 관련성 높은 결과를 제공해야 합니다.
- 지리적 범위: 사용자가 ‘캘리포니아’ 또는 ‘프랑스’와 같은 넓은 지역을 검색할 때도 효율적으로 결과를 보여줘야 합니다.
- 인기 지역의 복잡성: 파리나 런던 같은 인기 여행지는 숙소의 수가 많아 검색과 순위 결정이 더욱 복잡합니다.
- 유연한 검색 옵션: 최근 도입된 ‘유연한 날짜 검색(flexible date search)’과 같은 기능은 검색의 복잡도를 한층 더 높였습니다.
이러한 과제들을 해결하기 위해 에어비앤비는 관련성 높은 숙소를 찾아내면서도 대규모 검색을 처리할 수 있는 확장성 있는 시스템이 필요했습니다. 그 해답이 바로 ‘임베딩 기반 검색(EBR)’ 시스템입니다.
임베딩 기반 검색(EBR)이란?
임베딩 기반 검색은 머신러닝을 활용하여 사용자의 검색 쿼리와 숙소를 모두 ‘숫자 벡터’로 변환하는 기술입니다. 이 벡터들은 다차원 공간에서 서로 가까운 거리에 위치할수록 유사도가 높다고 판단됩니다. 쉽게 말해, 사용자의 검색 의도와 숙소의 특성을 숫자로 표현하고, 이 숫자들 간의 거리를 계산해 가장 가까운 숙소를 추천하는 방식입니다.
에어비앤비의 새로운 EBR 시스템은 최종 결과를 보여주기 전에 초기 대규모 숙소 풀에서 관련성 높은 후보군을 추려내는 역할을 합니다. 이렇게 선별된 소규모 숙소 풀은 이후 더 정교한 머신러닝 모델을 통해 최종 순위가 결정됩니다.
에어비앤비 EBR 시스템의 3가지 핵심 요소
에어비앤비 EBR 시스템을 구축하는 데는 세 가지 핵심적인 도전 과제가 있었습니다:
1. 학습 데이터 구성
EBR 모델 훈련의 첫 단계는 숙소와 검색 쿼리를 숫자 벡터로 변환하는 머신러닝 모델을 만드는 것입니다. 이를 위해 ‘대조 학습(contrastive learning)’이라는 방법을 활용했습니다. 이 방법은 주어진 쿼리에 대해 긍정적인 숙소와 부정적인 숙소를 구분하는 쌍을 식별하는 전략입니다.
에어비앤비는 사용자의 여행 데이터를 기반으로 이러한 쌍을 구성했습니다. 에어비앤비 사용자들은 일반적으로 최종 예약 전에 여러 번의 검색과 다양한 상호작용(숙소 세부 정보 확인, 리뷰 읽기, 위시리스트에 추가 등)을 하게 됩니다. 에어비앤비는 이러한 전체 사용자 여정을 분석하여 최종적으로 예약된 숙소는 ‘긍정적(positive)’ 샘플로, 사용자가 검색했지만 예약하지 않은 숙소는 ‘부정적(negative)’ 샘플로 설정했습니다.
중요한 점은 부정적 샘플을 단순히 무작위로 선택하는 대신, 사용자가 실제로 본 숙소 중에서 선택했다는 것입니다. 이는 모델이 미묘한 차이를 학습하는 데 도움이 되어 더 나은 성능을 발휘하게 합니다.
2. 모델 아키텍처 설계
에어비앤비 EBR 시스템은 전통적인 ‘투 타워(Two-Tower)’ 네트워크 설계를 따릅니다. 이 설계는 두 개의 독립적인 ‘타워(신경망)’으로 구성됩니다:
- 숙소 타워(Listing Tower): 숙소의 특성(과거 참여도, 편의시설, 수용 인원 등)을 처리합니다.
- 쿼리 타워(Query Tower): 검색 쿼리와 관련된 특성(지리적 위치, 게스트 수, 체류 기간 등)을 처리합니다.
이 두 타워는 각각 숙소와 검색 쿼리에 대한 벡터 임베딩을 생성합니다.
중요한 설계 결정 중 하나는 숙소 타워를 오프라인에서 일별로 계산할 수 있도록 특성을 선택한 것입니다. 이를 통해 매일 배치 작업으로 모든 숙소의 임베딩을 미리 계산함으로써 온라인 지연 시간을 크게 줄일 수 있었습니다. 실시간 검색 요청이 들어오면 쿼리 타워만 실시간으로 평가하면 됩니다.
3. 온라인 서빙 전략
마지막 단계는 온라인 서빙을 위한 인프라 선택이었습니다. 에어비앤비는 여러 근사 최근접 이웃(Approximate Nearest Neighbor, ANN) 솔루션을 탐색했고, 최종적으로 두 가지 주요 후보를 선정했습니다: 역파일 인덱스(IVF, Inverted File Index)와 계층적 내비게이션 작은 세계(HNSW, Hierarchical Navigable Small Worlds).
HNSW가 성능 측면에서 약간 더 나은 결과를 보였지만, 최종적으로는 IVF가 속도와 성능 간의 최적의 균형을 제공한다고 판단했습니다. 그 이유는 다음과 같습니다:
- 실시간 업데이트: 에어비앤비 숙소는 가격과 가용성 데이터가 자주 업데이트되는데, HNSW는 이러한 환경에서 메모리 사용량이 너무 커지는 문제가 있었습니다.
- 필터링과의 호환성: 대부분의 에어비앤비 검색에는 지리적 필터 등의 조건이 포함되는데, HNSW와 필터를 병렬로 처리할 경우 지연 시간이 좋지 않았습니다.
반면, IVF 솔루션은 숙소들을 미리 클러스터링하고, 검색 인덱스 내에 클러스터 중심점과 클러스터 할당만 저장하면 됩니다. 검색 시에는 클러스터 할당을 표준 검색 필터로 취급하여 상위 클러스터에서 숙소를 검색하는 방식으로, 기존 검색 시스템과 쉽게 통합할 수 있었습니다.
유사도 함수 선택의 중요성: 점 곱 vs 유클리드 거리
EBR 모델에서 유사도 함수 선택도 중요한 의미를 가졌습니다. 에어비앤비는 점 곱(dot product)과 유클리드 거리(Euclidean distance) 두 가지 방식을 탐색했습니다.
모델 성능 측면에서는 두 방식이 비슷했지만, 유클리드 거리를 사용했을 때 평균적으로 더 균형 잡힌 클러스터가 생성되었습니다. 이는 IVF 검색의 품질이 클러스터 크기의 균일성에 매우 민감하기 때문에 중요한 발견이었습니다. 만약 한 클러스터에 너무 많은 숙소가 있다면, 검색 시스템의 변별력이 크게 감소하게 됩니다.
에어비앤비는 이러한 불균형이 점 곱 유사도를 사용할 때 발생하는 이유가, 점 곱은 벡터의 방향만 고려하고 크기는 무시하기 때문이라고 분석했습니다. 반면, 많은 기본 특성들이 과거 카운트를 기반으로 하기 때문에 벡터의 크기도 중요한 요소가 됩니다.
결과 및 효과
이 새로운 EBR 시스템은 에어비앤비의 검색 및 이메일 마케팅 프로덕션에 완전히 도입되었으며, A/B 테스트 결과 전체 예약에 통계적으로 유의미한 증가를 가져왔습니다. 특히 주목할 만한 점은 이 새로운 검색 시스템의 예약 증가가 지난 2년간 검색 랭킹에 적용된 일부 최대 규모의 머신러닝 개선 사항과 비슷한 수준이었다는 것입니다.
기존 시스템 대비 핵심 개선 사항은 새로운 EBR 시스템이 쿼리 컨텍스트를 효과적으로 통합하여 검색 단계에서 숙소를 더 정확하게 랭킹할 수 있게 되었다는 점입니다. 이는 궁극적으로 특히 적격 결과가 많은 쿼리에 대해 사용자에게 더 관련성 높은 결과를 표시하는 데 도움이 되었습니다.
기술적 함의와 AI 검색의 미래
이 사례는 현대 검색 시스템에서 AI와 머신러닝이 어떻게 혁신을 이끌고 있는지를 잘 보여줍니다. 특히 주목할 점은:
- 사용자 행동 데이터의 가치: 에어비앤비는 단순한 클릭 데이터를 넘어 전체 사용자 여정을 모델링함으로써 더 정확한 추천을 제공할 수 있었습니다.
- 아키텍처 설계의 중요성: 온라인 지연 시간과 확장성 요구 사항을 충족하기 위해 신중한 아키텍처 결정이 필요했습니다. 오프라인 계산과 온라인 서빙의 균형을 맞추는 것이 핵심이었습니다.
- 시스템 통합의 실용성: 최상의 성능을 보이는 알고리즘이 항상 최선의 선택은 아닙니다. 에어비앤비는 실제 운영 환경에서의 실용성을 고려해 IVF를 선택했습니다.
- 세부 사항의 중요성: 유사도 함수와 같은 작은 결정도 전체 시스템의 성능에 큰 영향을 미칠 수 있습니다.
마치며
에어비앤비의 임베딩 기반 검색 시스템 개발 사례는 대규모 데이터와 복잡한 사용자 요구를 처리하는 현대 검색 시스템의 진화를 잘 보여줍니다. 이러한 기술 혁신은 단순히 관련성 있는 검색 결과를 보여주는 것을 넘어, 사용자가 자신에게 가장 적합한 숙소를 더 쉽게 찾을 수 있도록 도와주는 진정한 개인화 경험을 가능하게 합니다.
AI 기술이 발전함에 따라 이러한 검색 및 추천 시스템은 더욱 정교해질 것이며, 사용자 경험은 계속해서 향상될 것입니다. 이는 여행 산업뿐만 아니라 e-커머스, 엔터테인먼트, 교육 등 다양한 분야에도 적용될 수 있는 중요한 발전입니다.
답글 남기기