AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

voyage-context-4 – 청킹 고민을 줄이는 문맥 인식 임베딩 모델

voyage-context-4는 Voyage AI의 차세대 문맥 인식 청크 임베딩(contextualized chunk embedding) 모델이다. 문서를 조각으로 나눠도 각 청크 임베딩이 문서 전체 맥락을 반영하도록 설계돼, RAG 파이프라인에서 청킹 전략에 쓰는 시간을 줄이는 데 초점을 둔다.

무엇이 달라졌나

일반 임베딩 모델은 각 청크를 독립적으로 임베딩한다. 계약서 조항, 연구 논문 중간 단락, 긴 제품 문서처럼 앞뒤 정의와 전제가 중요한 문서에서는 이 방식이 검색 품질을 떨어뜨린다. voyage-context-4는 전체 문서를 한 번에 보고 청크별 벡터를 만들어, 청크 자체 내용과 문서 전역 맥락을 함께 담는다.

기능설명
자동 청킹전체 문서를 보내면 모델이 청크를 나눔
32K 초과 처리긴 문서를 투명하게 분할 처리
중첩 청크 지원겹치는 청크에서도 문맥 손실을 줄임
MoE 백본문맥 인식 검색 품질 개선을 위해 혼합 전문가 구조 사용

Voyage AI는 39개 데이터셋, 8개 도메인 평균에서 voyage-context-3 대비 문서 수준 검색 1.4%, 청크 수준 검색 2.08% 향상을 주장한다. 또한 일반 단일 임베딩 모드에서도 voyage-4-large보다 평균 0.4% 높다고 소개한다.

언제 유용한가

법률 문서, 기술 문서, 긴 리서치 리포트, 고객 지원 지식베이스처럼 청크 경계가 검색 품질을 좌우하는 RAG 시스템에 맞다. 기존 청킹 파이프라인을 정교하게 튜닝하기 어려운 팀이라면, 문서 전체 입력 + 자동 청킹 방식으로 운영 복잡도를 낮출 수 있다.

관련 문서

참고 자료



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)