AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

AI 에이전트가 1,000개 도구 중 정확히 고르는 법, MIT BEACON 탐색 알고리즘

AI 에이전트에게 수백 개의 도구를 제공하면 더 똑똑해질까요? 오히려 혼란스러워집니다. 도구가 100개를 넘어가면 성능이 30% 이상 떨어지는 현상이 발생하죠. MIT 연구팀이 이 문제를 해결할 새로운 탐색 알고리즘 BEACON을 개발했습니다.

사진 출처: MIT News

MIT CSAIL의 Zora Wang 연구팀이 대규모 언어 모델(LLM)이 수천 개의 도구 중에서도 정확하게 필요한 것만 선택할 수 있게 하는 탐색 알고리즘을 개발했습니다. 기존 방식은 도구가 많아질수록 성능이 급격히 떨어졌지만, BEACON은 1,000개 도구 환경에서도 높은 정확도를 유지하면서 속도까지 3배 빠릅니다.

출처: Helping AI agents search to get the best results from LLMs – MIT News

도구가 많으면 왜 성능이 떨어질까

AI 에이전트에게 도구를 제공하는 기존 방식은 간단합니다. 모든 도구의 설명을 프롬프트에 나열하고 “이 중에서 골라”라고 하는 거죠. 도구가 10-20개일 때는 잘 작동하지만, 100개를 넘어가면 문제가 생깁니다.

연구팀의 테스트 결과, 도구 개수가 증가하면 정확도가 선형적으로 감소했습니다. 100개 도구 환경에서는 성능이 30% 이상 떨어졌고, 수백 개가 되면 거의 무작위 선택 수준까지 떨어졌죠. 마치 전화번호부에서 이름을 찾는데 페이지를 무작위로 넘기는 것과 비슷합니다.

왜 이런 일이 생길까요? LLM의 컨텍스트 창에 너무 많은 정보가 들어가면서 중요한 것과 덜 중요한 것을 구별하기 어려워지기 때문입니다. 연구팀은 이를 “혼잡 효과(crowding effect)”라고 부릅니다.

BEACON의 3단계 탐색 전략

BEACON(BEst Action COnditioNed search)은 사람이 전화번호부를 찾듯이 단계적으로 좁혀가는 방식을 사용합니다. 전체 구조는 세 단계로 이루어져 있습니다.

1단계: 광범위한 탐색
먼저 모든 도구를 몇 개의 큰 카테고리로 묶습니다. 예를 들어 “날씨 관련”, “데이터 분석”, “이메일 처리” 같은 식이죠. LLM은 이 카테고리들만 보고 어디에 필요한 도구가 있을지 판단합니다.

2단계: 좁혀가기
선택한 카테고리 안에서 다시 서브그룹으로 나눕니다. 이번엔 더 구체적으로 “실시간 날씨 조회”, “과거 날씨 데이터”, “날씨 예보” 같은 식입니다. 여기서도 가장 관련 있는 그룹을 고릅니다.

3단계: 최종 선택
좁혀진 범위 안에서 개별 도구를 직접 보고 최종 결정을 내립니다. 이 단계에서는 5-10개 정도만 비교하면 되기 때문에 훨씬 정확합니다.

핵심은 각 단계에서 LLM이 처리해야 할 정보량을 제한한다는 점입니다. 1,000개를 한 번에 보는 게 아니라, 20개→10개→5개 식으로 점진적으로 좁혀가는 거죠.

1,000개 도구에서도 작동하는 성능

연구팀은 ToolBench와 API-Bank라는 두 가지 벤치마크에서 BEACON을 테스트했습니다. 결과는 놀라웠습니다.

기존의 단순 프롬프팅 방식은 도구 개수가 증가할수록 성능이 급격히 떨어졌지만, BEACON은 1,000개 도구 환경에서도 안정적인 성능을 유지했습니다. 특히 ToolBench에서는 기존 방식 대비 정확도가 크게 높았고, 속도는 3배 이상 빨랐죠.

더 흥미로운 점은 도구의 계층 구조를 자동으로 생성한다는 것입니다. 연구팀은 처음에 사람이 직접 카테고리를 만들었지만, 나중에는 LLM이 도구 설명만 보고 스스로 계층을 만들게 했습니다. 결과는 거의 동일했습니다.

AI 에이전트 확장성의 새로운 가능성

BEACON이 보여주는 건 단순히 “더 빠른 검색”이 아닙니다. AI 에이전트가 실제 세계의 복잡성을 다룰 수 있는 능력입니다.

지금까지 AI 에이전트는 제한된 도구 세트에서만 잘 작동했습니다. 하지만 실제 기업 환경에는 수백, 수천 개의 API와 도구가 있죠. BEACON 같은 접근법이 있어야 AI 에이전트가 진짜 범용적으로 쓰일 수 있습니다.

연구팀은 향후 더 정교한 탐색 전략을 연구하고 있습니다. 예를 들어 도구 사용 이력을 학습해서 자주 쓰는 도구를 우선순위에 두거나, 여러 도구를 조합해야 하는 복잡한 작업도 다룰 수 있게 하는 거죠.

참고자료:

Fediverse reactions

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다