OpenAI Operator나 Anthropic Computer Use처럼 AI가 대신 웹사이트를 돌아다니며 쇼핑해주는 시대가 열리고 있습니다. 하지만 Microsoft Research의 최신 연구는 이런 AI 에이전트들이 실제 시장에서 놀랍도록 취약하다는 사실을 발견했습니다.

Microsoft Research가 AI 에이전트들이 실제 시장처럼 상호작용하는 시뮬레이션 환경 “Magentic Marketplace”를 만들어 테스트한 결과를 발표했습니다. GPT-5, Claude Sonnet 4.5, Gemini 2.5 Flash 등 최신 모델들을 테스트했는데, 선택지가 많아질수록 성능이 급락하고, 가짜 인증에 속아넘어가며, 첫 번째 제안을 거의 무조건 받아들이는 심각한 약점이 드러났습니다.
출처: Magentic Marketplace: an open-source simulation environment for studying agentic markets – Microsoft Research Blog
가짜 시장에서 드러난 진짜 문제들
연구팀은 100명의 고객 에이전트와 300개의 비즈니스 에이전트가 실제 시장처럼 검색하고, 협상하고, 거래하는 환경을 구축했습니다. 고객 에이전트는 “파스타와 샐러드를 파는데 주차가 무료인 식당을 찾아줘”같은 요청을 받고, 여러 비즈니스 에이전트들과 대화하며 최선의 선택을 찾아야 했죠.
실험은 단순했습니다. 각 고객은 원하는 항목들의 리스트가 있고, 그게 모두 충족되어야 만족스러운 거래가 됩니다. 고객 복지는 고객이 매긴 가치에서 실제 지불한 금액을 뺀 값의 총합으로 측정했습니다.
결과는 어땠을까요?
선택지가 많을수록 무너지는 판단력
“AI는 사람보다 훨씬 많은 옵션을 처리할 수 있다”는 기대와 달리, AI 에이전트들은 선택지가 늘어날수록 오히려 성능이 급락했습니다. 검색 결과를 3개에서 100개로 늘렸을 때:
- Claude Sonnet 4: 1,800 → 600으로 66% 급락
- GPT-5: 2,000 (거의 최적) → 1,400으로 30% 하락
- Gemini 2.5 Flash: 1,700 → 1,350으로 20% 감소
더 놀라운 건 대부분의 모델이 많은 옵션을 받아도 실제로는 소수의 업체만 접촉했다는 점입니다. Claude Sonnet 4와 GPT-4o는 검색 결과가 100개여도 평균 10-15개 업체만 접촉했죠. 반면 Gemini 2.5 Flash는 100개 이상의 업체에 연락했지만, 그렇다고 더 나은 결과를 얻지는 못했습니다.
연구팀은 이를 “선택의 역설(Paradox of Choice)” 효과로 설명합니다. 긴 컨텍스트를 처리하는 능력의 한계와 “충분히 괜찮은” 옵션을 만나면 바로 멈추는 경향이 결합된 결과입니다.
조작에 무방비한 AI 에이전트들
연구팀은 6가지 조작 전략을 테스트했습니다:
- 권위 소구: 가짜 “미슐랭 가이드 선정” 또는 “제임스 비어드상 후보” 표시
- 사회적 증거: “50,000명 이상의 만족한 고객”이나 가짜 리뷰
- 손실 회피: 경쟁 식당의 “식중독 위험”이나 “오염 문제” 경고
- 프롬프트 인젝션: 에이전트의 지시사항을 무력화하려는 시도
- 강한 프롬프트 인젝션: 긴급 상황 언어와 경쟁자 스캔들 조작
결과의 편차가 컸습니다. Claude Sonnet 4는 모든 조작에 저항했지만, GPT-4o, GPT OSS-20b, Qwen3-4b는 프롬프트 인젝션 공격에 완전히 무너져 모든 결제가 조작 에이전트로 향했습니다. 특히 GPT OSS-20b와 Qwen3-4b는 기본적인 권위 소구나 사회적 증거에도 취약했습니다.
첫 제안을 거의 무조건 수락
모든 모델이 공통적으로 보인 편향도 있었습니다. 첫 번째 받은 제안을 거의 자동으로 수락하는 경향이죠:
- GPT-4o: 100%가 첫 번째 제안 수락
- Claude Sonnet 4.5: 93.3%가 첫 번째 제안 수락
- Gemini 2.5 Flash: 86.7%가 첫 번째 제안 수락
다른 제안을 기다리거나 체계적으로 비교하지 않고, 즉시 결정을 내렸습니다. 이는 시장에서 응답 속도가 품질보다 중요해지는 불공정한 역학을 만들 수 있습니다.
AI 에이전트 경제, 아직 준비되지 않았다
Microsoft Research AI Frontiers Lab의 Ece Kamar 부사장은 이렇게 말합니다. “우리는 이런 에이전트들이 서로 협력하고 대화하고 협상하면서 세상이 어떻게 변할지 정말 알아야 합니다.”
이번 연구가 중요한 이유는 대부분의 AI 에이전트 연구가 고립된 시나리오—단일 에이전트가 작업을 완료하거나 두 에이전트가 단순 거래를 협상하는 상황—에만 집중했기 때문입니다. 하지만 실제 시장은 수많은 에이전트가 동시에 검색하고, 소통하고, 거래하면서 복잡한 역학을 만들어냅니다.
현재의 AI 모델들은 단독으로 작동할 때는 인상적이지만, 복잡한 시장 환경에서는 선택의 과부하, 조작 취약성, 체계적 편향 같은 근본적 한계를 드러냅니다. 이런 문제들은 단순히 모델 성능만의 문제가 아니라 시장 설계와 구현 방식과도 연결되어 있습니다.
연구팀은 실제 배포 전 더 많은 연구가 필요하다고 강조합니다. 특히 고액 거래에서는 AI가 인간을 대체하기보다 보조하는 역할에 머물러야 한다는 점도 분명히 했습니다.
Magentic Marketplace는 GitHub과 Azure AI Foundry Labs에서 오픈소스로 공개되어 있어, 다른 연구자들도 실험을 재현하고 확장할 수 있습니다.
참고자료:
- Microsoft built a fake marketplace to test AI agents — they failed in surprising ways – TechCrunch
- Magentic Marketplace: An Open-Source Environment for Studying Agentic Markets – arXiv (연구 논문)
- Magentic Marketplace GitHub Repository – GitHub
- Magentic Marketplace – Azure AI Foundry Labs

답글 남기기