AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

AI 에이전트라 불리지만 에이전트가 아닌 것들, 검증 가능성이 핵심입니다

올해 AI 시장에서 ‘에이전트’만큼 자주 쓰이는 단어도 없습니다. 그런데 막상 그 제품들을 들여다보면, 사람이 여전히 질문을 던지고 답을 해석하고 다음 행동을 결정합니다. 이름만 에이전트인 셈입니다.

사진 출처: FullStory Blog

FullStory 공동창업자 Joel Webber가 지금의 AI 에이전트 시장을 꼬집은 글을 썼습니다. Gartner는 2027년까지 AI 에이전트 프로젝트의 40% 이상이 취소될 것으로 전망하는데, Webber는 그 원인이 기술 문제가 아니라 ‘에이전트’라는 단어가 아무 기준 없이 쓰이고 있기 때문이라고 봅니다.

출처: The agentic AI market has a verification problem – FullStory Blog

에이전트인지 아닌지 가르는 두 가지 질문

Webber가 에이전트를 평가할 때 쓰는 기준은 두 가지입니다. 사람이 루프 밖에 있어도 일을 끝낼 수 있는가, 그리고 끝낸 뒤에 무엇을 했는지 확인할 수 있는가입니다.

첫 번째는 자율성의 문제입니다. 많은 제품이 여기서 탈락합니다. AI가 더 많은 일을 하더라도 사람이 여전히 답을 해석하고 행동을 결정한다면, 그건 더 빠른 보조 도구이지 에이전트가 아닙니다. 에이전트는 작업(task)이 아니라 결과(outcome)를 소유해야 합니다. “이 세션을 요약해줘”는 작업이고, “우리 A/B 테스트 중 지고 있는 게 어디고 왜 그런지 알려줘”는 결과입니다.

더 중요한 건 두 번째, 검증 가능성입니다

Webber는 두 번째 조건이 더 결정적이라고 강조합니다. 그리고 이 부분을 제대로 통과하는 제품이 거의 없다고 말합니다.

팀원에게 일을 맡길 수 있는 건 나중에 “뭘 봤고, 뭘 했고, 왜 그렇게 결정했냐”고 물을 수 있기 때문입니다. 그 추적 가능성이 신뢰의 토대이고, 신입 직원이 처음부터 자율권을 받지 못하는 이유이기도 합니다. AI 에이전트도 다르지 않습니다.

문제는 대부분의 에이전트가 신뢰도 점수와 요약문 정도만 남긴다는 겁니다. Webber가 말하는 진짜 검증은 다릅니다. 에이전트가 어떤 데이터를 봤고, 어떤 판단을 내렸는지, 사람이 실제로 재확인할 수 있는 원본 수준의 근거가 있어야 합니다. 그게 없으면 뭔가 잘못됐을 때 되짚을 방법이 없고, 리스크가 실제인 환경에서는 결국 자율권을 회수하게 됩니다. 많은 에이전트 프로젝트가 데모 이후 조용히 멈추는 이유가 여기 있습니다.

에이전트 도구를 고를 때 이 질문을 던져보세요

Webber의 기준을 실무에 적용하면 단순합니다. 에이전트 도구를 평가할 때 “이걸 화요일 아침에 혼자 돌려도 괜찮은가, 그리고 화요일 오후에 무슨 일이 있었는지 설명할 수 있는가”를 물어보는 겁니다.

첫 질문에 NO라면 자율성이 없는 도구입니다. 두 번째 질문에 NO라면 검증이 안 되는 도구입니다. 지금 시장에 나와 있는 제품 상당수가 두 번째에서 막힙니다. 특히 기존 분석 인프라 위에 얹어 만든 에이전트들은 행동의 근거가 될 원본 데이터를 처음부터 버리는 구조인 경우가 많아서, 나중에 검증하고 싶어도 확인할 데이터 자체가 없습니다.

‘에이전트’라는 이름보다 이 두 질문의 답이 더 정직한 평가 기준입니다.


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다