AI 에이전트는 지금까지 매 세션이 끝나면 경험을 잊었습니다. 같은 실수를 반복하고, 이전에 찾아낸 효율적인 방법도 기억하지 못했습니다. 그런데 Anthropic이 이 구조를 바꾸는 기능을 선보였습니다.

Anthropic이 Code with Claude 개발자 컨퍼런스에서 Claude Managed Agents에 세 가지 신기능을 발표했습니다. 핵심은 드리밍(Dreaming) 으로, 에이전트가 과거 세션들을 돌아보며 패턴을 추출하고 메모리를 스스로 정제하는 기능입니다. 함께 공개된 아웃컴(Outcomes)과 멀티에이전트 오케스트레이션도 에이전트의 자율성과 신뢰성을 높이는 방향으로 설계됐습니다.
출처: New in Claude Managed Agents: dreaming, outcomes, and multiagent orchestration – Anthropic
세션을 넘어 배우는 에이전트, 드리밍
드리밍은 에이전트가 작업을 마친 후 일정 주기로 실행되는 프로세스입니다. 과거 세션 기록(최대 100개)과 기존 메모리 저장소를 검토해 반복되는 오류, 에이전트들이 수렴하는 효율적인 워크플로, 팀 전체에서 공유되는 패턴 등을 추출합니다. 이렇게 뽑아낸 내용으로 메모리를 새로 정리하되, 원본 메모리는 그대로 유지합니다.
중요한 점은 이 과정이 단일 에이전트의 시야를 넘어선다는 겁니다. 한 에이전트가 작업 중에는 포착하기 어려운 팀 차원의 패턴, 이를테면 여러 에이전트가 공통으로 겪는 오류나 반복적으로 통하는 접근 방식을 드리밍이 발견합니다. Anthropic은 드리밍과 기존 메모리 기능을 묶어 “자기개선 에이전트를 위한 메모리 시스템”이라 부릅니다. 메모리가 작업 중 학습을 포착한다면, 드리밍은 세션 사이에 그 학습을 정제하는 역할입니다.
실제 도입 사례도 나왔습니다. 법무 AI 플랫폼 Harvey는 드리밍을 통해 에이전트가 세션 간 파일 형식 처리 방법이나 도구별 패턴을 기억하게 했고, 내부 테스트에서 완료율이 약 6배 올랐습니다.
성공 기준을 직접 정의하는 아웃컴
아웃컴은 에이전트가 무엇을 목표로 삼아야 하는지 명확하게 지정하는 기능입니다. 개발자가 “CSV 파일에 숫자 형식의 price 컬럼이 있어야 한다”처럼 성공 기준을 담은 루브릭을 작성하면, 별도의 평가자(grader)가 에이전트의 결과물을 독립된 컨텍스트 창에서 채점합니다. 에이전트의 추론 과정에 영향을 받지 않기 때문에 평가가 독립적입니다.
기준 미달이면 평가자가 부족한 부분을 짚어주고 에이전트가 다시 시도합니다. 기본 재시도 횟수는 3회, 최대 20회까지 설정 가능합니다. Anthropic 내부 테스트에서 아웃컴을 적용했을 때 태스크 성공률이 최대 10포인트 향상됐고, docx 파일 생성 품질은 +8.4%, pptx는 +10.1% 개선됐습니다.
복잡한 작업을 분산하는 멀티에이전트 오케스트레이션
단일 에이전트로 처리하기 어려운 규모의 작업은 멀티에이전트 오케스트레이션으로 나눌 수 있습니다. 리드 에이전트가 작업을 쪼개 각각 다른 모델, 시스템 프롬프트, 전용 도구를 가진 전문 서브에이전트에게 위임하고, 서브에이전트들은 공유 파일 시스템 위에서 병렬로 동작합니다. 최대 20개 에이전트, 25개 스레드를 동시에 운용할 수 있습니다.
Netflix 플랫폼 팀은 이 방식으로 수백 개 빌드 로그를 분석하는 에이전트를 구축했습니다. 수천 개 애플리케이션에 영향을 주는 변경사항에서 실제로 주목할 패턴만 추려내기 위해 멀티에이전트가 배치를 병렬로 처리합니다.
에이전트의 자율성이 의미하는 것
세 기능은 각기 다른 문제를 겨냥하지만, 방향은 같습니다. 인간의 개입 없이 에이전트가 스스로 더 나은 결과를 만들어내는 것입니다. 드리밍은 경험 축적, 아웃컴은 품질 검증, 멀티에이전트는 작업 분산을 담당합니다.
드리밍은 현재 리서치 프리뷰로 별도 신청이 필요하고, 아웃컴과 멀티에이전트 오케스트레이션은 퍼블릭 베타로 전환됐습니다. Claude Managed Agents는 Claude Platform에서 사용할 수 있습니다.

답글 남기기