단일 LLM 호출에는 입력 필터와 출력 검사만으로도 어느 정도 통제가 가능했지만, 여러 단계로 도구를 호출하고 외부 시스템에 실제 변화를 만드는 에이전트(agent)는 통제 지점이 훨씬 많다. Agent Governance는 이런 실행 흐름 전체를 대상으로 권한, 예산, 정책, 추적성을 런타임에 적용하는 운영 프레임워크다. 특히 aiops나 에이전트 플랫폼을 프로덕션에 올리는 팀에게 중요하다.
왜 필요한가
에이전트는 한 번의 요청 안에서 모델 호출, 도구 선택, 재시도, 병렬 분기, 외부 API 실행을 반복한다. 이때 문제가 되는 것은 단순한 모델 품질이 아니라 실행 전체의 통제력이다.
- 권한 드리프트(permission drift): 세션 초기에 허용한 권한이 중간 단계의 문맥 변화로 과도하게 확대될 수 있다.
- 비용 폭주: 한 단계의 비용은 작아 보여도 재시도와 서브에이전트 분기로 누적되면 예산을 빠르게 초과한다.
- 정책 사각지대: 입력·출력 가드레일만으로는 중간 도구 호출, 데이터 접근, 상태 변경을 통제하기 어렵다.
- 감사 불가능성: HTTP 로그만으로는 어떤 판단이 어떤 도구 호출과 연결됐는지 추적하기 어렵다.
핵심 구성 요소
1. 실행 제어(execution control)
에이전트 실행 중 어디에서 사람 승인(human-in-the-loop)을 넣을지, 어떤 조건에서 중단(interrupt)할지, 실패 시 어떤 복구 경로를 택할지를 정의한다.
2. 도구·행동 권한(tool and action permissions)
에이전트가 어떤 도구를 “발견”할 수 있는지부터 제한해야 한다. 특히 MCP(Model Context Protocol)처럼 툴 카탈로그를 노출하는 환경에서는 세션 시작 시점 권한만으로 부족하고, 호출 순간의 문맥까지 평가하는 방식이 필요하다.
3. 비용·리소스 거버넌스
프로젝트, 팀, API 키, 에이전트 단위로 예산을 잡고 세션 누적 비용을 기준으로 경고·중단·폴백을 결정한다. 청구서가 나온 뒤 분석하는 것이 아니라 실행 중 제어해야 의미가 있다.
4. 정책 집행 레이어(policy enforcement)
민감 데이터 접근, 특정 도구 사용, 쓰기 작업, 외부 전송 같은 고위험 행동은 LLM 경계가 아니라 각 액션 지점(action point)에서 검사해야 한다.
5. 실행 추적성과 감사(run traceability)
모델 호출, 도구 호출, 재시도, 비용, 결과 메타데이터를 하나의 실행 트레이스(trace)로 묶어야 디버깅과 감사를 할 수 있다. 이것이 있어야 “왜 이런 결과가 나왔는가”를 설명할 수 있다.
AIOps와 무엇이 다른가
| 관점 | AIOps | Agent Governance |
|---|---|---|
| 초점 | 품질·비용·정책을 포함한 AI 운영 전반 | 에이전트 실행 흐름의 통제와 감사 |
| 핵심 질문 | “이 AI 시스템을 안정적으로 운영하려면?” | “이 에이전트가 지금 무엇을 해도 되는가?” |
| 대표 대상 | LLM 앱, 워크플로우, 게이트웨이 | 툴 호출형 에이전트, MCP, 자동화 런 |
| 대표 제어 수단 | 라우팅, 관측, 비용 관리, 품질 지표 | 권한, 승인, 중단, 정책 검사, 실행 트레이스 |
실무에서는 Agent Governance가 aiops의 하위 영역처럼 동작하는 경우가 많다. AIOps가 넓은 운영 계층이라면, Agent Governance는 그중에서도 “자율 실행 통제”에 초점을 맞춘 세부 프레임워크라고 볼 수 있다.
언제 먼저 도입할까
- 에이전트가 파일 쓰기, 티켓 수정, 배포, 결제 같은 외부 액션을 수행할 때
- MCP 서버나 사내 툴 카탈로그를 여러 팀이 공유할 때
- 팀별로 다른 모델·프롬프트·도구 정책을 중앙에서 통제해야 할 때
- 사고 발생 시 실행 이력을 설명하고 감사해야 할 때
구현 포인트
작게 시작하는 편이 낫다. 가장 중요한 워크플로우 하나를 선택해 아래 순서로 도입하면 된다.
- 실행 ID 기준으로 모델 호출과 도구 호출을 하나의 트레이스로 묶는다.
- 허용 도구와 금지 도구를 중앙 정책으로 정의한다.
- 세션 누적 비용 한도를 두고 초과 시 중단 또는 폴백한다.
- 쓰기·전송·삭제 같은 고위험 액션에 승인 절차를 넣는다.
- 로그가 아니라 “실행 재생”이 가능할 정도의 메타데이터를 남긴다.
라이선스 및 구현 방식
Agent Governance는 특정 제품명이 아니라 운영 개념이다. AI 게이트웨이, 관측 도구, 정책 엔진, 사내 에이전트 런타임을 조합해 구현할 수 있으며, 상용 제품을 쓰더라도 원리는 동일하다.
관련 문서
- aiops — AI 시스템 품질·비용·정책을 운영 계층에서 통제
- microsoft-foundry-ai-tips-security — 신뢰할 수 있는 AI 에이전트를 설계하는 5가지 원칙
- claude-code — 도구 호출형 코딩 에이전트 사례
참고 자료
- AI Agent governance — Portkey Blog (2026-04-19)