AgentOps는 프로덕션에서 AI 에이전트를 운영하기 위한 관찰·제어 방법론이다. 단일 LLM 호출은 요청 하나에 응답 하나로 끝나지만, 에이전트는 여러 LLM 호출과 툴 호출을 연쇄적으로 실행하며 목표를 달성한다. 이 다단계 특성 때문에 기존 요청 단위 모니터링으로는 오류 추적, 비용 제어, 정책 위반 감지가 불가능하다. AgentOps는 이 공백을 메우는 인프라 레이어다.
왜 AgentOps가 필요한가
에이전트 아키텍처는 기존 MLOps 도구가 설계되지 않은 네 가지 문제를 만든다.
| 문제 | 설명 |
|---|---|
| 추론 오류의 연쇄 | 중간 단계의 작은 오류가 이후 단계에 그대로 전달되어 최종 출력이 틀어짐. 단계별 기록 없이는 원인 추적 불가 |
| 툴 호출 무음 실패 | 툴이 애매한 스키마·부분 결과·낡은 값을 반환해도 HTTP 에러가 발생하지 않아 에이전트가 조용히 잘못된 데이터로 진행 |
| 비용·지연의 누적 | 에이전트가 목표 미달성 시 동일 단계를 재실행해 토큰 예산을 초과. 요청 단위 한도는 세션 누적을 인식하지 못함 |
| 순서 의존적 정책 위반 | 툴 A와 툴 B 각각은 허용되더라도, 둘을 특정 순서로 조합하면 규정 위반이 될 수 있음. 단일 요청 감사로는 탐지 불가 |
AgentOps의 핵심 기능 영역
추적 (Tracking)
모든 LLM 호출과 툴 호출을 실행 순서대로 기록한다. 에이전트가 무엇을 받았고, 무엇을 반환했으며, 어떤 결정을 했는지 전 구간을 구조화된 트레이스로 남긴다.
모니터링 (Monitoring)
LLM 호출당 토큰 사용량, 지연, 비용을 추적한다. 먼저 집중해야 할 핵심 지표는 런당 지연, 세션당 토큰 비용, 오류율이다.
실행 경계 강제 (Enforcement)
요청 단위가 아닌 런 단위로 토큰 소비량·요청 횟수·실행 시간에 상한을 둔다. 루프에 빠진 에이전트를 요청 레벨 한도만으로는 막을 수 없으나, 세션 누적 상태를 인식하는 실행 경계는 막을 수 있다.
가드레일 (Guardrails)
입력 검증, 출력 스키마 강제, PII 탐지, 프롬프트 인젝션 스캔 등 안전 점검을 런타임에 적용한다. 에이전트별로 구현하는 대신 공유 인프라에서 일괄 처리하면 일관성을 보장할 수 있다.
엔터프라이즈 AgentOps: 공유 제어 레이어
팀이 하나일 때는 에이전트별 설정으로 운영할 수 있다. 그러나 여러 팀이 서로 다른 프레임워크·모델·릴리스 사이클로 에이전트를 배포하면 컨트롤이 분산되어 표류한다.
Portkey AI Gateway 같은 공유 제어 레이어는 다음을 중앙화한다.
- 에이전트 레지스트리 & 가상 서버: 에이전트별 URL 관리, 자격증명 교체, 접근 취소를 클라이언트 변경 없이 처리
- 모델 카탈로그: 승인된 모델과 제공자만 사용 가능하도록 접근 제어, 예산 상한 설정
- 가드레일 중앙 적용: 한 번 설정하면 모든 에이전트에 자동 적용
- 프레임워크 무관 트레이싱: LangChain, LlamaIndex, OpenAI Agents SDK 등 어느 프레임워크로 만든 에이전트든 동일한 트레이스 구조로 기록
- A2A 프로토콜 지원: 에이전트 간 통신도 동일 제어 플레인을 통해 프록시
DevOps·MLOps와의 차이
| 영역 | 관심사 |
|---|---|
| DevOps | 인프라 자동화, 배포 파이프라인 |
| MLOps | 모델 훈련·배포 파이프라인 |
| AgentOps | 프로덕션에서 자율 에이전트의 런타임 동작: 실행 경로, 툴 사용, 정책 준수, 전체 런 비용 |
사용 대상
- ML 엔지니어·플랫폼 팀: 에이전트를 프로덕션에서 안전하게 운영해야 하는 팀
- 엔터프라이즈 AI 팀: 여러 에이전트를 다양한 프레임워크로 배포하고 거버넌스를 일원화하려는 조직
- 비용 최적화가 필요한 팀: 세션당 토큰 비용이 예측 불가능하게 증가하는 문제를 겪는 팀
관련 문서
- aiops — 에이전트를 포함한 AI 시스템 전체 운영(AIOps)의 개념과 도구
- agent-governance — 에이전트 거버넌스 정책과 접근 제어 설계
- langfuse — LLM 앱 개발·모니터링·평가를 위한 오픈소스 플랫폼
- future-agi — AI 에이전트 평가·관찰·개선을 위한 올인원 플랫폼
- agent-harness — 에이전트 하네스 엔지니어링과 피드백 루프 설계
- long-running-agents — 장시간 실행 에이전트 설계 원칙과 비용 제어 패턴
참고 자료
- What is AgentOps? — Portkey Blog (2026-04-29)