데이터 사이언스 파이프라인은 반복적인 분석·변환·평가·모니터링 작업이 많다. 에이전트는 전체 과정을 한 번에 맡기기보다, 검증 가능한 작은 워크플로로 나누었을 때 가장 안전하게 쓸 수 있다.
5가지 워크플로
| 워크플로 | 에이전트 역할 | 사람이 확인할 것 |
|---|---|---|
| 자동 EDA | 결측치, 분포, 상관관계, 이상값 요약 | 데이터 의미와 누락된 비즈니스 맥락 |
| 피처 엔지니어링 | 후보 피처 생성, 중요도 평가, 누수 탐지 | leakage, causality, 운영 가능성 |
| 하이퍼파라미터 탐색 | search space 제안과 실험 실행 | 예산, 재현성, 평가 기준 |
| 모니터링·드리프트 | 데이터/성능 변화를 감지하고 알림 | 임계값과 대응 정책 |
| 파이프라인 self-healing | 실패 로그를 읽고 복구 PR 초안 생성 | 자동 배포 전 코드 리뷰 |
설계 원칙
에이전트에게 원본 DB 쓰기 권한을 바로 주지 말고, 읽기 전용 샌드박스와 샘플 데이터부터 시작한다. 실험 결과는 MLflow, Weights & Biases, DVC 같은 추적 시스템에 남기고, 모델 변경은 PR이나 승인 게이트를 거치게 한다.
언제 별도 에이전트가 필요한가
EDA와 피처 엔지니어링은 같은 에이전트로 묶을 수 있지만, 모니터링과 self-healing은 운영 시스템에 닿기 때문에 별도 권한·로그·승인 정책을 둬야 한다. 특히 자동 복구 에이전트는 “패치 제안”까지만 하고 배포는 사람이 승인하는 구조가 현실적이다.
관련 문서
- agentic-loops — 피드백 기반 에이전트 루프
- future-agi — AI 에이전트 평가·관찰·개선 플랫폼
- ai-agent-evaluation — 에이전트 평가 기본 개념
참고 자료
- 5 Agentic Workflows to Automate Your Data Science Pipeline — KDnuggets (2026-06-25)