AI 에이전트 비결정성 문제, 실전에서 통하는 두 가지 해법

2026-03-03

﹒

AI 개발 가이드

﹒

2 minutes

AGENTS.md를 정성껏 작성했는데 에이전트가 무시한다면, 그건 당신만 겪는 일이 아닙니다.

사진 출처: Tessl

AI 에이전트는 본질적으로 비결정적입니다. 같은 지시를 줘도 매번 다른 결과가 나오고, 어제는 잘 따르던 규칙을 오늘은 무시하기도 하죠. 최근 두 편의 글이 이 문제를 서로 다른 각도에서 다뤄 함께 읽으면 완결된 그림이 그려집니다. 하나는 에이전트 행동을 강제하는 가드레일 방식이고, 다른 하나는 지시 파일 자체를 검증하는 evals 방식입니다.

출처:

Getting nondeterministic agent into deterministic guardrails – Arkency Blog
Your AGENTS.md file isn’t the problem. Your lack of AI Agent Evaluations is. – Tessl

해법 1: 가드레일로 행동을 강제하기

Arkency의 개발자 Łukasz Reszke는 12년 된 Rails 레거시 코드베이스에 AI 에이전트를 도입하면서 반복적인 문제를 겪었습니다. 에이전트가 프로덕션 코드는 잘 작성하는데, 테스트 작성 단계로 넘어가면 AGENTS.md에 명시한 규칙을 무시하고 자기 방식대로 돌아가는 겁니다. 뮤테이션 테스트도 건너뛰기 일쑤였고요.

그가 선택한 해법은 “지시를 더 잘 써보자”가 아니었습니다. 에이전트가 규칙을 따르든 따르지 않든, 결과를 검증하는 파이프라인을 별도로 만들어 강제로 통과시키는 것이었습니다.

구체적으로는 /verify라는 커스텀 커맨드를 만들고, 여기에 Rubocop(스타일 검사), RSpec(테스트 실행), Mutant(뮤테이션 테스트), ESLint, Jest 등 검증 단계를 순서대로 연결했습니다. 각 단계는 변경된 파일을 감지해 필요한 검사만 선택적으로 실행하고, 결과를 .skipped, .success, .failure 중 하나로 반환합니다. 에이전트는 이 구조화된 피드백을 읽고 문제를 수정한 뒤 다시 검증을 돌립니다.

여기서 핵심은 이 과정을 git pre-commit hook에 연결했다는 점입니다. 에이전트가 /verify를 스스로 실행하지 않더라도, 커밋 시점에 파이프라인이 자동으로 돌아가 통과하지 못하면 커밋 자체가 막힙니다. “에이전트가 규칙을 따를 것이다”에 기대는 대신, 결과 기준을 시스템 수준에서 강제한 것이죠.

해법 2: AGENTS.md 자체를 테스트하기

한편 Tessl의 글은 최근 화제가 된 연구 하나를 출발점으로 삼습니다. 개발자가 직접 작성한 AGENTS.md는 태스크 완료율을 평균 4%밖에 올리지 못했고, LLM이 자동 생성한 파일은 오히려 3% 낮췄다는 내용입니다. 비용은 두 경우 모두 20% 이상 늘었고요.

이 결과를 근거로 “그러니 AGENTS.md를 삭제하자”는 주장도 나왔는데, Tessl은 이 결론이 틀렸다고 반박합니다. 문제는 context 파일 자체가 아니라 검증 없이 작성한다는 점이라는 거죠.

대부분의 팀은 AGENTS.md를 쓰고, 에이전트가 좀 나아진 것 같다고 느끼고, 그냥 넘어갑니다. 어떤 지시가 실제로 효과가 있었는지, 어떤 지시가 오히려 방해가 됐는지 측정하는 피드백 루프가 없습니다. 그 결과 파일은 에이전트가 스스로 파악할 수 있는 내용들(package.json, 폴더 구조, 스키마)로 가득 차고, 그 사이에 실제로 잘못된 지시들이 섞여 토큰만 낭비하게 됩니다.

Tessl이 제안하는 해법은 evals, 즉 평가 루프입니다. 정의된 태스크 세트를 에이전트에게 주고 성공·실패를 측정하는 방식으로, context 파일의 지시 하나하나가 실제로 행동을 바꾸는지 확인할 수 있습니다. 지시를 추가하고 evals를 돌려 통과율이 올랐으면 남기고, 그대로면 제거하는 식입니다. 결과적으로 200줄짜리 AGENTS.md보다 10줄짜리 검증된 AGENTS.md가 훨씬 강력하다는 이야기입니다.

두 해법이 가리키는 같은 방향

두 글의 접근은 다르지만 같은 문제를 직시합니다. AI 에이전트의 비결정성은 없애거나 무시할 수 없고, 설계로 다뤄야 한다는 것입니다.

가드레일은 에이전트가 규칙을 따르든 무시하든 결과를 통제하고, evals는 에이전트에게 주는 지시 자체가 효과적인지 확인합니다. 어느 하나만으로는 절반의 해결책이고, 둘을 함께 쓰면 비결정성에 대응하는 실질적인 구조가 갖춰집니다.

각 접근의 구체적인 구현 방법과 스킬 파일 최적화 사례는 원문에서 확인하세요.

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup

AI 에이전트 비결정성 문제, 실전에서 통하는 두 가지 해법

해법 1: 가드레일로 행동을 강제하기

해법 2: AGENTS.md 자체를 테스트하기

두 해법이 가리키는 같은 방향

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

에이전트에게 준 스펙도 유효기간이 있다, 오래 쌓아두면 오히려 헷갈린다

MS 해커톤에서 검증된 AI 에이전트 병렬 작업법, 핵심은 Git 워크트리

AI 탐지기, 문체를 흉내 내자 글 5개 중 1개를 놓쳤다

생산성은 오르고 만족감은 사라지는 이유, 개발자의 보상 회로가 문제였다