AI 에이전트 성능을 가르는 두 가지 설계 원칙, 이너 루프와 AGENTS.md

2026-03-10

﹒

AI 활용 가이드

﹒

2 minutes

어떤 에이전트는 코드를 수정하고 “완료했습니다”라고 말하고, 어떤 에이전트는 수정 후 테스트를 돌리고 오류를 직접 고친 다음 응답합니다. 같은 프레임워크, 같은 인프라인데 왜 이런 차이가 생길까요?

사진 출처: philschmid.de

출처: Agents: Inner Loop vs Outer Loop – philschmid.de / Writing a Good AGENTS.md – philschmid.de

Google DeepMind의 Philipp Schmid이 에이전트 설계의 핵심 두 가지를 정리했습니다. 루프 자체의 구조가 아니라 루프 안에서 에이전트가 내리는 ‘선택’, 그리고 그 선택을 이끄는 설정 파일의 품질이 성능을 결정한다는 내용입니다.

루프는 고정돼 있다, 선택은 학습된다

모든 에이전트 프레임워크는 동일한 순환 구조로 작동합니다. 모델이 출력을 생성하고 → 도구를 호출하면 실행하고 → 결과를 다시 모델에 넘기고 → 텍스트 응답이 나올 때까지 반복하는 방식입니다. 이 루프는 고정된 스캐폴딩으로, 모든 에이전트가 동일하게 사용합니다.

차이는 이너 루프에서 납니다. 이너 루프란 에이전트가 사용자에게 응답하기 전, 단일 작업 내에서 자기 작업을 검증하는 과정입니다. 약한 에이전트는 파일을 수정하고 멈추지만, 강한 에이전트는 테스트를 생성하고 → 실행하고 → 실패를 확인하고 → 엣지 케이스를 수정하고 → 다시 실행해 통과한 뒤 응답합니다. 두 에이전트 모두 동일한 도구 루프를 씁니다. 차이는 검증 도구를 먼저 호출하는 ‘선택’을 했느냐입니다.

이 선택은 오늘날 주로 시스템 프롬프트(“코드 변경 후 항상 테스트를 실행하라”)에서 나오지만, 점차 포스트 트레이닝을 통해 모델 자체에 내면화되는 방향으로 발전하고 있습니다.

아우터 루프: 다음 세션도 기억하는 에이전트

이너 루프가 단일 작업 내 신뢰성이라면, 아우터 루프는 여러 세션에 걸친 성장입니다. 오늘 페이지네이션 처리에서 실패한 에이전트가, 내일도 같은 실수를 반복하지 않으려면 무엇이 필요할까요?

현재 거의 모든 에이전트는 세션이 끝나면 기억을 잃습니다. 아우터 루프를 구현하려면 세션 사이를 살아남는 무언가가 필요합니다. AGENTS.md(매 세션 자동으로 주입되는 지침 파일), 세션 핸드오프 문서, 실패를 분석해 자동 생성한 스킬 파일 등이 그 역할을 합니다. 이너 루프가 지금 이 작업을 잘 끝내는 문제라면, 아우터 루프는 다음 작업도 조금 더 잘하는 구조를 만드는 문제입니다.

AGENTS.md: 적게 쓸수록 낫다

AGENTS.md는 아우터 루프의 가장 직접적인 실천 도구입니다. 코딩 에이전트에게 코드베이스를 소개하는 온보딩 문서로, 매 대화에 자동 주입되기 때문에 설정 하나하나가 모든 세션에 영향을 미칩니다.

ETH 취리히의 2025년 연구는 이 파일을 어떻게 쓰느냐가 성능에 직접 영향을 미친다는 걸 데이터로 보여줍니다. AI가 자동 생성한 AGENTS.md는 평균 태스크 성공률을 약 3% 낮추고 추론 비용을 20% 이상 증가시켰습니다. 사람이 직접 쓴 경우도 성능 향상은 약 4%에 그쳤습니다. 에이전트가 지침을 무시해서가 아니라, 오히려 충실히 따르기 때문에 불필요한 지침이 작업을 더 어렵게 만드는 겁니다.

포함할 내용은 기술 스택과 프로젝트 구조(WHAT), 각 컴포넌트의 목적(WHY), 빌드·테스트·검증 방법(HOW)입니다. 특히 비관행적인 도구(예: pip 대신 uv)는 반드시 명시해야 합니다. AGENTS.md에 언급된 도구는 그렇지 않은 도구보다 160배 더 자주 사용됩니다. 반면 디렉토리 구조 상세 나열, 코딩 스타일 가이드라인(린터가 더 정확), 가끔만 적용되는 태스크별 지침은 오히려 초점을 분산시킵니다. 권장 분량은 300줄 이하로, 실제로 60줄 이내로 유지하는 팀도 있습니다. 자동 생성(/init) 대신 직접 작성해야 하는 이유도 여기 있습니다. 잘못된 줄 하나가 모든 세션에 걸쳐 잘못된 계획과 코드로 이어집니다.

왜 이 두 가지인가

이너 루프와 AGENTS.md는 에이전트 성능의 서로 다른 레이어를 다룹니다. 이너 루프는 단일 작업 안에서 신뢰할 수 있는 결과를 만들고, AGENTS.md는 모든 작업에 걸쳐 에이전트의 선택을 올바른 방향으로 이끕니다. 둘 다 새로운 인프라가 필요하지 않습니다. 기존 구조 안에서 에이전트가 더 나은 선택을 하도록 설계하는 문제입니다.

두 원문에는 구체적인 연구 수치, 구조화 방식, 실제 AGENTS.md 예시도 담겨 있습니다.

참고자료:

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup

AI 에이전트 성능을 가르는 두 가지 설계 원칙, 이너 루프와 AGENTS.md

루프는 고정돼 있다, 선택은 학습된다

아우터 루프: 다음 세션도 기억하는 에이전트

AGENTS.md: 적게 쓸수록 낫다

왜 이 두 가지인가

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

GPT부터 Claude까지, 영국 정부가 테스트한 AI 5개 전부 시험에서 부정행위를 했다

AI 감시자도 자기 이해관계 앞에서는 판정을 왜곡한다, Anthropic의 발견

시험에서 커닝하려다 허깅페이스를 해킹했다, OpenAI가 밝힌 사고의 진짜 정체

Fable 5, 비슷한 성능에 비용은 12배, UC버클리가 밝힌 에이전트 실무 성적표