AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

AI 에이전트가 자면서 코딩한다, Ralph Wiggum 기법 실전 가이드

Claude Code나 Cursor로 큰 기능을 만들어달라고 했다가 엉망진창이 된 경험 있으시죠? 컨텍스트가 넘쳐나고, AI가 길을 잃고, 결국 처음부터 다시 시작하게 되는 그 좌절감.

그런데 이 문제를 근본적으로 해결하는 방법이 등장했습니다. 자고 일어나면 새 기능이 코딩되고, 테스트되고, 커밋까지 완료되어 있는 자율 코딩 에이전트가 가능해진 겁니다.

사진 출처: Geoffrey Huntley

Google 엔지니어 Addy Osmani가 Self-improving coding agents를 실전에서 돌리는 구체적 방법을 공개했습니다. Claude Code 같은 AI 코딩 도구를 연속 루프로 실행하면서 작은 태스크를 하나씩 처리하고, 메모리를 쌓고, 테스트로 검증하는 방식이죠. 개발자들 사이에서 “Ralph Wiggum 기법”이라 불리는 이 방법은 이미 실무에서 놀라운 결과를 내고 있습니다.

출처: Self-Improving Coding Agents – Addy Osmani

문제의 핵심: 컨텍스트 오버플로우

“대시보드 전체를 만들어줘” 같은 거대한 프롬프트를 던지면 AI는 중간에 디테일을 놓치거나 길을 잃습니다. 10만 토큰 컨텍스트 윈도우가 있어도, 프롬프트가 커질수록 모델은 집중력을 잃고 환각을 만들어냅니다.

Ralph Wiggum 기법은 이걸 정면으로 해결합니다. Geoffrey Huntley의 말처럼, 가장 순수한 형태로는 이렇게 간단합니다:

while :; do cat PROMPT.md | claude-code ; done

하나의 거대한 세션 대신 작은 태스크들의 반복 루프를 돌리는 겁니다. 각 사이클은 (1) 태스크 선택 → (2) 코딩 → (3) 테스트 → (4) 커밋 → (5) 상태 업데이트 → (6) 컨텍스트 리셋으로 진행됩니다.

매 반복마다 에이전트의 메모리를 리셋하는 게 핵심입니다. 이전 태스크의 혼란을 끌고 가지 않고, 매번 깨끗한 상태에서 명확한 지시 하나만 받아 시작하죠. 이 “상태 없이 반복하는” 설계가 컨텍스트 오버플로우를 원천적으로 해결합니다.

에이전트가 학습하게 만드는 비밀: AGENTS.md

매 사이클마다 메모리를 리셋하면 학습이 안 되는 거 아닐까요? 여기서 AGENTS.md 파일이 등장합니다.

중요한 정보를 디스크에 명시적으로 기록해서 다음 프롬프트에 다시 주입하는 겁니다. AGENTS.md는 에이전트의 실행 노트북입니다. 프로젝트 규칙, 발견한 패턴, 주의사항이 쌓이죠.

  • “이 코드베이스는 Y를 위해 라이브러리 X를 쓴다”
  • “주의: 사용자 모델을 업데이트할 때는 항상 감사 로그도 업데이트”

시간이 지나면 이게 힌트의 보물창고가 되어, 에이전트가 과거의 실수를 반복하지 않게 합니다. Ryan Carson의 Compound Product 철학처럼, “각각의 개선이 문자 그대로 미래의 개선을 더 쉽게 만듭니다.”

실시간 교정도 가능합니다. 에이전트가 실수하면 루프를 멈추고 “이걸 AGENTS.md에 기록하고 계속하세요”라고 말하면, 에이전트는 순순히 교정 내용을 추가하고 진행합니다.

품질 보장: 테스트가 전부다

자동 검증 없이는 에이전트가 버그를 만들면서도 성공했다고 착각합니다. 견고한 에이전트 루프는 매 반복에서 테스트를 실행합니다. 테스트가 실패하면 태스크가 끝나지 않았음을 알고 코드를 고치도록 지시하죠.

Simon Willison의 전문가 팁: AI 에이전트가 좋은 테스트를 작성하게 만드는 최고의 방법은 본보기를 보여주는 것입니다. 코드베이스에 고품질 테스트를 유지하면, 에이전트가 자연스럽게 그 패턴을 따릅니다. “프로젝트에 깨끗한 테스트가 있으면, 에이전트가 추가하는 새 테스트도 품질이 비슷한 경향이 있다”고 그는 말합니다.

이미 실무에서 작동하고 있다

이건 이론이 아닙니다. Geoffrey Huntley는 Ralph로 새로운 프로그래밍 언어를 만들고 있습니다. 놀라운 점은 그 언어가 LLM 학습 데이터에 없는데도, Ralph가 그 언어로 프로그래밍까지 할 수 있다는 겁니다.

Ralph 커뮤니티는 대규모 생산성 향상을 보고합니다. 일화적 사례로는 5만 달러짜리 프로젝트를 몇백 달러의 API 호출로 전달한 경우도 있습니다. Ryan Carson은 결국 창업자들이 매일 밤 이런 루프를 10개 이상 돌릴 거라고 예측합니다.

하지만 완전 자율은 아닙니다. 매일 아침 에이전트가 만든 PR을 리뷰하는 게 좋습니다. 이 “인간 QA” 단계는 당분간 매우 중요합니다. 에이전트가 고된 작업을 하게 하되, 궁극적 통제권은 포기하지 않는 거죠.

Ryan Carson은 프롬프트와 워크플로 통합을 튜닝하는 데 들어가는 “노력”을 강조합니다. 완전 자율적인 마법은 없습니다. 지속적인 개선에 더 가깝죠.

개발자로서의 역할이 바뀝니다. 코드를 작성하는 것에서 프로세스를 큐레이팅하는 것으로. 스펙을 작성하고, 결과를 리뷰하고, AI 에이전트를 높은 수준에서 가이드하는 것이죠. 거의 AI 개발자 팀의 엔지니어링 매니저 같은 역할입니다.

구체적인 구현 방법, 안전 장치, 스케일링 전략 등은 Osmani의 원문에 상세히 나와 있습니다.

참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다