AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

AI 에이전트 코딩 회의론자가 마음을 바꾼 이유, AGENTS.md와 Opus 4.5 실전 후기

AI 에이전트 코딩에 가장 회의적인 사람들이 종종 가장 극적인 결과를 내놓습니다. “에이전트는 예측 불가능하고 비싸다”고 공개적으로 비판했던 개발자가 몇 달 만에 생각을 바꿨다면, 뭔가 달라진 게 있다는 신호입니다.

사진 출처: minimaxir.com

데이터 사이언티스트 Max Woolf가 자신의 블로그에 AI 에이전트 코딩 실전 경험을 상세히 기록한 글을 게재했습니다. 지난해 5월까지만 해도 “에이전트 과대광고에 비해 결과가 터무니없이 부족하다”고 썼던 그가, Claude Opus 4.5를 계기로 생각을 바꾸게 된 여정입니다.

출처: An AI agent coding skeptic tries AI agent coding, in excessive detail – minimaxir.com

AGENTS.md, 좋은 결과와 나쁜 결과를 가르는 파일

Woolf가 에이전트 코딩의 핵심 변수로 꼽은 것은 모델 자체가 아닙니다. AGENTS.md 파일이었습니다. 이 파일은 프로젝트 루트에 두면 에이전트가 자동으로 읽어 규칙으로 따르는, 일종의 시스템 프롬프트입니다.

그는 에이전트가 만들어내는 결과물의 문제점을 하나씩 파악할 때마다 규칙을 추가하는 방식으로 파일을 발전시켰습니다. “불필요한 이모지를 쓰지 말 것”, “자명한 코드 주석을 달지 말 것” 같은 구체적인 규칙들입니다. 중요한 규칙에는 대문자 MUST, NEVER를 써서 준수율을 높였고, 이 접근은 실제로 효과가 있었습니다. 에이전트 없이 작업할 때와의 차이가 뚜렷할 만큼, 이 파일의 유무가 결과 품질을 크게 갈랐다는 게 그의 결론입니다.

Opus 4.5와 함께한 점층적 실험

Woolf는 YouTube 채널 메타데이터를 스크래핑하는 Python 스크립트를 첫 번째 테스트로 삼았습니다. 구체적인 제약 조건을 명시한 프롬프트를 Markdown 파일로 작성하고, 에이전트에게 그 파일을 구현하도록 지시하는 방식이었습니다. 결과는 20,000개 영상을 첫 시도에서 성공적으로 스크래핑했고, Sonnet 4.5와는 확연히 다른 코드 품질을 보였습니다.

이후 실험은 점점 어려워졌습니다. 데이터 분석용 Jupyter Notebook, FastAPI + HTMX 웹앱, 그리고 자신이 능숙하지 않은 언어인 Rust까지. Rust로 넘어간 것이 이 실험의 핵심 전환점입니다.

Rust는 Python보다 최대 10배 빠르고 메모리 안전성이 뛰어나지만, LLM들이 그동안 제대로 다루지 못했던 언어입니다. Woolf는 네 가지 프로젝트를 통해 이를 시험했습니다. 폰트 아이콘을 이미지로 렌더링하는 icon-to-image, 워드클라우드 생성기, 터미널 MIDI 작곡 도구 miditui, 터미널 물리 시뮬레이터 ballin입니다. 이 중 ballin은 수백 개의 공을 처리할 것이라는 예상과 달리, Rust 코드베이스로 10,000개 이상을 동시에 처리했습니다.

에이전트로 numpy를 이기는 ML 라이브러리 만들기

실험은 여기서 멈추지 않았습니다. Woolf는 Python 데이터 사이언스 생태계에서 오랫동안 CUDA에만 의존해온 ML 알고리즘들을, 에이전트를 활용해 Rust로 재구현하기 시작했습니다. Claude Opus와 OpenAI Codex를 순서대로 활용하는 8단계 최적화 파이프라인을 설계했습니다. 구현 → 정리 → 취약점 탐색 → 속도 60% 이하 목표 최적화 → 병렬화 튜닝 → Python 바인딩 추가 → 기존 라이브러리 비교 → 출력 정확도 검증의 순서입니다.

결과는 기존 라이브러리 대비 의미 있는 성능 차이를 보였습니다. UMAP은 Python 구현 대비 9~30배, HDBSCAN은 3~10배 빠른 처리 속도를 기록했습니다. 두 모델을 연달아 활용했을 때 — Codex가 먼저 최적화하고, Opus가 그 위에 추가로 최적화하는 방식 — 누적 속도 개선이 6배에 달하는 경우도 있었습니다.

한발 더 나아가 그는 Python의 scikit-learn을 Rust로 포팅하는 rustlearn 프로젝트를 시작했습니다. Apple Silicon MacBook의 Metal GPU까지 활용하는 방향으로 개발 중이며, 오늘 함께 공개한 벡터 검색 라이브러리 nndex는 BLAS 라이브러리를 사용하는 numpy보다 단일 쿼리 기준 1~5배 빠른 속도를 보여줍니다.

회의론자의 솔직한 평가

Woolf는 이 결과가 “AI가 모든 것을 바꾼다”는 선언이 아니라고 강조합니다. 에이전트가 터미널 출력을 직접 볼 수 없어 UI 버그 재현이 어렵고, 외부 라이브러리의 새 버전 API를 에이전트가 충분히 학습하지 못해 디버깅이 막히는 한계도 분명히 존재합니다.

그가 도달한 결론은 이렇습니다. 에이전트는 “무엇을 원하는지 정확히 알지만 어떻게 구현할지는 모를 때” 가장 효과적인 도구라는 것입니다. 도메인 지식을 가진 사람이 명확한 제약 조건을 설계할수록, 에이전트의 결과물은 훨씬 달라집니다. 원문에는 그가 공개한 Python과 Rust용 AGENTS.md 파일 전문, 각 프로젝트의 실제 프롬프트, 그리고 벤치마크 비교 데이터가 담겨 있습니다.

참고자료: An AI agent coding skeptic tries AI agent coding, in excessive detail (Simon Willison’s Weblog)


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다