Pi 코딩 에이전트, 4개 도구와 1,000토큰으로 벤치마크 상위권 달성

이번 주, OpenClaw라는 프로젝트가 인터넷에서 바이럴되었습니다. 슬랙이나 디스코드 같은 채널에 연결해서 자동으로 코드를 작성하고 실행하는 에이전트죠. 놀라운 점은 이 OpenClaw의 핵심 엔진이 겨우 시스템 프롬프트 1,000토큰 미만, 도구 4개로 이루어진 Pi라는 작은 코딩 에이전트라는 겁니다.

Claude Code, Cursor, Windsurf 같은 도구들이 계속해서 새로운 기능을 추가하는 동안, Pi 개발자 Mario Zechner는 정반대 방향을 선택했습니다. 최소한의 기능만 남기고 모두 덜어냈죠. 그런데 이 미니멀한 접근법이 Terminal-Bench에서 상위권 성적을 거두며 효과를 입증했습니다.

사진 출처: Mario Zechner 블로그

Mario Zechner가 자신의 미니멀 코딩 에이전트 Pi를 개발하면서 얻은 교훈을 공유했습니다. Flask 창시자 Armin Ronacher도 Pi를 “거의 독점적으로 사용하는 코딩 에이전트”라며 극찬했습니다.

출처:

What I learned building an opinionated and minimal coding agent – Mario Zechner

4개 도구가 전부입니다

Pi의 도구는 read, write, edit, bash 네 가지뿐입니다. 시스템 프롬프트는 1,000토큰 미만으로 Claude Code의 10분의 1 수준이죠. 이게 정말 전부입니다.

Mario의 철학은 간단합니다. “LLM은 코드를 작성하고 실행하는 데 정말 뛰어나니, 이를 받아들이자.” 복잡한 MCP 서버 대신 bash로 CLI 도구를 호출하고, 전용 TODO 시스템 대신 마크다운 파일을 편집합니다. 필요한 것만 컨텍스트에 올리는 방식이죠.

인기 있는 Playwright MCP 서버는 21개 도구에 13,700토큰을 차지합니다. 세션을 시작하면 컨텍스트의 7-9%가 사라지는데, 실제로 쓰지도 않을 도구들이 대부분입니다. Pi는 필요할 때만 README를 읽고 bash로 실행하기 때문에 토큰을 아낍니다.

에이전트가 자신을 확장합니다

Pi의 가장 독특한 점은 확장 시스템입니다. MCP 서버를 다운로드하거나 커뮤니티 스킬을 설치하는 대신, 에이전트에게 “저 확장처럼 만들되 이렇게 수정해줘”라고 요청합니다. 에이전트가 자기 자신을 확장하는 거죠.

Armin은 /answer, /review, /files 같은 커스텀 확장들을 모두 Pi에게 만들게 했습니다. 코드 리뷰가 필요하면 세션을 브랜치해서 별도 컨텍스트에서 리뷰하고, 문제를 찾으면 메인 세션으로 돌아옵니다. Pi의 세션은 트리 구조라 브랜치를 만들고 되감을 수 있거든요.

이 모든 것이 “소프트웨어가 소프트웨어를 만드는” 아이디어를 실제로 구현한 겁니다. OpenClaw는 여기서 한 발 더 나아가 UI를 완전히 제거하고 채팅 채널에 연결했고, 그 결과 폭발적인 성장을 보였습니다.

파일이 상태입니다

Pi에는 내장 TODO 시스템도, 플랜 모드도 없습니다. 대신 TODO.md나 PLAN.md 파일을 사용합니다. 에이전트와 사용자 모두 이 파일을 읽고 수정할 수 있습니다. 세션을 넘어서 유지되고, 버전 관리도 되며, 완전히 투명하죠.

서브 에이전트가 필요하면요? bash로 Pi를 다시 실행하면 됩니다. 원한다면 tmux 세션 안에서 실행해서 완전한 관찰 가능성을 얻을 수 있습니다. Mario는 “Claude Code의 서브 에이전트는 블랙박스 안의 블랙박스”라고 비판합니다. Pi는 모든 것을 볼 수 있습니다.

YOLO 모드가 기본입니다

Pi는 기본적으로 완전한 YOLO 모드로 작동합니다. 파일 시스템 전체에 접근하고, 모든 명령을 실행합니다. 권한 확인도 없습니다.

Mario의 논리는 명확합니다. 에이전트가 코드를 작성하고 실행할 수 있다면 이미 게임은 끝났습니다. 데이터 유출을 막으려면 네트워크를 차단해야 하는데, 그러면 에이전트가 쓸모없어지죠. 다른 코딩 에이전트들의 보안 조치는 대부분 “보안 극장”에 불과하다는 게 Mario의 주장입니다. 어차피 모두 권한을 풀어주고 사용하니까요.

벤치마크가 증명합니다

Mario는 Pi를 Terminal-Bench 2.0으로 테스트했습니다. Claude Opus 4.5를 사용한 Pi는 Codex, Cursor, Windsurf 같은 네이티브 도구들과 나란히 리더보드 상위권에 올랐습니다.

흥미로운 건 Terminal-Bench 팀이 만든 Terminus 2도 높은 순위를 차지했다는 점입니다. Terminus 2는 Pi보다 더 미니멀합니다. 그냥 tmux 세션을 제공하고, 모델이 텍스트로 명령을 보내고 터미널 출력을 직접 파싱합니다. 복잡한 도구도, 파일 작업 API도 없는데 훨씬 정교한 도구를 가진 에이전트들과 경쟁하고 있습니다.

이것이 시사하는 바는 명확합니다. 최첨단 모델들은 이미 코딩 에이전트가 무엇인지 충분히 학습했습니다. 거대한 시스템 프롬프트나 수십 개의 전용 도구가 필요하지 않다는 거죠.

통제권이 핵심입니다

Pi를 만든 진짜 이유는 제어권 때문입니다. Mario는 “기존 하네스들은 뒤에서 몰래 주입하는 내용을 UI에 보여주지도 않는다”고 지적합니다. 컨텍스트 엔지니어링을 거의 불가능하게 만든다는 거죠.

Armin도 같은 이유로 Pi를 선택했습니다. 그는 어떤 소스를 에이전트가 실제로 봤는지, 어떤 걸 놓쳤는지 완전히 볼 수 있어야 한다고 말합니다. Claude Code의 플랜 모드는 서브 에이전트를 생성하는데, 그 안에서 무슨 일이 일어나는지 전혀 보이지 않습니다.

Pi는 세션 트리, 브랜치, 확장 시스템을 통해 완전한 투명성을 제공합니다. 모든 것을 볼 수 있고, 모든 것을 제어할 수 있습니다.

덜어내는 용기

Pi는 더 많은 기능이 더 나은 도구를 만든다는 통념에 도전합니다. 최소한의 도구로도 최첨단 모델은 충분히 효과적이며, 오히려 복잡성을 줄이면 투명성과 제어성이 높아집니다.

Mario는 벤치마크로 이를 입증했지만, 진짜 증거는 매일 Pi를 사용하는 그의 실제 업무입니다. 수백 번의 대화를 하나의 세션에 담을 수 있고, 컴팩션 없이도 잘 작동합니다.

모든 도구가 Pi처럼 최소주의를 따를 필요는 없습니다. 하지만 Pi가 증명한 것은 명확합니다. “더 많음”은 언제나 “더 좋음”을 의미하지 않습니다.

참고자료:

Pi: The Minimal Agent Within OpenClaw – Armin Ronacher
Terminal-Bench 2.0 – 코딩 에이전트 벤치마크
Pi GitHub Repository – Pi 소스 코드

Like?

AI Sparkup

Pi 코딩 에이전트, 4개 도구와 1,000토큰으로 벤치마크 상위권 달성

4개 도구가 전부입니다

에이전트가 자신을 확장합니다

파일이 상태입니다

YOLO 모드가 기본입니다

벤치마크가 증명합니다

통제권이 핵심입니다

덜어내는 용기

Fediverse reactions

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

Pi 코딩 에이전트, 4개 도구와 1,000토큰으로 벤치마크 상위권 달성

틀릴수록 더 자신만만해진다, Apple 연구진이 밝힌 LLM의 역설

DeepSeek OCR 2, 비주얼 토큰 80% 줄이고 Gemini 3 Pro 능가

AI 에이전트가 자면서 코딩한다, Ralph Wiggum 기법 실전 가이드