GenericAgent는 약 3,000줄의 코어 코드와 9개의 원자 도구(atomic tool)로 구성된 최소 자율 에이전트 프레임워크다. 브라우저·터미널·파일시스템·키보드·마우스·화면 비전·모바일(ADB)을 직접 제어하며, 새 작업을 수행할 때마다 실행 경로를 스킬로 결정화해 스킬 트리를 자동으로 키워간다. 2026년 4월 기술 논문이 arXiv에 공개되었으며, GitHub에서 오픈소스로 제공된다.
핵심 철학 — 스킬을 미리 주입하지 않고, 경험에서 진화시킨다
대부분의 에이전트 프레임워크는 수백~수천 개의 사전 정의 도구를 제공하지만 GenericAgent는 반대 접근을 취한다. 9개의 원자 도구만 제공하고, 에이전트가 새로운 작업을 해결하면 그 과정을 스킬로 기록해 다음에 바로 재사용한다. 사용할수록 당신만의 스킬 트리가 쌓인다.
[새 작업] → [자율 탐색: 의존성 설치 → 스크립트 작성 → 디버그 → 검증]
→ [실행 경로를 스킬로 결정화] → [메모리 레이어에 저장]
→ [다음 유사 작업에서 한 줄 호출]| 요청 | 처음 | 이후 |
|---|---|---|
| “WeChat 메시지 읽어줘” | DB 리버싱 → 스크립트 작성 → 스킬 저장 | 한 줄 호출 |
| “주식 스크리닝해서 알림 줘” | mootdx 설치 → 선정 로직 → cron 설정 → 스킬 저장 | 바로 시작 |
아키텍처
- 코어: ~3,000줄 Python. Agent Loop는 단 ~100줄
- 원자 도구: 9개 — 브라우저 조작, 터미널, 파일 읽기/쓰기, 키보드·마우스, 화면 캡처, ADB 등
- 컨텍스트 윈도우: <30K 토큰. 레이어드 메모리가 필요한 스킬만 스코프에 올려 노이즈를 최소화
- 모델 호환: Claude / Gemini / Kimi / MiniMax 등 주요 모델 지원. 크로스 플랫폼
다른 에이전트가 200K~1M 토큰을 소비하는 동안 GenericAgent는 <30K로 동일한 작업을 수행한다. 논문 제목에 포함된 "Contextual Information Density Maximization(문맥 정보 밀도 최대화)"이 이 설계 원칙을 가리킨다.
자기 부트스트랩 증명
이 저장소 자체 — Git 설치부터 git init, 모든 커밋 메시지까지 — 를 저자가 터미널을 열지 않고 GenericAgent가 자율적으로 완성했다. 이를 통해 에이전트의 실제 시스템 제어 능력을 입증한다.
설치
git clone https://github.com/lsdefine/GenericAgent.git
cd GenericAgent
pip install streamlit pywebview
cp mykey_template.py mykey.py
# mykey.py에 LLM API 키 입력
python launch.pyw활용 대상
- 반복 작업을 자동화하고 점진적으로 자신만의 스킬 라이브러리를 쌓고 싶은 개발자·연구자
- 최소 코드로 에이전트 동작 원리를 공부하려는 학습자
- 토큰 비용을 최소화하면서 장기 실행 에이전트를 운용하려는 팀
논문
- 제목: GenericAgent: A Token-Efficient Self-Evolving LLM Agent via Contextual Information Density Maximization (V1.0)
- 링크: arXiv:2604.17091
- 발표: 2026-04-21
관련 문서
- agent-harness — 에이전트 하네스 엔지니어링 방법론
- agent-skills — AI 에이전트 스킬 시스템 개요
참고 자료
- lsdefine/GenericAgent — GitHub 공식 저장소
- GenericAgent: A Token-Efficient Self-Evolving LLM Agent — arXiv (2026-04-21)