LLM API를 쓸 때마다 쌓이는 토큰 비용, 혹시 부담스러우신가요? ChatGPT나 Claude를 업무에 활용하다 보면 어느새 토큰 사용량이 치솟고, 비용도 함께 올라갑니다. 특히 구조화된 데이터를 반복적으로 처리하는 작업이라면 더욱 그렇죠.

Analytics Vidhya의 데이터 사이언티스트 Hamzah가 TOON(Token-Oriented Object Notation)이라는 새로운 데이터 포맷을 소개했습니다. TOON은 LLM에 데이터를 전달할 때 JSON보다 30-60% 적은 토큰을 사용하면서도 구조적 명확성을 유지하는 포맷입니다. 209개 검색 문제와 4개 LLM을 대상으로 한 벤치마크에서 평균 39.6%의 토큰 절약과 함께 정확도까지 향상시켰다는 점이 핵심이죠.
출처: TOON: Save 60% on Tokens [A new file format for the AI Age] – Analytics Vidhya
TOON이 뭔가요?
JSON은 중괄호, 대괄호, 따옴표 같은 기호를 많이 씁니다. 사람이 읽기엔 괜찮지만 LLM 입장에선 토큰 낭비죠. TOON은 이런 불필요한 기호를 최소화하고, 들여쓰기로 구조를 표현하며, 반복되는 필드명을 한 번만 선언하는 방식으로 설계됐습니다.
같은 데이터를 표현해볼까요?
JSON (토큰 많이 씀):
{
"users": [
{ "id": 1, "name": "Alice", "role": "admin" },
{ "id": 2, "name": "Bob", "role": "user" }
]
}
TOON (토큰 적게 씀):
users[2]{id,name,role}:
1,Alice,admin
2,Bob,user
필드명(id, name, role)을 한 번만 쓰고, 각 행은 값만 나열합니다. 마치 CSV의 컴팩트함에 JSON의 구조 정보를 더한 것 같죠. YAML처럼 들여쓰기로 계층을 표현하고, 배열 길이를 명시해서 LLM이 구조를 더 쉽게 파악하게 만듭니다.
얼마나 절약되나요?
벤치마크 결과를 보면 TOON은 JSON 대비 평균 39.6% 적은 토큰을 사용했습니다. 정확도는 오히려 73.9%로 JSON의 69.7%보다 높았어요. 구조가 명확하니 LLM이 데이터를 더 정확히 이해한 거죠.
실제 비용으로 환산해볼까요? GPT-5 기준으로 1,000 토큰당 $0.01이라고 가정하면, 100개 아이템을 담은 데이터를 10,000번 요청할 경우 TOON을 쓰면 요청당 약 40%의 비용을 절약할 수 있습니다. 원문의 예시에선 10,000 요청시 수십 달러의 차이가 발생했죠. 매일 수백, 수천 건의 API 호출을 하는 서비스라면 연간 수백만 원 이상 절감할 수 있는 수준입니다.
언제 써야 하나요?
TOON은 테이블 형태의 균일한 데이터에 최적화돼 있습니다. 모든 행이 같은 필드를 가진 사용자 목록, 거래 내역, 로그 데이터 같은 경우죠. 이런 데이터는 필드명을 한 번만 선언하고 값만 나열하니까 토큰을 크게 줄일 수 있어요.
반면 깊게 중첩된 구조나 각 객체마다 필드가 다른 불규칙한 데이터라면 JSON이 더 효율적일 수 있습니다. 또 순수 테이블 데이터라면 CSV가 여전히 가장 컴팩트하고요. TOON은 CSV와 JSON 사이 어딘가, 즉 구조적 명확성은 필요하지만 토큰 효율도 중요한 상황에 딱 맞습니다.
지연 시간이 중요한 애플리케이션이라면 실제 환경에서 벤치마크를 돌려보는 게 좋습니다. 일부 로컬 모델(Ollama 같은)은 JSON을 더 빠르게 처리할 수도 있거든요.
실무에서 어떻게 쓸까요?
TOON은 Python, JavaScript, Rust 등 여러 언어로 구현돼 있습니다. Python의 경우 toon-python 패키지를 설치하면 encode()와 decode() 함수로 JSON과 TOON을 쉽게 변환할 수 있어요. 기존 코드는 그대로 두고 LLM에 보내기 직전에만 TOON으로 변환하면 되니까 도입 부담이 적습니다.
공식 플레이그라운드(curiouslychase.com, toontools.vercel.app)에서 직접 테스트해볼 수도 있습니다. 여러분의 실제 데이터를 넣어보면 얼마나 절약되는지 바로 확인할 수 있죠.
왜 지금 나왔을까요?
LLM 사용량이 폭발적으로 늘면서 토큰 비용이 실질적인 병목이 되고 있습니다. 개발자들은 프롬프트를 줄이고, 컨텍스트를 최적화하고, 캐싱을 활용하는 등 온갖 방법을 동원하죠. TOON은 여기에 “데이터 포맷 최적화”라는 새로운 선택지를 더한 겁니다.
TOON이 모든 상황의 정답은 아닙니다. 하지만 구조화된 데이터를 다루는 개발자라면 툴킷에 하나 추가해둘 만한 도구예요. 특히 비용과 효율을 동시에 잡아야 하는 프로덕션 환경에서 실질적인 가치를 제공할 겁니다.
참고자료:

답글 남기기