같은 글을 주고 똑같은 문제를 풀게 했습니다. 사람의 정답률은 56%에서 36%로 떨어졌습니다. 그런데 AI 모델의 정답률은 90%에서 97%로 오히려 올랐습니다. 사람 눈에는 깨진 문자열처럼 보이는 그 글을, AI는 원문보다 더 잘 이해한 겁니다.

상하이교통대학교 연구진이 발표한 논문 “Large Language Models Do Not Always Need Readable Language”의 실험 결과입니다. 핵심은 이렇습니다. 우리는 보통 AI에게 사람이 읽을 수 있는 자연어로 말을 겁니다. 그런데 그 글을 읽는 상대가 또 다른 AI라면, 사람의 가독성은 굳이 지킬 필요가 없습니다. 연구진은 사람은 못 읽지만 AI는 알아듣는 초고밀도 표현을 만들고 여기에 BabelTele라는 이름을 붙였습니다. 원문 길이의 27.9%까지 압축해도 의미의 99.5%가 보존됐습니다.
출처: Large Language Models Do Not Always Need Readable Language – arXiv
사람의 언어는 AI에게 낭비다
사람의 언어에는 잉여가 많습니다. 완결된 문법, 접속사, 자연스러운 흐름은 사람이 글을 따라가고 기억하고 헷갈리지 않도록 돕습니다. 읽는 사람에게는 소중한 장치지만, 정보 밀도라는 관점에서는 군더더기입니다.
BabelTele는 이 군더더기를 걷어냅니다. 논문이 든 광합성 예시가 직관적입니다. “광합성 과정에서 식물은 이산화탄소와 물을 흡수하고…”로 시작하는 45토큰짜리 설명이, 이모지와 화살표, 여러 언어 조각이 뒤섞인 11토큰으로 압축됩니다. 화학식과 기호로 의미의 관계망만 남긴 형태죠. 사람은 거의 읽을 수 없지만, AI는 여기서 원래 의미를 복원해냅니다.
특이한 점은 이게 별도의 학습이나 특수한 설정 없이 나타난다는 겁니다. 그냥 “사람 가독성은 버리고 최대한 압축하라”는 지시를 프롬프트로 주는 것만으로 모델이 스스로 이런 표현을 만들어냅니다. 내부 구조를 건드리거나 모델을 재학습할 필요가 없어서, API만 호출할 수 있으면 누구나 관찰할 수 있는 현상입니다.
사람과 AI의 정답률이 갈리는 지점
연구진은 이 표현이 그냥 의미 없는 암호가 아니라는 걸 증명하려 했습니다. 같은 지문을 세 가지 형태(원문, 일반 요약, BabelTele)로 만들어 똑같은 객관식 문제를 풀게 했습니다.
사람 응시자는 BabelTele 지문에서 정답률이 56.1%에서 35.8%로 떨어졌습니다. 반면 Gemini 3.1 Pro는 90.0%에서 96.7%로 정확도를 유지했습니다. 압축본은 언어 모델이 예측하기 어려운 정도(PPL)가 원문보다 수십 배 높게 나왔습니다. 한 모델 기준으로 원문이 9.63인데 BabelTele는 176.60이었죠. 자연어 분포에서 한참 벗어난 형태라는 뜻입니다.
여기서 역설이 드러납니다. 통계적으로는 정상적인 언어와 거리가 먼데, 의미는 그대로 살아있다는 겁니다. 연구진은 이를 두고 사람의 가독성, 자연어다움, 그리고 모델의 의미 복원력이 서로 분리될 수 있다고 표현합니다. 셋이 항상 붙어 다닐 거라는 통념이 깨진 셈입니다.
만능 암호는 아니다
여기까지 보면 프로그래밍에서 사람이 짠 고수준 코드를 기계어로 컴파일하는 것과 닮아 보입니다. 사람이 다루기 편한 표현을 기계가 처리하기 좋은 형태로 옮긴다는 방향이 같으니까요. 하지만 결정적 차이가 있습니다. 컴파일은 정해진 규칙에 따라 늘 같은 결과를 내고 명세서가 존재하지만, BabelTele는 고정된 규칙도 코드북도 없습니다. 읽는 모델이 그때그때 알아서 의미를 복원하죠. 그래서 한계도 컴파일과는 다른 방식으로 나타납니다. 연구진 스스로도 “완성된 프로토콜이 아니라 탐구의 방향”이라고 못 박습니다.
첫째, 한 모델이 압축한 걸 다른 모델이 읽는 크로스모델 전이는 되지만 짝에 따라 편차가 큽니다. GPT나 Claude가 압축한 표현은 여러 모델에 두루 잘 전달됐지만, 일부 모델이 압축한 표현은 다른 모델이 읽을 때 정확도가 더 많이 떨어졌습니다. 강한 압축기일수록 여러 모델이 알아듣는 형태를 만들긴 하지만, 완전히 보편적인 코드는 아니라는 겁니다.
둘째, 압축이 강해질수록 읽는 모델이 답을 내기 위해 더 많은 추론 토큰을 씁니다. 입력에서 아낀 토큰을 출력 쪽 사고 과정에서 일부 되돌려주는 셈입니다. 그래서 무조건 강하게 압축하는 게 이득이 아니라, 적당한 압축 지점을 찾아야 입력과 추론 양쪽에서 동시에 절약할 수 있습니다.
AI 시스템 안쪽의 언어
이 연구가 가리키는 곳은 사람이 보는 화면이 아니라 AI 시스템의 내부입니다. 긴 문서를 처리하고, 기억을 유지하고, 여러 에이전트가 서로 메시지를 주고받는 상황에서 컨텍스트 비용은 늘 발목을 잡는 문제입니다. 논문은 멀티 에이전트 통신 실험에서 BabelTele가 토큰을 38~44% 줄이면서도 작업 성공 점수를 거의 그대로 유지했다고 보고합니다.
지금까지 AI 사이를 오가는 중간 메시지조차 사람이 읽을 수 있는 문장으로 쓰였습니다. 사람이 들여다보고 디버깅하기에는 편하지만, 정작 그 글을 소비하는 건 또 다른 모델인 경우가 많죠. BabelTele는 그 중간 표현을 사람이 아니라 모델에 맞춰 다시 설계할 수 있다는 가능성을 보여줍니다. 논문은 이외에도 에이전트 메모리, 컨텍스트 창을 넘어서는 초장문 처리 등 여러 벤치마크 결과를 담고 있으니, 구체적인 수치와 실험 설계는 원문에서 확인할 수 있습니다.

답글 남기기