In-Place TTT – LLM이 추론 중 가중치를 업데이트하는 테스트타임 학습 프레임워크

배경: train then deploy의 한계
핵심 아이디어
처리 방식
의미
한계와 리스크
관련 문서
참고 자료

In-Place Test-Time Training(In-Place TTT)은 LLM이 배포 후 고정된 가중치로만 동작한다는 전제를 흔드는 연구다. 모델 전체를 다시 학습하지 않고, 추론 시점에 일부 fast weights를 업데이트해 긴 입력 흐름과 새로운 정보에 적응하게 한다.

배경: train then deploy의 한계

현재 LLM은 보통 대규모 사전학습과 후학습을 거친 뒤 고정된 모델로 배포된다. 컨텍스트 창에 새 정보를 넣을 수는 있지만, 모델 가중치 자체는 입력 흐름에 맞춰 바뀌지 않는다.

Test-Time Training(TTT)은 이 문제를 풀기 위해 추론 중 일부 파라미터를 업데이트한다. 하지만 기존 TTT는 LLM에 바로 넣기 어렵다.

아키텍처 호환성이 낮다.
추론 비용이 크다.
reconstruction objective가 next-token prediction과 잘 맞지 않는다.
긴 컨텍스트와 병렬 처리에서 확장성이 부족하다.

핵심 아이디어

In-Place TTT는 LLM의 MLP block에 이미 존재하는 최종 projection matrix를 fast weights로 사용한다. 별도 TTT 모듈을 크게 붙이지 않고, 기존 구조 안에서 업데이트 가능한 부분을 찾는 방식이다.

또한 일반적인 reconstruction objective 대신 autoregressive language modeling에 맞춘 next-token-prediction aligned objective를 사용한다. 즉 “입력을 복원하라”가 아니라 “다음 토큰 예측에 도움이 되도록 빠르게 적응하라”에 가깝다.

처리 방식

구성	설명
fast weights	MLP block의 final projection matrix
objective	next-token prediction에 맞춘 테스트타임 학습 목적
update	chunk-wise update
확장성	context parallelism과 호환

chunk 단위 업데이트를 사용하기 때문에 긴 문맥 전체를 한 번에 최적화하지 않아도 된다. 논문은 4B 모델에서 128K 컨텍스트 작업 성능 향상을 보고한다.

의미

In-Place TTT는 RAG나 긴 컨텍스트와 다른 방향의 적응 방식이다.

접근	적응 방식
RAG	외부 문서를 검색해 컨텍스트에 넣음
긴 컨텍스트	많은 정보를 입력 창에 유지
파인튜닝	배포 전 가중치 업데이트
In-Place TTT	추론 중 일부 fast weights 업데이트

실용화된다면 장문 문서 분석, 개인화, 지속 학습형 에이전트에서 “컨텍스트에 넣는 것”과 “모델이 잠시 적응하는 것”을 결합할 수 있다.

한계와 리스크

추론 중 업데이트가 serving latency와 GPU 메모리에 주는 부담
사용자별 fast weights 격리와 보안
악성 입력이 fast weights를 오염시키는 test-time poisoning 가능성
업데이트된 상태를 언제 버리고 언제 유지할지에 대한 정책

특히 에이전트 장기 메모리와 결합하면 memory poisoning과 유사한 공격 표면이 생길 수 있다. 따라서 In-Place TTT는 성능 최적화뿐 아니라 보안·격리 설계가 함께 필요하다.

참고 자료

In-Place Test-Time Training — arXiv 2604.06169 (2026-04-07, ICLR 2026 Oral)

Like?

AI Sparkup