In-Place Test-Time Training(In-Place TTT)은 LLM이 배포 후 고정된 가중치로만 동작한다는 전제를 흔드는 연구다. 모델 전체를 다시 학습하지 않고, 추론 시점에 일부 fast weights를 업데이트해 긴 입력 흐름과 새로운 정보에 적응하게 한다.
배경: train then deploy의 한계
현재 LLM은 보통 대규모 사전학습과 후학습을 거친 뒤 고정된 모델로 배포된다. 컨텍스트 창에 새 정보를 넣을 수는 있지만, 모델 가중치 자체는 입력 흐름에 맞춰 바뀌지 않는다.
Test-Time Training(TTT)은 이 문제를 풀기 위해 추론 중 일부 파라미터를 업데이트한다. 하지만 기존 TTT는 LLM에 바로 넣기 어렵다.
- 아키텍처 호환성이 낮다.
- 추론 비용이 크다.
- reconstruction objective가 next-token prediction과 잘 맞지 않는다.
- 긴 컨텍스트와 병렬 처리에서 확장성이 부족하다.
핵심 아이디어
In-Place TTT는 LLM의 MLP block에 이미 존재하는 최종 projection matrix를 fast weights로 사용한다. 별도 TTT 모듈을 크게 붙이지 않고, 기존 구조 안에서 업데이트 가능한 부분을 찾는 방식이다.
또한 일반적인 reconstruction objective 대신 autoregressive language modeling에 맞춘 next-token-prediction aligned objective를 사용한다. 즉 “입력을 복원하라”가 아니라 “다음 토큰 예측에 도움이 되도록 빠르게 적응하라”에 가깝다.
처리 방식
| 구성 | 설명 |
|---|---|
| fast weights | MLP block의 final projection matrix |
| objective | next-token prediction에 맞춘 테스트타임 학습 목적 |
| update | chunk-wise update |
| 확장성 | context parallelism과 호환 |
chunk 단위 업데이트를 사용하기 때문에 긴 문맥 전체를 한 번에 최적화하지 않아도 된다. 논문은 4B 모델에서 128K 컨텍스트 작업 성능 향상을 보고한다.
의미
In-Place TTT는 RAG나 긴 컨텍스트와 다른 방향의 적응 방식이다.
| 접근 | 적응 방식 |
|---|---|
| RAG | 외부 문서를 검색해 컨텍스트에 넣음 |
| 긴 컨텍스트 | 많은 정보를 입력 창에 유지 |
| 파인튜닝 | 배포 전 가중치 업데이트 |
| In-Place TTT | 추론 중 일부 fast weights 업데이트 |
실용화된다면 장문 문서 분석, 개인화, 지속 학습형 에이전트에서 “컨텍스트에 넣는 것”과 “모델이 잠시 적응하는 것”을 결합할 수 있다.
한계와 리스크
- 추론 중 업데이트가 serving latency와 GPU 메모리에 주는 부담
- 사용자별 fast weights 격리와 보안
- 악성 입력이 fast weights를 오염시키는 test-time poisoning 가능성
- 업데이트된 상태를 언제 버리고 언제 유지할지에 대한 정책
특히 에이전트 장기 메모리와 결합하면 memory poisoning과 유사한 공격 표면이 생길 수 있다. 따라서 In-Place TTT는 성능 최적화뿐 아니라 보안·격리 설계가 함께 필요하다.
관련 문서
- lact — 테스트타임 학습으로 장문 컨텍스트를 확장하는 아키텍처
- llm-architecture-tips-long-context-cost — 장문 컨텍스트 비용 절감 아키텍처
- agentic-memory — 에이전트 경험을 기억하고 활용하는 메모리 계층
- ai-agent-security-tips-memory-poisoning — 메모리 포이즈닝과 에이전트 보안
참고 자료
- In-Place Test-Time Training — arXiv 2604.06169 (2026-04-07, ICLR 2026 Oral)