AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

In-Place TTT – LLM이 추론 중 가중치를 업데이트하는 테스트타임 학습 프레임워크

In-Place Test-Time Training(In-Place TTT)은 LLM이 배포 후 고정된 가중치로만 동작한다는 전제를 흔드는 연구다. 모델 전체를 다시 학습하지 않고, 추론 시점에 일부 fast weights를 업데이트해 긴 입력 흐름과 새로운 정보에 적응하게 한다.

배경: train then deploy의 한계

현재 LLM은 보통 대규모 사전학습과 후학습을 거친 뒤 고정된 모델로 배포된다. 컨텍스트 창에 새 정보를 넣을 수는 있지만, 모델 가중치 자체는 입력 흐름에 맞춰 바뀌지 않는다.

Test-Time Training(TTT)은 이 문제를 풀기 위해 추론 중 일부 파라미터를 업데이트한다. 하지만 기존 TTT는 LLM에 바로 넣기 어렵다.

  • 아키텍처 호환성이 낮다.
  • 추론 비용이 크다.
  • reconstruction objective가 next-token prediction과 잘 맞지 않는다.
  • 긴 컨텍스트와 병렬 처리에서 확장성이 부족하다.

핵심 아이디어

In-Place TTT는 LLM의 MLP block에 이미 존재하는 최종 projection matrix를 fast weights로 사용한다. 별도 TTT 모듈을 크게 붙이지 않고, 기존 구조 안에서 업데이트 가능한 부분을 찾는 방식이다.

또한 일반적인 reconstruction objective 대신 autoregressive language modeling에 맞춘 next-token-prediction aligned objective를 사용한다. 즉 “입력을 복원하라”가 아니라 “다음 토큰 예측에 도움이 되도록 빠르게 적응하라”에 가깝다.

처리 방식

구성설명
fast weightsMLP block의 final projection matrix
objectivenext-token prediction에 맞춘 테스트타임 학습 목적
updatechunk-wise update
확장성context parallelism과 호환

chunk 단위 업데이트를 사용하기 때문에 긴 문맥 전체를 한 번에 최적화하지 않아도 된다. 논문은 4B 모델에서 128K 컨텍스트 작업 성능 향상을 보고한다.

의미

In-Place TTT는 RAG나 긴 컨텍스트와 다른 방향의 적응 방식이다.

접근적응 방식
RAG외부 문서를 검색해 컨텍스트에 넣음
긴 컨텍스트많은 정보를 입력 창에 유지
파인튜닝배포 전 가중치 업데이트
In-Place TTT추론 중 일부 fast weights 업데이트

실용화된다면 장문 문서 분석, 개인화, 지속 학습형 에이전트에서 “컨텍스트에 넣는 것”과 “모델이 잠시 적응하는 것”을 결합할 수 있다.

한계와 리스크

  • 추론 중 업데이트가 serving latency와 GPU 메모리에 주는 부담
  • 사용자별 fast weights 격리와 보안
  • 악성 입력이 fast weights를 오염시키는 test-time poisoning 가능성
  • 업데이트된 상태를 언제 버리고 언제 유지할지에 대한 정책

특히 에이전트 장기 메모리와 결합하면 memory poisoning과 유사한 공격 표면이 생길 수 있다. 따라서 In-Place TTT는 성능 최적화뿐 아니라 보안·격리 설계가 함께 필요하다.

관련 문서

참고 자료



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)