llm-fine-tuning은 AI 모델의 행동을 바꾸는 가장 흔한 방법이지만, 비용과 위험이 크다. 70B 모델 하나를 파인튜닝하려면 데이터 큐레이션부터 회귀 테스트까지 수천 달러와 수백 GPU 시간이 필요하고, 한 부분을 고치면 다른 능력이 망가지는 경우도 흔하다. 이 글은 추론 시점에 벡터를 조작해 모델 행동을 바꾸는 활성화 스티어링(Activation Steering)의 작동 원리와 한계, 그리고 이를 기하학적으로 개선한 이중 스티어링(Dual Steering) 접근법을 소개한다. ML 연구자와 프로덕션 LLM 시스템을 구축하는 개발자에게 유용한 배경 지식이다.
1. 왜 파인튜닝은 “무거운 망치”인가
파인튜닝(fine-tuning)은 모델 가중치 자체를 업데이트하기 때문에 다음과 같은 문제가 따른다.
- 비용: 대규모 모델 한 번 파인튜닝에 수천 달러의 GPU 비용
- 부작용: 하나의 행동을 바꾸면 다른 능력이 퇴화하는 경우가 빈번
- 반복 불가: 파인튜닝 후 회귀 테스트가 필수, 속도가 느림
반면 활성화 스티어링은 추론 시점(inference time)에 모델의 내부 표현 벡터에 방향 벡터를 더해 행동을 바꾸는 방법이다. 추가 학습이 없으므로 비용이 거의 없다. 그런데 왜 파인튜닝보다 성능이 낮을까?
2. 기존 스티어링의 문제: 유클리드 공간 가정
기존 활성화 스티어링은 모델의 표현 공간이 유클리드(Euclidean) 공간, 즉 평평한 수학 환경이라고 가정한다. “개념 A를 원하면, A 방향으로 벡터를 더하면 된다”는 식이다.
하지만 실제로는 이렇게 된다.
- 동사를 긍정적인 방향으로 스티어링하면 전치사 “to”의 확률이 갑자기 폭증한다.
- MetaCLIP-2에서 “고양이”를 “강아지”로 스티어링하면 “고양이+강아지” 이미지가 최상위 결과로 올라온다.
이를 확률 누수(probability leakage)라 한다. 목표 개념은 조금 이동하는데, 관련 없는 토큰이 같이 끌려 올라오는 현상이다.
핵심 이유는 소프트맥스(Softmax)에 있다. 표현 벡터가 소프트맥스를 통과하는 순간, 공간의 기하학적 성질이 바뀐다. 유클리드 공간이 아닌 Bregman 기하학이 지배하는 공간으로 진입하게 된다.
3. 소프트맥스가 공간을 어떻게 뒤트는가
소프트맥스는 원시 점수(logit)를 확률로 변환할 때 지수 함수를 사용한다.
예를 들어 세 토큰의 점수가 10, 8, 3이라면, 지수화 후에는 약 22,000, 3,000, 20이 된다. 이 값을 합계로 나누면 첫 번째 토큰이 확률의 88%를 독식한다. 유클리드 공간에서 “약간의 차이”가 확률 공간에서는 “압도적 격차”가 된다.
이 소프트맥스 분포 간의 “거리”를 올바르게 측정하는 도구는 KL 발산(KL Divergence)이다. KL 발산은 두 확률 분포가 얼마나 다른지를 정보이론적으로 계산한다. 그리고 KL 발산을 수식으로 전개하면 다음 형태가 나온다.
KL = A(lambda') - A(lambda) - grad-A(lambda) * (lambda' - lambda)여기서 A(lambda)는 소프트맥스의 정규화 항인 로그 분할 함수(log-partition function)다.
이 수식은 정확히 볼록 함수(convex function)와 그 접선 사이의 오차, 즉 Bregman 발산(Bregman divergence)의 형태다. 다시 말해, 소프트맥스를 통과한 LLM 표현 공간은 선택이 아닌 수학적 필연으로 Bregman 기하학을 따른다.
4. 두 좌표계: 원시(Primal)와 쌍대(Dual)
Bregman 기하학이 지배하는 공간에는 두 가지 좌표계가 존재한다.
| 좌표계 | 기호 | 설명 |
|---|---|---|
| 원시(Primal) | λ | 모델 내부 잔차 스트림의 원시 벡터. 값의 제약이 없다. |
| 쌍대(Dual) | φ | 어휘 전체에 대한 확률 가중 “무게 중심”. 소프트맥스 출력과 연결된다. |
기존 스티어링은 두 좌표계를 구분하지 않고 λ 공간에서 직접 벡터를 더한다. 이것이 바로 “유형 오류(type error)”다. 측정 도구(probe, 탐침)를 변위 벡터처럼 다루는 것은 수학적으로 “온도계를 방에 물리적으로 더한다”는 것만큼 말이 안 된다.
원시 보간 vs 쌍대 보간의 차이
- 원시 보간(Primal Interpolation): 논리 AND처럼 작동. 두 개념의 공통 부분만 남기고 고유한 특성을 뭉갠다. 결과가 무난하지만 밋밋해진다.
- 쌍대 보간(Dual Interpolation): 논리 OR처럼 작동. 두 개념의 합집합을 보존해 서로 다른 특성이 혼합된 출력을 생성한다.
5. 이중 스티어링(Dual Steering): 기하학적 해법
이중 스티어링은 원시 좌표계에서 쌍대 좌표계로 매핑한 뒤 탐침을 더하고, 다시 원시 좌표계로 변환하는 방식이다.
- 현재 표현 벡터 λ를 쌍대 좌표 φ로 변환
- φ 공간에서 탐침 방향으로 조작
- 다시 λ 공간으로 역변환 후 추론 진행
이 과정은 수학적으로 KL 투영(KL Projection)을 수행하는 것과 동일하다. 목표 개념의 확률을 이동시키면서 나머지 분포의 변화를 최소화한다.
실험 결과, 이중 스티어링은 동사 방향 스티어링 시 관계없는 전치사가 끌려 올라오는 현상을 크게 줄였고, CLIP 이미지 검색에서도 목표 개념만 이동시키는 정밀도를 보였다.
6. 현재 한계와 앞으로의 방향
이중 스티어링의 수학은 현재 출구 노드(exit node), 즉 소프트맥스가 직접 작동하는 최종 레이어에만 적용된다. 여기에는 최종 토큰 분포, CLIP 검색, 어텐션 레이어가 포함된다.
그러나 실제 프로덕션 스티어링은 대부분 중간 레이어(intermediate layers)를 대상으로 한다. 이 영역에 대한 Bregman 기하학 수식은 아직 존재하지 않는다. 따라서 이중 스티어링은 현시점에서 완전한 실용 솔루션이라기보다는 LLM 정보 기하학 연구의 출발점으로 보는 것이 맞다.
관련 연구 방향:
- Latent Space Reasoning — 학습 없이 새로운 능력을 잠재 공간에서 발현
- Fractal Embeddings — 임베딩에 계층 구조를 직접 통합
마치며
파인튜닝이 “무거운 망치”라면, 활성화 스티어링은 “외과용 메스”가 될 가능성이 있다. 다만 모델의 내부 공간이 유클리드가 아닌 Bregman 기하학을 따른다는 사실을 무시한 채 스티어링하면 원하지 않는 부작용이 생긴다. 이중 스티어링은 이 기하학적 현실을 반영한 첫 번째 단계다. 중간 레이어에 대한 수식이 개발된다면 추론 시점 출력 제어 분야에 큰 변화가 올 것이다.
참고 자료
- How to control your AI Outputs (better than Finetuning) — AI Made Simple (2026-05-10)
- The Information Geometry of Softmax: Probing and Steering — arXiv