AI Sparkup

Spark Up Your AI Knowledge⚡

DeepSeek, AI 학습 불안정성을 3000배→1.6배로 잡다: mHC 아키텍처의 비밀

AI 모델이 커질수록 학습이 갑자기 멈추는 일이 잦아집니다. 손실 함수가 급등하고, 그래디언트가 폭발하고, 며칠간 돌린 학습이 한순간에 무용지물이 되죠. 이건 단순한 버그가 아니라 모델 아키텍처 자체의 구조적 문제였습니다. DeepSeek이 이 고질적 불안정성을 해결하는 새로운 방법을 내놨습니다.

사진 출처: Analytics Vidhya

DeepSeek 연구팀이 발표한 mHC(Manifold-Constrained Hyper-Connections)는 대규모 언어 모델 학습의 안정성 문제를 근본적으로 해결하는 아키텍처 설계 기법입니다. 기존 Hyper-Connections(HC) 방식이 제공하던 성능 향상은 그대로 유지하면서도, 270억 파라미터 규모에서 안정적인 학습을 가능하게 만들었죠. 특히 복잡한 추론 벤치마크에서 7-10%포인트의 성능 개선을 보였습니다.

출처: mHC: Manifold-Constrained Hyper-Connections – arXiv

문제의 본질: 신호가 3000배로 증폭된다

2016년 ResNet 이후 residual connection(잔차 연결)은 딥러닝의 핵심 구성 요소였습니다. 정보가 레이어를 건너뛰어 흐를 수 있게 해주는 ‘고속도로’죠. 모델이 수억, 수천억 파라미터로 커지면서 연구자들은 이 고속도로를 더 넓히는 Hyper-Connections를 도입했습니다. 성능은 확실히 올랐지만, 학습은 극도로 불안정해졌습니다.

문제는 신호 증폭이었습니다. HC는 여러 레이어의 정보를 학습 가능한 가중치로 섞는데, 이 과정이 레이어를 거듭할수록 신호를 기하급수적으로 증폭시켰어요. DeepSeek 연구팀이 측정한 결과, 일부 경로에서는 신호가 3000배까지 증폭되고 있었습니다.

회의실에서 메시지를 전달하는데, 전달할 때마다 방 안의 모든 사람이 동시에 3000배 더 크게 외친다고 상상해보세요. 완전히 통제 불능 상태가 되겠죠. 대규모 모델 학습에서 일어나던 일이 바로 이겁니다.

해결책: 정보를 증폭하지 말고 재분배하라

mHC의 핵심 아이디어는 간단합니다. 신호를 증폭하거나 억제하는 대신, 재분배만 하도록 제약을 거는 겁니다.

기술적으로는 연결 행렬을 ‘Birkhoff polytope’라는 수학적 공간에 투영합니다. 쉽게 말하면 각 행과 열의 합이 1이 되도록 강제하는 거예요. 이렇게 하면 네트워크가 특징들의 가중 평균(convex combination)만 계산하게 됩니다. 신호를 폭발시키거나 완전히 사라지게 만들 수 없죠.

연구팀은 Sinkhorn-Knopp 알고리즘으로 이 제약을 적용했습니다. 행과 열을 번갈아가며 정규화하는 반복 방법인데, 실험 결과 20번 반복이면 충분했고 계산 오버헤드도 미미했습니다.

흥미로운 발견도 있었습니다. HC의 세 가지 매핑(H_pre, H_post, H_res) 중에서 H_res(잔차 스트림 자체를 변환하는 매핑)가 성능 향상의 핵심이었어요. 이 매핑만 끄면 성능이 급격히 떨어졌습니다. 서로 다른 깊이의 특징들이 상호작용하며 정보를 교환하는 과정이 가장 중요했던 거죠.

실제 효과: 안정성과 성능을 동시에

DeepSeek은 30억, 90억, 270억 파라미터 모델에서 mHC를 테스트했습니다. 결과는 명확했습니다.

안정성:

  • 최대 신호 증폭이 3000배에서 1.6배로 감소 (3자릿수 개선)
  • 60개 이상의 레이어를 통과해도 순전파/역전파 신호가 안정적으로 유지
  • 학습 전 과정에서 손실 함수가 부드럽게 감소, 급등 현상 없음

성능 (270억 파라미터 모델):

  • BBH (복잡한 추론): 43.8% → 51.0%
  • DROP (긴 문맥 이해): 47.0% → 53.9%
  • GSM8K (수학 문제): 46.7% → 53.8%
  • MMLU (일반 지식): 59.0% → 63.4%

이런 개선이 단지 초기 학습에만 나타난 게 아니라 1조 토큰을 학습하는 내내 일관되게 유지됐습니다. 그리고 계산 오버헤드는 6-7%에 불과했죠.

더 큰 모델이 아닌, 더 나은 설계

이 연구가 주는 시사점은 분명합니다. AI 성능 개선이 반드시 더 큰 모델이나 더 많은 데이터를 필요로 하는 건 아니라는 거죠. 아키텍처를 제대로 이해하고 구조적 문제를 해결하면 효율적으로 성능을 끌어올릴 수 있습니다.

DeepSeek의 전략과도 일맥상통합니다. 이 연구팀은 이전에도 Group Relative Policy Optimization(GRPO)으로 적은 컴퓨팅으로 강력한 추론 성능을 내는 방법을 보여줬고, 최근에는 DeepSeek-V3.2 같은 효율적인 추론 모델들을 계속 선보이고 있습니다. mHC 역시 같은 맥락에서, “어떻게 하면 더 적은 자원으로 더 나은 결과를 낼 수 있을까”라는 질문에 대한 답입니다.

대규모 모델을 학습하는 팀이라면 mHC를 주목할 만합니다. 단순히 잔차 연결의 폭을 넓히는 것만으로는 부족하고, 그 연결이 어떻게 작동하는지를 근본적으로 이해하고 제어해야 한다는 걸 보여주니까요. 그리고 그 제어가 수학적으로 우아하면서도 실용적으로 구현 가능하다는 것도요.

참고자료:


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다