대형 언어 모델(LLM)의 세계는 끊임없이 진화하고 있습니다. 특히 강화학습을 통한 모델 최적화는 최근 AI 업계에서 가장 주목받는 혁신 중 하나입니다. OpenAI의 O 시리즈 모델과 DeepSeek R1의 출시로 이미 강화학습의 중요성이 입증되었는데요. 이번에는 텐센트가 이 흐름에 합류하여 새로운 이정표를 세웠습니다.
주목할 만한 점은 훈위안-T1이 GPT-4.5와 DeepSeek R1을 여러 벤치마크에서 능가하며 AI 경쟁에서 중국의 위상을 높이고 있다는 것입니다. 특히 초당 60-80 토큰의 인상적인 생성 속도는 GPT-4.5와 DeepSeek R1의 성능을 뛰어넘는 수준입니다.
훈위안-T1의 정체
훈위안-T1은 텐센트의 훈위안 시리즈에서 주요 ‘느린 사고(slow thinking)’ 모델로, 복잡한 문제 해결 작업을 처리하기 위해 고급 아키텍처 혁신과 특수한 추론 능력을 결합했습니다. 특히 중국어 컨텍스트에서 분석적 깊이에 대한 새로운 기준을 세웠습니다.
세계 최초의 하이브리드 트랜스포머-맘바 MoE 모델
텐센트의 훈위안(Hunyuan) 팀이 공식 버전의 ‘훈위안-T1(Hunyuan-T1)’ 모델을 출시했습니다. 이 모델은 올해 3월 초에 발표된 TurboS 빠른 사고 기반 모델을 토대로 하며, 세계 최초의 초대형 하이브리드 트랜스포머-맘바 MoE(Mixture of Experts) 모델이라는 타이틀을 갖고 있습니다.
훈위안-T1은 MoE(Mixture of Experts) 프레임워크와 맘바 아키텍처 구성 요소를 통합하여 텐센트가 설명하는 “대규모 AI 시스템에 상태 공간 모델을 무손실 통합”을 달성했습니다. 이 모델은 동적 전문가 라우팅을 통해 52억 개의 매개변수를 활성화하며, 각 전문 모듈은 수학적 논리나 컨텍스트 분석과 같은 특정 추론 영역을 처리합니다.
기존의 T1-preview 모델과 비교하여 훈위안-T1은 전반적인 성능이 크게 향상되었으며, 업계 최고 수준의 추론 능력을 갖춘 대형 모델로 자리매김했습니다.
이 혁신적인 아키텍처는 다음과 같은 특징을 가집니다:
- 적응형 계산 할당: 입력 복잡성에 따라 16개의 전문가 네트워크 간에 리소스가 동적으로 전환됩니다.
- 교차 레이어 어텐션(CLA): 계층적 어텐션 메커니즘을 통해 KV 캐시 작업에서 GPU 메모리 소비를 50% 줄입니다.
- FP8 양자화: 최적화된 수치 표현을 통해 추론 속도를 두 배로 높이면서 FP16 정밀도의 99.3%를 유지합니다.
훈위안-T1의 가장 큰 특징은 TurboS 기반의 맘바(Mamba) 아키텍처를 활용한다는 점입니다. 이는 긴 텍스트 정보를 효과적으로 처리하면서도 계산 리소스를 대폭 줄일 수 있게 해줍니다. 특히 맘바 아키텍처는 장문의 시퀀스 처리에 최적화되어 있어, 동일한 배포 조건에서 디코딩 속도가 기존 대비 2배 빠릅니다.
강화학습에 집중한 훈련 과정
텐센트는 모델의 후처리 단계에서 컴퓨팅 파워의 96.7%를 강화학습 훈련에 투자했습니다. 이는 순수 추론 능력을 높이고 인간의 선호도와의 정렬(alignment)을 최적화하는 데 초점을 맞춘 결과입니다.
훈련 데이터로는 수학, 논리적 추론, 과학, 코딩 등을 포함한 다양한 과학 및 추론 문제를 수집했습니다. 이러한 데이터셋은 기본적인 수학적 추론부터 복잡한 과학 문제 해결에 이르기까지 광범위한 영역을 다루고 있어, 모델이 다양한 추론 작업에서 뛰어난 성능을 발휘할 수 있도록 했습니다.
훈련 인프라
훈위안-T1의 훈련 과정은 4.8조 개의 다국어 토큰을 포함하며, 그중 중국어 콘텐츠가 코퍼스의 65%를 차지합니다. 주요 발전 사항은 다음과 같습니다:
- 256K 컨텍스트 윈도우: 계층적 청킹을 통해 『전쟁과 평화』(587,287단어)에 해당하는 문서를 한 번의 추론 단계에서 처리할 수 있습니다.
- 합성 데이터 증강: 적은 샷 학습 능력을 향상시키기 위해 8,200억 개의 시나리오별 훈련 쌍을 생성했습니다.
- 전문가별 학습률: 지식 희석을 방지하기 위해 전문가 모듈 전체에 걸쳐 3e-5에서 1e-4까지의 차등 학습률을 구현합니다.
훈련 계획 측면에서는 ‘커리큘럼 학습(curriculum learning)’ 접근 방식을 채택했습니다. 이는 데이터 난이도를 점진적으로 높이면서 모델의 컨텍스트 길이를 단계적으로 확장하는 방식으로, 모델이 추론 능력을 향상시키는 동시에 토큰을 효율적으로 사용하는 방법을 학습할 수 있게 해줍니다.
훈련 전략으로는 데이터 리플레이(data replay)와 주기적 정책 리셋(periodic policy resetting)과 같은 고전적인 강화학습 전략을 참조했습니다. 이로 인해 모델 훈련의 장기적 안정성이 50% 이상 향상되었습니다. 또한 인간 선호도와의 정렬 단계에서는 자체 보상 시스템(초기 버전의 T1-preview를 기반으로 모델 출력을 종합적으로 평가하고 점수를 매기는 시스템)과 보상 모드를 통합한 피드백 체계를 도입했습니다. 이로 인해 모델의 응답은 더 풍부한 내용과 더 효율적인 정보를 담게 되었습니다.
뛰어난 성능 지표로 증명된 효과

훈위안-T1은 거의 모든 벤치마크에서 DeepSeek R1과 GPT-4.5를 능가하는 성능을 보여줍니다. 이는 훈위안-T1이 언어 이해, 추론 및 문제 해결과 같은 작업에서 우수한 능력을 가지고 있음을 시사합니다. 위 그래프는 이러한 AI 모델들의 비교 강점을 시각적으로 보여주며, 이 평가에서 훈위안-T1의 선두 위치를 강조합니다.

종합 평가 지표 측면에서 훈위안-T1의 전반적인 성능은 최고 수준의 최첨단 추론 모델들과 견줄 만합니다. 종합 능력 평가에서 T1은 MMLU-PRO에서 O1에 이어 2위를 차지했으며, 87.2라는 높은 점수를 획득했습니다. 이 테스트는 인문학, 사회과학, 과학 및 공학 등 14개 분야의 질문을 다루며, 주로 모델의 광범위한 지식에 대한 기억력과 이해력을 테스트합니다.
또한 물리, 화학, 생물학 분야의 박사 수준의 난이도 높은 문제를 주로 포함하는 GPQA-diamond에서는 69.3 점수를 달성했습니다.
과학 및 공학 분야에서는 코딩, 수학, 논리적 추론과 같이 강한 추론 능력이 필요한 시나리오를 테스트했습니다. LiveCodeBench의 코드 평가에서 T1은 64.9 점수에 도달했습니다. 한편, 수학 분야에서도 T1은 뛰어난 성능을 보였는데, 특히 MATH-500에서 96.2라는 매우 우수한 점수를 달성하여 DeepSeek R1에 근접한 성과를 보였습니다. 이는 T1이 수학 문제 해결에 있어 종합적인 능력을 갖추고 있음을 보여줍니다.
이 외에도 T1은 다양한 정렬 작업, 지시 따르기 작업, 도구 활용 작업에서 매우 강한 적응력을 보여주었습니다. 예를 들어, ArenaHard 작업에서 T1은 91.9라는 점수를 달성했습니다.
훈위안-T1 접근 방법
아쉽게도 훈위안-T1은 기술적 발전에도 불구하고 중국 외 사용자들의 접근이 제한적인 상태입니다. 텐센트의 플랫폼은 주로 WeChat을 기반으로 하며 등록을 위해 중국 전화번호가 필요하기 때문에 국제 사용자들에게는 장벽이 있습니다. 하지만 관심 있는 사용자를 위해 접근 방법을 소개합니다:
텐센트 위안바오(Yuanbao) 플랫폼을 통한 접근:
- 텐센트 위안바오 플랫폼에 접속합니다. 이는 모바일 앱, 웹 버전 또는 데스크톱 애플리케이션(2025년 3월 1일부터 Windows 및 macOS 지원)으로 이용 가능합니다.
- 텐센트 계정으로 가입하거나 로그인합니다. 일부 기능은 지역별로 다르므로 중국 전화번호가 필요할 수 있습니다.
- 로그인 후 사용 가능한 모델 중에서 훈위안-T1을 선택합니다. 이 플랫폼을 통해 사용자는 훈위안-T1(깊은 추론용)과 훈위안 Turbo S(빠른 응답용)와 같은 모델 간에 전환할 수 있습니다.
- 2025년 2월 19일부터 훈위안-T1은 그레이스케일 테스트 단계를 거쳐 위안바오의 모든 사용자에게 무제한으로 개방되었습니다.
텐센트 클라우드를 통한 API 접근:
- www.tencentcloud.com에서 텐센트 클라우드 계정을 등록합니다.
- AI 또는 머신 러닝 섹션으로 이동하여 훈위안 모델을 찾습니다.
- 훈위안-T1에 대한 API 접근을 신청합니다. 텐센트는 1주일 무료 체험을 제공하며, 2025년 2월 기준으로 가격은 입력 토큰 백만 개당 약 0.8위안, 출력 토큰 백만 개당 2위안입니다.
- 제공된 문서를 사용하여 API를 애플리케이션에 통합합니다. 이는 프로그래밍 방식으로 훈위안-T1을 활용하려는 개발자나 기업에 이상적입니다.
기술적 의의와 미래 전망
훈위안-T1의 출시는 AI 모델 개발에 있어 몇 가지 중요한 의미를 갖습니다. 첫째, 맘바 아키텍처를 대규모 언어 모델에 성공적으로 통합함으로써 효율성과 성능 사이의 새로운 균형점을 제시했습니다. 둘째, 강화학습의 중요성을 다시 한번 확인시켜주었으며, 특히 커리큘럼 학습 접근 방식의 효과를 입증했습니다.
앞으로 AI 모델의 발전 방향은 단순한 크기 확장이 아닌, 아키텍처의 혁신과 훈련 방법론의 개선에 초점을 맞출 것으로 예상됩니다. 훈위안-T1과 같은 모델은 그 시작점이 될 것이며, 특히 계산 효율성과 추론 능력을 동시에 향상시키는 방향으로 발전해 나갈 것입니다.
이러한 발전은 AI 경쟁에서도 중요한 의미를 갖습니다. GPT-4.5와 같은 서구의 선도적 모델들이 주도해 온 시장에서 중국의 기술 발전이 빠르게 이루어지고 있음을 보여줍니다. 특히 중국어 처리에서 훈위안-T1의 뛰어난 성능은 다른 언어권에서의 AI 발전이 중요하다는 점을 상기시켜줍니다.
결론: 미래를 위한 준비
훈위안-T1은 텐센트가 AI 기술 발전에 대한 강한 의지와 능력을 보여주는 예시입니다. 그러나 현재로서는 접근성 문제로 인해 중국 외 사용자들에게는 제한적인 영향을 미치고 있습니다. 텐센트가 이러한 접근성 문제를 해결한다면, 훈위안-T1은 더 포괄적이고 널리 채택되는 도구가 될 수 있는 잠재력을 가지고 있습니다.
중국의 AI 모델 개발이 글로벌 AI 경쟁에서 어떤 위치를 차지하게 될지 지켜보는 것은 흥미로울 것입니다. 특히 중국 모델들이 언어 장벽을 넘어 국제적인 접근성을 확대해 나간다면, AI 생태계는 더욱 다양해질 것입니다.
AI 기술에 관심 있는 독자라면 훈위안-T1의 발전을 지켜보는 것이 좋을 것 같습니다. 이 모델은 현재 데모를 통해 체험해볼 수 있으며, API를 통해 개발자들에게도 제공되고 있습니다. 다만 위에서 언급했듯이 접근에는 일부 제한이 있으니 참고하시기 바랍니다.
답글 남기기