AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

OpenMythos – Claude Mythos 아키텍처를 재현한 오픈소스 순환 깊이 트랜스포머

OpenMythos는 공개된 연구 문헌만을 바탕으로 Claude Mythos 모델 아키텍처를 이론적으로 재구성한 커뮤니티 프로젝트다. Anthropic과 무관하며, 계산-적응형(compute-adaptive) 추론이 가능한 Recurrent-Depth Transformer(RDT) 구조를 PyTorch로 구현한다.

핵심 구조

OpenMythos는 세 단계로 구성된다:

단계역할
Prelude표준 트랜스포머 블록으로 입력 처리
Recurrent Blockmax_loop_iters까지 반복 실행되는 루프 블록. 추론 시 루프 횟수를 조절해 계산량을 조정
Coda최종 출력 변환

이 구조에서 n_loops 파라미터로 같은 가중치를 반복 통과시켜, 모델 크기를 고정한 채 사고 깊이를 늘릴 수 있다.

주요 설계 특징

  • 어텐션: MLA(Multi-head Latent Attention)와 GQA(Grouped Query Attention) 중 선택 가능
  • 피드포워드: 라우팅 전문가(routed experts) + 공유 전문가(shared experts)로 구성되는 스파스 MoE
  • 스펙트럼 반경 제약: Recurrent Block의 가중치 행렬 A의 스펙트럼 반경이 1 미만으로 유지되어야 안정성 보장

설치 및 사용

pip install open-mythos
from open_mythos.main import OpenMythos, MythosConfig

cfg = MythosConfig(
    vocab_size=1000, dim=256, n_heads=8,
    max_seq_len=128, max_loop_iters=4,
    n_experts=8, n_shared_experts=1, n_experts_per_tok=2,
    attn_type="mla",  # "gqa" 또는 "mla"
    n_kv_heads=8, kv_lora_rank=32, q_lora_rank=64,
    qk_rope_head_dim=16, qk_nope_head_dim=16, v_head_dim=16,
)
model = OpenMythos(cfg)
ids = torch.randint(0, cfg.vocab_size, (2, 16))
logits = model(ids, n_loops=4)  # 추론 시 루프 횟수 조절 가능

누구에게 유용한가

  • LLM 아키텍처 연구자: RDT 구조와 계산-적응형 추론 실험
  • AI 안전 연구자: 공개 구현체로 Anthropic 모델 아키텍처 가설 검증
  • 스파스 MoE, LoRA 조합 아키텍처를 직접 실험하고 싶은 개발자

주의 사항

이 프로젝트는 공개 자료에 기반한 추측성 구현이다. Anthropic의 실제 모델과 구조가 다를 수 있으며, Anthropic이 공식 인정하거나 지원하는 프로젝트가 아니다.

라이선스

MIT

관련 문서



AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)