AI ResearchEN

100B 파라미터도 가뿐하게! MoE와 Token Editing으로 AR 모델의 속도를 넘어서다

MoE 스케일링, Token Editing(T2T+M2T), S-Mode/Q-Mode, RL Framework -- LLaDA 2.X가 Diffusion LLM을 실용화하는 과정.

100B 파라미터도 가뿐하게! MoE와 Token Editing으로 AR 모델의 속도를 넘어서다

100B 파라미터도 가뿐하게! MoE와 Token Editing으로 AR 모델의 속도를 넘어서다

Part 3에서 LLaDA가 Masked Diffusion을 8B 스케일로 확장하며 "Diffusion LLM은 가능하다"를 증명했습니다. 하지만 실용적인 문제가 남아 있었습니다: 속도가 AR 모델에 비해 훨씬 느리고, RLHF 같은 정렬 학습이 부재했습니다.

2025년 11월 Ant Group의 InclusionAI가 LLaDA 2.0으로 이 간극을 좁히기 시작했고, 2026년 2월 LLaDA 2.1에서 Token Editing이라는 혁신으로 속도-품질 트레이드오프를 재정의했습니다.

이 글에서는 8B에서 100B로의 스케일링, MoE 아키텍처의 도입, 그리고 Token Editing의 작동 원리를 다룹니다.

LLaDA 2.0: 100B로의 도약

LLaDA 2.0은 두 가지 모델을 출시했습니다:

모델총 파라미터활성 파라미터레이어HeadsContextVocab
LLaDA 2.0-mini16B1.4B201632,768157,184
LLaDA 2.0-flash100B6.1B323232,768157,184

핵심 변화: MoE(Mixture of Experts) 도입.

원본 LLaDA 8B는 dense 모델이었습니다 -- 모든 파라미터가 매 입력에 대해 활성화됩니다. LLaDA 2.0은 MoE 구조를 채택해 총 파라미터는 크게 키우되, 실제 추론 시에는 소수의 expert만 활성화됩니다.

LLaDA 2.0-flash는 100B 파라미터 중 6.1B만 활성화됩니다. 이것은 Mixtral, DeepSeek 등 AR MoE 모델과 동일한 전략입니다: "모델의 전체 지식은 넓게 유지하되, 추론 비용은 낮게."

🔒

이어서 읽으려면 로그인이 필요합니다

무료 회원가입으로 전체 콘텐츠를 확인하세요.

관련 포스트