100B 파라미터도 가뿐하게! MoE와 Token Editing으로 AR 모델의 속도를 넘어서다

Part 3에서 LLaDA가 Masked Diffusion을 8B 스케일로 확장하며 "Diffusion LLM은 가능하다"를 증명했습니다. 하지만 실용적인 문제가 남아 있었습니다: 속도가 AR 모델에 비해 훨씬 느리고, RLHF 같은 정렬 학습이 부재했습니다.

2025년 11월 Ant Group의 InclusionAI가 LLaDA 2.0으로 이 간극을 좁히기 시작했고, 2026년 2월 LLaDA 2.1에서 Token Editing이라는 혁신으로 속도-품질 트레이드오프를 재정의했습니다.

이 글에서는 8B에서 100B로의 스케일링, MoE 아키텍처의 도입, 그리고 Token Editing의 작동 원리를 다룹니다.

LLaDA 2.0은 두 가지 모델을 출시했습니다:

모델	총 파라미터	활성 파라미터	레이어	Heads	Context	Vocab
LLaDA 2.0-mini	16B	1.4B	20	16	32,768	157,184
LLaDA 2.0-flash	100B	6.1B	32	32	32,768	157,184

핵심 변화: MoE(Mixture of Experts) 도입.

원본 LLaDA 8B는 dense 모델이었습니다 -- 모든 파라미터가 매 입력에 대해 활성화됩니다. LLaDA 2.0은 MoE 구조를 채택해 총 파라미터는 크게 키우되, 실제 추론 시에는 소수의 expert만 활성화됩니다.

LLaDA 2.0-flash는 100B 파라미터 중 6.1B만 활성화됩니다. 이것은 Mixtral, DeepSeek 등 AR MoE 모델과 동일한 전략입니다: "모델의 전체 지식은 넓게 유지하되, 추론 비용은 낮게."

MoE가 Diffusion 모델에 특히 잘 맞는 이유가 있습니다.

AR 모델에서 MoE: 각 토큰마다 라우터가 적합한 expert를 선택합니다. 순차적으로 토큰을 생성하므로, 매 step마다 1개 토큰에 대해 expert를 선택합니다.

Diffusion 모델에서 MoE: 전체 시퀀스의 모든 토큰이 동시에 처리됩니다. 한 denoising step에서 수천 개 토큰이 동시에 여러 expert에 분배되므로, expert 활용률(utilization)이 자연스럽게 높아집니다.

AR 모델에서는 배치 크기를 키워야 expert 활용률이 올라가지만, Diffusion 모델은 단일 입력에서도 시퀀스 내 다양한 토큰이 서로 다른 expert를 활성화하므로 효율적입니다.

관련 포스트