Diffusion이 LLM을 대체한다? LLaDA 2.X 완전 해부

Diffusion이 LLM을 대체한다? LLaDA 2.X 완전 해부
ChatGPT, Claude, Gemini — 지금 우리가 쓰는 모든 대형 언어 모델(LLM)은 하나의 원리 위에 세워져 있습니다. 바로 Autoregressive(AR) 생성: 왼쪽에서 오른쪽으로, 한 토큰씩, 다음 단어를 예측합니다.
이 방식은 놀라울 정도로 잘 작동합니다. 하지만 구조적 한계가 있습니다.
- 토큰을 순서대로 하나씩 뱉어야 하니 병렬 생성이 불가능합니다
- "A는 B다"를 알아도 "B는 A다"를 추론하지 못하는 Reversal Curse가 일어납니다
- 왼쪽에서 오른쪽으로만 보기 때문에, 오른쪽 context를 활용할 수 없습니다
그런데 만약 LLM을 Diffusion으로 만들면 어떨까요?
이미지 생성에서 Stable Diffusion과 DALL-E가 보여준 것처럼, 노이즈에서 시작해 점진적으로 깨끗한 결과물을 만들어내는 Diffusion 방식을 텍스트에도 적용할 수 있다면?
2025년 2월, 홍콩대/PKU 연구팀이 LLaDA(Large Language Diffusion with mAsking)를 발표하며 이 가능성을 현실로 만들었습니다. 그리고 2025년 말, Ant Group의 InclusionAI가 LLaDA 2.0으로 100B 파라미터까지 스케일링하고, 2026년 2월 LLaDA 2.1에서 Token Editing이라는 혁신으로 속도 문제를 해결했습니다.
이 시리즈는 Diffusion의 기초부터 LLaDA 2.1의 최신 기술까지, 4편에 걸쳐 완전히 해부합니다.
왜 Diffusion LLM인가?
Autoregressive 모델의 핵심 전제는 간단합니다: 텍스트는 왼쪽에서 오른쪽으로 생성된다.
P(x) = P(x_1) * P(x_2|x_1) * P(x_3|x_1,x_2) * ...
이 가정 덕에 학습이 단순하고, 스케일링도 깔끔합니다. 하지만 구조적 약점도 명확합니다.
속도 병목: 1000토큰을 생성하려면 1000번 순차적으로 모델을 호출해야 합니다. 각 단계마다 전체 context를 다시 처리합니다. KV-cache가 이를 완화하지만, 근본적으로 O(n) 순차 호출은 피할 수 없습니다.
단방향 의존성: 모델은 오직 왼쪽 context만 봅니다. "톰 크루즈의 어머니는 메리 리 파이퍼"를 학습해도, "메리 리 파이퍼의 아들은?"에 대답하기 어렵습니다. 이것이 Reversal Curse입니다.
수정 불가: AR 모델은 이미 생성한 토큰을 되돌아가서 고칠 수 없습니다. 실수를 발견해도 앞으로만 갈 수 있습니다.
Diffusion 모델은 이 세 가지를 모두 다르게 접근합니다.
- 모든 토큰을 동시에 생성하고 점진적으로 정제합니다 (병렬 생성)
- 양방향으로 context를 활용합니다 (Reversal Curse 완화)
- 여러 step에 걸쳐 결과를 수정합니다 (반복적 개선)
LLaDA 시리즈 타임라인
시리즈 개요
Part 1: Diffusion 기초 -- DDPM에서 Score Matching까지
이미지 생성에서 검증된 Diffusion의 핵심 원리를 다룹니다. Forward process(노이즈 추가)와 Reverse process(노이즈 제거), ELBO 학습 목표, Score matching과의 연결까지. 이 편을 읽고 나면 "Diffusion이 왜 작동하는지"를 수학적으로 이해할 수 있습니다.
핵심 키워드: DDPM, Forward/Reverse Process, ELBO, Score Function, SDE
Part 2: Discrete Diffusion -- 텍스트에 노이즈를 어떻게 추가하나
연속 공간의 Diffusion을 이산 토큰에 적용하는 방법을 다룹니다. D3PM의 Transition Matrix, Absorbing State가 BERT의 [MASK]와 만나는 지점, MDLM의 단순화까지. 이미지와 텍스트 사이의 간극을 어떻게 메우는지 설명합니다.
핵심 키워드: D3PM, Transition Matrix, Absorbing State, MDLM, Masked Diffusion
Part 3: LLaDA -- Masked Diffusion으로 8B LLM 만들기
LLaDA가 Masked Diffusion을 8B 스케일의 LLM으로 확장한 방법을 다룹니다. Variable masking ratio의 의미, In-Context Learning이 가능한 이유, Reversal Curse를 피하는 구조적 이점까지. LLaMA3 8B와의 직접 비교 결과를 분석합니다.
핵심 키워드: Variable Masking, ELBO Training, Scaling Law, Reversal Curse, In-Context Learning
Part 4: LLaDA 2.0 -> 2.1 -- MoE + Token Editing으로 100B 돌파
LLaDA 2.0의 MoE 확장과 LLaDA 2.1의 Token Editing 혁신을 다룹니다. T2T(Token-to-Token) + M2T(Mask-to-Token) 하이브리드, S-Mode/Q-Mode의 속도-품질 트레이드오프, Diffusion LLM을 위한 최초의 대규모 RL Framework까지.
핵심 키워드: MoE, CAP Decoding, Token Editing, T2T+M2T, S-Mode/Q-Mode, RL for dLLMs
벤치마크 스코어카드
LLaDA 2.0-flash (100B, 6.1B active) vs 주요 Autoregressive 모델:
주목할 점: 100B Diffusion 모델이 비슷한 크기의 AR 모델과 동등한 수준에 도달했습니다. "Diffusion LLM은 AR에 미치지 못한다"는 통념이 깨지고 있습니다.
LLaDA 2.1-flash의 속도:
AR vs Diffusion: 핵심 차이 요약
이 시리즈가 다루지 않는 것
- Stable Diffusion, DALL-E 등 이미지 Diffusion 모델의 상세한 아키텍처
- Autoregressive 모델의 최신 최적화 기법 (Speculative Decoding 등)
- LLaDA 이외의 Diffusion LLM (PLAID, Diffusion-LM 등)은 배경으로만 언급합니다
참고 문헌
- Ho, Jain, Abbeel. "Denoising Diffusion Probabilistic Models." NeurIPS 2020.
- Song et al. "Score-Based Generative Modeling through Stochastic Differential Equations." ICLR 2021.
- Austin et al. "Structured Denoising Diffusion Models in Discrete State-Spaces." NeurIPS 2021.
- Sahoo et al. "Simple and Effective Masked Diffusion Language Models." NeurIPS 2024.
- Nie et al. "Large Language Diffusion Models." arXiv:2502.09992, 2025.
- InclusionAI. "LLaDA 2.0 Technical Report." 2025.
- InclusionAI. "LLaDA 2.1: Speeding Up Text Diffusion via Token Editing." arXiv:2602.08676, 2026.