Diffusion이 LLM을 대체한다? LLaDA 2.X 완전 해부

ChatGPT, Claude, Gemini — 지금 우리가 쓰는 모든 대형 언어 모델(LLM)은 하나의 원리 위에 세워져 있습니다. 바로 Autoregressive(AR) 생성: 왼쪽에서 오른쪽으로, 한 토큰씩, 다음 단어를 예측합니다.

이 방식은 놀라울 정도로 잘 작동합니다. 하지만 구조적 한계가 있습니다.

토큰을 순서대로 하나씩 뱉어야 하니 병렬 생성이 불가능합니다
"A는 B다"를 알아도 "B는 A다"를 추론하지 못하는 Reversal Curse가 일어납니다
왼쪽에서 오른쪽으로만 보기 때문에, 오른쪽 context를 활용할 수 없습니다

그런데 만약 LLM을 Diffusion으로 만들면 어떨까요?

이미지 생성에서 Stable Diffusion과 DALL-E가 보여준 것처럼, 노이즈에서 시작해 점진적으로 깨끗한 결과물을 만들어내는 Diffusion 방식을 텍스트에도 적용할 수 있다면?

2025년 2월, 홍콩대/PKU 연구팀이 LLaDA(Large Language Diffusion with mAsking)를 발표하며 이 가능성을 현실로 만들었습니다. 그리고 2025년 말, Ant Group의 InclusionAI가 LLaDA 2.0으로 100B 파라미터까지 스케일링하고, 2026년 2월 LLaDA 2.1에서 Token Editing이라는 혁신으로 속도 문제를 해결했습니다.

이 시리즈는 Diffusion의 기초부터 LLaDA 2.1의 최신 기술까지, 4편에 걸쳐 완전히 해부합니다.

왜 Diffusion LLM인가?

Autoregressive 모델의 핵심 전제는 간단합니다: 텍스트는 왼쪽에서 오른쪽으로 생성된다.

P(x) = P(x_1) * P(x_2|x_1) * P(x_3|x_1,x_2) * ...

이 가정 덕에 학습이 단순하고, 스케일링도 깔끔합니다. 하지만 구조적 약점도 명확합니다.

속도 병목: 1000토큰을 생성하려면 1000번 순차적으로 모델을 호출해야 합니다. 각 단계마다 전체 context를 다시 처리합니다. KV-cache가 이를 완화하지만, 근본적으로 O(n) 순차 호출은 피할 수 없습니다.

단방향 의존성: 모델은 오직 왼쪽 context만 봅니다. "톰 크루즈의 어머니는 메리 리 파이퍼"를 학습해도, "메리 리 파이퍼의 아들은?"에 대답하기 어렵습니다. 이것이 Reversal Curse입니다.

수정 불가: AR 모델은 이미 생성한 토큰을 되돌아가서 고칠 수 없습니다. 실수를 발견해도 앞으로만 갈 수 있습니다.

Diffusion 모델은 이 세 가지를 모두 다르게 접근합니다.

모든 토큰을 동시에 생성하고 점진적으로 정제합니다 (병렬 생성)
양방향으로 context를 활용합니다 (Reversal Curse 완화)
여러 step에 걸쳐 결과를 수정합니다 (반복적 개선)

LLaDA 시리즈 타임라인

시리즈 개요

Part 1: Diffusion 기초 -- DDPM에서 Score Matching까지

이미지 생성에서 검증된 Diffusion의 핵심 원리를 다룹니다. Forward process(노이즈 추가)와 Reverse process(노이즈 제거), ELBO 학습 목표, Score matching과의 연결까지. 이 편을 읽고 나면 "Diffusion이 왜 작동하는지"를 수학적으로 이해할 수 있습니다.

핵심 키워드: DDPM, Forward/Reverse Process, ELBO, Score Function, SDE

Part 2: Discrete Diffusion -- 텍스트에 노이즈를 어떻게 추가하나

연속 공간의 Diffusion을 이산 토큰에 적용하는 방법을 다룹니다. D3PM의 Transition Matrix, Absorbing State가 BERT의 [MASK]와 만나는 지점, MDLM의 단순화까지. 이미지와 텍스트 사이의 간극을 어떻게 메우는지 설명합니다.

핵심 키워드: D3PM, Transition Matrix, Absorbing State, MDLM, Masked Diffusion

Part 3: LLaDA -- Masked Diffusion으로 8B LLM 만들기

LLaDA가 Masked Diffusion을 8B 스케일의 LLM으로 확장한 방법을 다룹니다. Variable masking ratio의 의미, In-Context Learning이 가능한 이유, Reversal Curse를 피하는 구조적 이점까지. LLaMA3 8B와의 직접 비교 결과를 분석합니다.

핵심 키워드: Variable Masking, ELBO Training, Scaling Law, Reversal Curse, In-Context Learning

Part 4: LLaDA 2.0 -> 2.1 -- MoE + Token Editing으로 100B 돌파

LLaDA 2.0의 MoE 확장과 LLaDA 2.1의 Token Editing 혁신을 다룹니다. T2T(Token-to-Token) + M2T(Mask-to-Token) 하이브리드, S-Mode/Q-Mode의 속도-품질 트레이드오프, Diffusion LLM을 위한 최초의 대규모 RL Framework까지.

핵심 키워드: MoE, CAP Decoding, Token Editing, T2T+M2T, S-Mode/Q-Mode, RL for dLLMs

벤치마크 스코어카드

LLaDA 2.0-flash (100B, 6.1B active) vs 주요 Autoregressive 모델:

주목할 점: 100B Diffusion 모델이 비슷한 크기의 AR 모델과 동등한 수준에 도달했습니다. "Diffusion LLM은 AR에 미치지 못한다"는 통념이 깨지고 있습니다.

LLaDA 2.1-flash의 속도:

AR vs Diffusion: 핵심 차이 요약

이 시리즈가 다루지 않는 것

Stable Diffusion, DALL-E 등 이미지 Diffusion 모델의 상세한 아키텍처
Autoregressive 모델의 최신 최적화 기법 (Speculative Decoding 등)
LLaDA 이외의 Diffusion LLM (PLAID, Diffusion-LM 등)은 배경으로만 언급합니다

참고 문헌

Ho, Jain, Abbeel. "Denoising Diffusion Probabilistic Models." NeurIPS 2020.
Song et al. "Score-Based Generative Modeling through Stochastic Differential Equations." ICLR 2021.
Austin et al. "Structured Denoising Diffusion Models in Discrete State-Spaces." NeurIPS 2021.
Sahoo et al. "Simple and Effective Masked Diffusion Language Models." NeurIPS 2024.
Nie et al. "Large Language Diffusion Models." arXiv:2502.09992, 2025.
InclusionAI. "LLaDA 2.0 Technical Report." 2025.
InclusionAI. "LLaDA 2.1: Speeding Up Text Diffusion via Token Editing." arXiv:2602.08676, 2026.