Diffusion이 LLM을 대체한다? LLaDA 2.X 완전 해부
DDPM에서 LLaDA 2.1까지 -- Diffusion 기반 LLM의 모든 것. Masked Diffusion, Token Editing, MoE 스케일링을 4편의 시리즈로 완전 해부합니다.

Diffusion이 LLM을 대체한다? LLaDA 2.X 완전 해부
ChatGPT, Claude, Gemini — 지금 우리가 쓰는 모든 대형 언어 모델(LLM)은 하나의 원리 위에 세워져 있습니다. 바로 Autoregressive(AR) 생성: 왼쪽에서 오른쪽으로, 한 토큰씩, 다음 단어를 예측합니다.
이 방식은 놀라울 정도로 잘 작동합니다. 하지만 구조적 한계가 있습니다.
- 토큰을 순서대로 하나씩 뱉어야 하니 병렬 생성이 불가능합니다
- "A는 B다"를 알아도 "B는 A다"를 추론하지 못하는 Reversal Curse가 일어납니다
- 왼쪽에서 오른쪽으로만 보기 때문에, 오른쪽 context를 활용할 수 없습니다
그런데 만약 LLM을 Diffusion으로 만들면 어떨까요?
이미지 생성에서 Stable Diffusion과 DALL-E가 보여준 것처럼, 노이즈에서 시작해 점진적으로 깨끗한 결과물을 만들어내는 Diffusion 방식을 텍스트에도 적용할 수 있다면?
2025년 2월, 홍콩대/PKU 연구팀이 LLaDA(Large Language Diffusion with mAsking)를 발표하며 이 가능성을 현실로 만들었습니다. 그리고 2025년 말, Ant Group의 InclusionAI가 LLaDA 2.0으로 100B 파라미터까지 스케일링하고, 2026년 2월 LLaDA 2.1에서 Token Editing이라는 혁신으로 속도 문제를 해결했습니다.
이 시리즈는 Diffusion의 기초부터 LLaDA 2.1의 최신 기술까지, 4편에 걸쳐 완전히 해부합니다.
관련 포스트

InternVL-U: 4B 파라미터로 이해+생성+편집을 동시에 -- 통합 멀티모달의 새 기준
Shanghai AI Lab의 InternVL-U. 4B 파라미터 단일 모델로 이미지 이해, 생성, 편집, 추론 기반 생성을 모두 수행. 디커플드 비주얼 표현으로 14B BAGEL을 GenEval과 DPG-Bench에서 능가.

Hybrid Mamba-Transformer MoE: 세 팀이 동시에 도달한 같은 결론 -- 2026년 LLM 아키텍처의 수렴
NVIDIA Nemotron 3 Nano, Qwen 3.5, Mamba-3가 독립적으로 75% 선형 레이어 + 25% 어텐션 + MoE 구조에 수렴. 88% KV-cache 절감, O(n) 복잡도로 긴 컨텍스트 처리.

Spectrum: 학습 없이 Diffusion 모델 3~5배 빠르게 -- 체비셰프 다항식의 마법
Stanford/ByteDance의 CVPR 2026 논문. 체비셰프 다항식 기반 feature forecasting으로 FLUX.1 4.79배, HunyuanVideo 4.56배 스피드업. Training-free로 어떤 모델에도 즉시 적용.