AI ResearchEN

Diffusion이 LLM을 대체한다? LLaDA 2.X 완전 해부

DDPM에서 LLaDA 2.1까지 -- Diffusion 기반 LLM의 모든 것. Masked Diffusion, Token Editing, MoE 스케일링을 4편의 시리즈로 완전 해부합니다.

Diffusion이 LLM을 대체한다? LLaDA 2.X 완전 해부

Diffusion이 LLM을 대체한다? LLaDA 2.X 완전 해부

ChatGPT, Claude, Gemini — 지금 우리가 쓰는 모든 대형 언어 모델(LLM)은 하나의 원리 위에 세워져 있습니다. 바로 Autoregressive(AR) 생성: 왼쪽에서 오른쪽으로, 한 토큰씩, 다음 단어를 예측합니다.

이 방식은 놀라울 정도로 잘 작동합니다. 하지만 구조적 한계가 있습니다.

  • 토큰을 순서대로 하나씩 뱉어야 하니 병렬 생성이 불가능합니다
  • "A는 B다"를 알아도 "B는 A다"를 추론하지 못하는 Reversal Curse가 일어납니다
  • 왼쪽에서 오른쪽으로만 보기 때문에, 오른쪽 context를 활용할 수 없습니다

그런데 만약 LLM을 Diffusion으로 만들면 어떨까요?

이미지 생성에서 Stable Diffusion과 DALL-E가 보여준 것처럼, 노이즈에서 시작해 점진적으로 깨끗한 결과물을 만들어내는 Diffusion 방식을 텍스트에도 적용할 수 있다면?

2025년 2월, 홍콩대/PKU 연구팀이 LLaDA(Large Language Diffusion with mAsking)를 발표하며 이 가능성을 현실로 만들었습니다. 그리고 2025년 말, Ant Group의 InclusionAI가 LLaDA 2.0으로 100B 파라미터까지 스케일링하고, 2026년 2월 LLaDA 2.1에서 Token Editing이라는 혁신으로 속도 문제를 해결했습니다.

이 시리즈는 Diffusion의 기초부터 LLaDA 2.1의 최신 기술까지, 4편에 걸쳐 완전히 해부합니다.

🔒

이어서 읽으려면 로그인이 필요합니다

무료 회원가입으로 전체 콘텐츠를 확인하세요.

관련 포스트