Diffusion이 LLM을 대체한다? LLaDA 2.X 완전 해부
DDPM에서 LLaDA 2.1까지 -- Diffusion 기반 LLM의 모든 것. Masked Diffusion, Token Editing, MoE 스케일링을 4편의 시리즈로 완전 해부합니다.

Diffusion이 LLM을 대체한다? LLaDA 2.X 완전 해부
ChatGPT, Claude, Gemini — 지금 우리가 쓰는 모든 대형 언어 모델(LLM)은 하나의 원리 위에 세워져 있습니다. 바로 Autoregressive(AR) 생성: 왼쪽에서 오른쪽으로, 한 토큰씩, 다음 단어를 예측합니다.
이 방식은 놀라울 정도로 잘 작동합니다. 하지만 구조적 한계가 있습니다.
- 토큰을 순서대로 하나씩 뱉어야 하니 병렬 생성이 불가능합니다
- "A는 B다"를 알아도 "B는 A다"를 추론하지 못하는 Reversal Curse가 일어납니다
관련 포스트

Models & Algorithms
파인튜닝 모델 평가부터 배포까지 — 실전 완결편
Perplexity, KoBEST, ROUGE-L로 모델 평가. merge_and_unload()로 어댑터 머지, GGUF 변환, vLLM/Ollama 배포. 과적합 방지, 데이터 품질, 하이퍼파라미터 가이드.

Models & Algorithms
QLoRA + 한국어 — T4 한 장으로 7B 모델을 한국어 전문가로 만들기
QLoRA(4-bit NormalFloat + LoRA)로 T4 16GB에서 Qwen 2.5 7B 파인튜닝. 한국어 데이터셋 구축 가이드, NF4/Double Quantization/Paged Optimizer 원리, Wandb 모니터링.

Models & Algorithms
LoRA 완전 정복 — 7B 모델을 노트북 하나로 파인튜닝하기
LoRA(Low-Rank Adaptation)의 원리부터 Qwen 2.5 7B 실습까지. 전체 파라미터의 0.18%만 학습해서 풀 파인튜닝의 98% 성능을 달성하는 방법. VRAM 130GB → 18GB로 86% 절감.