Diffusion LLM Part 1: Diffusion 기초 -- DDPM에서 Score Matching까지
Forward/Reverse Process, ELBO, Simplified Loss, Score Function -- Diffusion 모델의 수학적 원리를 직관적으로 해부합니다.

Diffusion LLM Part 1: Diffusion 기초 -- DDPM에서 Score Matching까지
Diffusion 기반 언어 모델을 이해하려면, 먼저 Diffusion 모델 자체를 이해해야 합니다. 이 글에서는 이미지 생성에서 검증된 Diffusion의 핵심 원리를 다룹니다. 수학이 좀 나오지만, 직관적인 설명을 함께 달아두었으니 수식이 낯설어도 흐름을 따라갈 수 있습니다.
이 글은 Diffusion LLM 시리즈의 첫 번째 편입니다. 시리즈 개요는 Hub 글을 참고하세요.
Diffusion의 핵심 아이디어
Diffusion 모델의 아이디어는 놀랍도록 단순합니다.
- 깨끗한 데이터에 노이즈를 조금씩 추가해서 완전한 랜덤 노이즈로 만든다 (Forward Process)
- 그 반대 과정 -- 노이즈에서 깨끗한 데이터를 복원하는 법 -- 을 신경망으로 학습한다 (Reverse Process)
잉크 한 방울을 물에 떨어뜨리면 점차 퍼져서 균일한 색이 됩니다. Forward process는 이 확산 과정입니다. Reverse process는 균일한 색으로 퍼진 물에서 원래의 잉크 방울 모양을 복원하는 것입니다. 물리적으로는 불가능하지만, 신경망이 이 "시간 역행"을 학습할 수 있다는 것이 Diffusion 모델의 핵심 통찰입니다.
Forward Process: 노이즈 추가
Forward process는 원본 데이터 x_0에서 시작해 T 단계에 걸쳐 Gaussian 노이즈를 점진적으로 추가합니다.
관련 포스트

InternVL-U: 4B 파라미터로 이해+생성+편집을 동시에 -- 통합 멀티모달의 새 기준
Shanghai AI Lab의 InternVL-U. 4B 파라미터 단일 모델로 이미지 이해, 생성, 편집, 추론 기반 생성을 모두 수행. 디커플드 비주얼 표현으로 14B BAGEL을 GenEval과 DPG-Bench에서 능가.

Hybrid Mamba-Transformer MoE: 세 팀이 동시에 도달한 같은 결론 -- 2026년 LLM 아키텍처의 수렴
NVIDIA Nemotron 3 Nano, Qwen 3.5, Mamba-3가 독립적으로 75% 선형 레이어 + 25% 어텐션 + MoE 구조에 수렴. 88% KV-cache 절감, O(n) 복잡도로 긴 컨텍스트 처리.

Spectrum: 학습 없이 Diffusion 모델 3~5배 빠르게 -- 체비셰프 다항식의 마법
Stanford/ByteDance의 CVPR 2026 논문. 체비셰프 다항식 기반 feature forecasting으로 FLUX.1 4.79배, HunyuanVideo 4.56배 스피드업. Training-free로 어떤 모델에도 즉시 적용.