Diffusion LLM Part 2: Discrete Diffusion -- 텍스트에 노이즈를 어떻게 추가하나
D3PM, Transition Matrix, Absorbing State, MDLM -- 연속 Diffusion을 이산 토큰 세계로 옮기는 방법을 설명합니다.

Diffusion LLM Part 2: Discrete Diffusion -- 텍스트에 노이즈를 어떻게 추가하나
Part 1에서 우리는 연속 공간에서 작동하는 Diffusion의 원리를 살펴봤습니다. 이미지 픽셀에는 Gaussian 노이즈를 자연스럽게 더할 수 있지만, 텍스트 토큰은 이산(discrete) 데이터입니다. "hello"에 노이즈 0.3을 더하면 무엇이 될까요?
이 글에서는 Diffusion을 이산 공간으로 옮기는 방법을 다룹니다. D3PM의 Transition Matrix에서 시작해, MDLM의 Masked Diffusion까지 -- LLaDA의 직접적인 선조들입니다.
D3PM: 이산 공간의 Diffusion
Austin et al. (2021)은 D3PM(Discrete Denoising Diffusion Probabilistic Models)에서 핵심 질문을 제기합니다: Gaussian 노이즈를 더할 수 없는 이산 데이터에서 forward process를 어떻게 정의할 것인가?
답: Transition Matrix를 사용합니다.
연속 Diffusion에서 Gaussian 노이즈가 하는 역할을, 이산 Diffusion에서는 transition matrix Q_t가 대신합니다. 각 단계 t에서 토큰 x_{t-1}이 x_t로 바뀔 확률을 행렬로 정의합니다:
q(x_t | x_{t-1}) = Cat(x_t; p = x_{t-1} * Q_t)
여기서 Cat은 Categorical 분포이고, Q_t는 K x K 행렬입니다 (K는 vocabulary 크기). Q_t[i][j]는 토큰 i가 토큰 j로 바뀔 확률을 나타냅니다.
연속 Diffusion과의 대응 관계:
관련 포스트

LLM 추론 최적화 Part 4 — 프로덕션 서빙
vLLM과 TGI로 프로덕션 배포. Continuous Batching, Speculative Decoding, 메모리 버짓 설계, 처리량 벤치마크.

LLM 추론 최적�� Part 3 — Sparse Attention 실전
Sliding Window, Sink Attention, DeepSeek DSA, IndexCache, Nvidia DMS. 동적 토큰 선별부터 Needle-in-Haystack 평가까지.

LLM 추론 최적화 Part 2 — KV Cache 최적화
KV Cache 양자화(int8/int4), PCA 압축(KVTC), PagedAttention(vLLM). 실전 메모리 절감 코드와 시나리오별 설정 가이드.