Diffusion LLM Part 2: Discrete Diffusion -- 텍스트에 노이즈를 어떻게 추가하나

Part 1에서 우리는 연속 공간에서 작동하는 Diffusion의 원리를 살펴봤습니다. 이미지 픽셀에는 Gaussian 노이즈를 자연스럽게 더할 수 있지만, 텍스트 토큰은 이산(discrete) 데이터입니다. "hello"에 노이즈 0.3을 더하면 무엇이 될까요?

이 글에서는 Diffusion을 이산 공간으로 옮기는 방법을 다룹니다. D3PM의 Transition Matrix에서 시작해, MDLM의 Masked Diffusion까지 -- LLaDA의 직접적인 선조들입니다.

D3PM: 이산 공간의 Diffusion

Austin et al. (2021)은 D3PM(Discrete Denoising Diffusion Probabilistic Models)에서 핵심 질문을 제기합니다: Gaussian 노이즈를 더할 수 없는 이산 데이터에서 forward process를 어떻게 정의할 것인가?

답: Transition Matrix를 사용합니다.

연속 Diffusion에서 Gaussian 노이즈가 하는 역할을, 이산 Diffusion에서는 transition matrix Q_t가 대신합니다. 각 단계 t에서 토큰 x_{t-1}이 x_t로 바뀔 확률을 행렬로 정의합니다:

q(x_t | x_{t-1}) = Cat(x_t; p = x_{t-1} * Q_t)

여기서 Cat은 Categorical 분포이고, Q_t는 K x K 행렬입니다 (K는 vocabulary 크기). Q_t[i][j]는 토큰 i가 토큰 j로 바뀔 확률을 나타냅니다.

연속 Diffusion과의 대응 관계:

연속 Diffusion	이산 Diffusion
Gaussian 노이즈 추가	Transition Matrix 적용
x_t = sqrt(a) * x_0 + sqrt(1-a) * epsilon	q(x_t 가 x_{t-1}) = Cat(x_t; x_{t-1} Q_t)
최종 상태: N(0, I)	최종 상태: 균일 분포 또는 [MASK]
노이즈 예측	원본 토큰 예측

연속 Diffusion

이산 Diffusion

Gaussian 노이즈 추가

Transition Matrix 적용

x_t = sqrt(a) * x_0 + sqrt(1-a) * epsilon

q(x_t 가 x_{t-1}) = Cat(x_t; x_{t-1} Q_t)

최종 상태: N(0, I)

최종 상태: 균일 분포 또는 [MASK]

노이즈 예측

원본 토큰 예측

Diffusion LLM Part 2: Discrete Diffusion -- 텍스트에 노이즈를 어떻게 추가하나

Diffusion LLM Part 2: Discrete Diffusion -- 텍스트에 노이즈를 어떻게 추가하나

D3PM: 이산 공간의 Diffusion

Transition Matrix의 세 가지 선택

이어서 읽으려면 로그인이 필요합니다

관련 포스트

스스로 진화하는 AI 에이전트 — 2026년의 새로운 패러다임

나만의 LLM Knowledge Base 구축하기 — Karpathy 스타일 지식 시스템

Karpathy의 CLAUDE.md가 48K 스타를 받은 이유 — 그리고 나만의 CLAUDE.md 작성법