BERT는 왜 생성 모델이 되지 못했나? LLaDA가 해결한 Variable Masking의 비밀
Variable Masking, Fisher Consistency, In-Context Learning, Reversal Curse -- LLaDA가 Diffusion으로 진짜 LLM을 만든 방법.

BERT는 왜 생성 모델이 되지 못했나? LLaDA가 해결한 Variable Masking의 비밀
Part 2에서 우리는 D3PM과 MDLM이 이산 공간에서 Diffusion을 정의하는 방법을 살펴봤습니다. [MASK] 토큰을 사용한 Absorbing State Diffusion이 텍스트에 가장 효과적이라는 것도 확인했습니다.
하지만 이전 연구들은 비교적 작은 규모에 머물러 있었습니다. "Diffusion으로 진짜 LLM을 만들 수 있는가?"라는 질문에 답한 것은 LLaDA(Large Language Diffusion with mAsking)입니다.
Nie et al. (2025)은 Masked Diffusion을 8B 파라미터까지 스케일링하고, LLaMA3 8B와 직접 비교하며, Diffusion LLM이 AR 모델의 핵심 능력 -- In-Context Learning, Instruction Following -- 을 갖출 수 있음을 보여줬습니다.
핵심 아이디어: Variable Masking Ratio
LLaDA의 가장 중요한 설계 결정은 variable masking ratio입니다.
BERT는 학습 시 입력의 15%를 고정적으로 마스킹합니다. 이 비율은 한 번 정하면 바뀌지 않습니다.
LLaDA는 학습 시 masking 비율을 0%에서 100% 사이에서 랜덤으로 뽑습니다. 어떤 배치에서는 5%만 마스킹하고, 어떤 배치에서는 95%를 마스킹합니다.
이것이 결정적으로 중요한 이유:
In-Context Learning: masking 비율이 매우 낮을 때 (예: 5%), 모델은 대부분의 토큰이 이미 보이는 상태에서 나머지를 예측합니다. 이것은 사실상 "주어진 context를 보고 빈칸을 채우는" 작업으로, In-Context Learning과 자연스럽게 연결됩니다.
관련 포스트

InternVL-U: 4B 파라미터로 이해+생성+편집을 동시에 -- 통합 멀티모달의 새 기준
Shanghai AI Lab의 InternVL-U. 4B 파라미터 단일 모델로 이미지 이해, 생성, 편집, 추론 기반 생성을 모두 수행. 디커플드 비주얼 표현으로 14B BAGEL을 GenEval과 DPG-Bench에서 능가.

Hybrid Mamba-Transformer MoE: 세 팀이 동시에 도달한 같은 결론 -- 2026년 LLM 아키텍처의 수렴
NVIDIA Nemotron 3 Nano, Qwen 3.5, Mamba-3가 독립적으로 75% 선형 레이어 + 25% 어텐션 + MoE 구조에 수렴. 88% KV-cache 절감, O(n) 복잡도로 긴 컨텍스트 처리.

Spectrum: 학습 없이 Diffusion 모델 3~5배 빠르게 -- 체비셰프 다항식의 마법
Stanford/ByteDance의 CVPR 2026 논문. 체비셰프 다항식 기반 feature forecasting으로 FLUX.1 4.79배, HunyuanVideo 4.56배 스피드업. Training-free로 어떤 모델에도 즉시 적용.