BERT는 왜 생성 모델이 되지 못했나? LLaDA가 해결한 Variable Masking의 비밀

BERT는 왜 생성 모델이 되지 못했나? LLaDA가 해결한 Variable Masking의 비밀
Part 2에서 우리는 D3PM과 MDLM이 이산 공간에서 Diffusion을 정의하는 방법을 살펴봤습니다. [MASK] 토큰을 사용한 Absorbing State Diffusion이 텍스트에 가장 효과적이라는 것도 확인했습니다.
하지만 이전 연구들은 비교적 작은 규모에 머물러 있었습니다. "Diffusion으로 진짜 LLM을 만들 수 있는가?"라는 질문에 답한 것은 LLaDA(Large Language Diffusion with mAsking)입니다.
Nie et al. (2025)은 Masked Diffusion을 8B 파라미터까지 스케일링하고, LLaMA3 8B와 직접 비교하며, Diffusion LLM이 AR 모델의 핵심 능력 -- In-Context Learning, Instruction Following -- 을 갖출 수 있음을 보여줬습니다.
핵심 아이디어: Variable Masking Ratio
LLaDA의 가장 중요한 설계 결정은 variable masking ratio입니다.
BERT는 학습 시 입력의 15%를 고정적으로 마스킹합니다. 이 비율은 한 번 정하면 바뀌지 않습니다.
LLaDA는 학습 시 masking 비율을 0%에서 100% 사이에서 랜덤으로 뽑습니다. 어떤 배치에서는 5%만 마스킹하고, 어떤 배치에서는 95%를 마스킹합니다.
이것이 결정적으로 중요한 이유:
In-Context Learning: masking 비율이 매우 낮을 때 (예: 5%), 모델은 대부분의 토큰이 이미 보이는 상태에서 나머지를 예측합니다. 이것은 사실상 "주어진 context를 보고 빈칸을 채우는" 작업으로, In-Context Learning과 자연스럽게 연결됩니다.
Fisher Consistency: Variable masking ratio는 데이터 분포에 대한 Fisher consistency를 만족시킵니다. 이론적으로, 충분한 데이터와 모델 용량이 주어지면 실제 데이터 분포를 복원할 수 있음이 보장됩니다. BERT의 고정 비율에서는 이 보장이 없습니다.
Scaling 효과: 스케일링 실험에서 LLaDA는 AR 모델(ARM)과 거의 동일한 scaling law를 보여줍니다. 모델을 키우면 성능이 예측 가능하게 향상됩니다.
아키텍처
LLaDA 8B의 아키텍처는 의도적으로 단순합니다. Transformer의 구조를 거의 그대로 사용합니다.
주목할 차이점:
GQA 미사용: LLaMA3은 Grouped Query Attention을 사용해 KV-cache 효율을 높이지만, LLaDA는 full multi-head attention을 씁니다. Diffusion 모델은 KV-cache를 사용하지 않기 때문에 GQA가 필요 없습니다. 이것은 단순한 설계 차이가 아니라 구조적 이점입니다. AR 모델에서 KV-cache는 시퀀스 길이에 비례하여 GPU 메모리를 잡아먹습니다 -- context가 길어질수록 캐시가 커지고, 이것이 long-context 추론의 메모리 병목이 됩니다. LLaDA는 KV-cache 자체가 없으므로 시퀀스 길이에 따른 메모리 폭발이 발생하지 않습니다. 이것이 Diffusion 모델이 long-context에서 갖는 잠재적 이점 중 하나입니다.
FFN 크기 차이: LLaDA가 GQA 대신 full attention을 쓰면서 attention 파라미터가 더 많아지므로, 총 파라미터 수를 맞추기 위해 FFN dimension을 줄였습니다 (14336 -> 12288).
Mask Token: Vocabulary에 [MASK] 토큰(ID 126336)이 추가되어 있습니다. 이것이 Diffusion의 forward process에서 사용됩니다.
시간 임베딩 없음: 이미지 Diffusion 모델(U-Net 등)은 보통 timestep t를 별도의 임베딩으로 주입합니다. LLaDA는 이를 사용하지 않습니다. masking 비율 자체가 암묵적으로 시간 정보를 인코딩합니다 -- [MASK]가 많으면 초기 단계, 적으면 후기 단계.
학습 파이프라인
Pre-training: 2.3조(trillion) 토큰으로 사전 학습. 0.13M H800 GPU hours 소요. 학습 중 1.2T 토큰 시점에서 한 번 crash가 발생했고, learning rate를 4e-4에서 1e-4로 낮춰 해결.
SFT (Supervised Fine-Tuning): 사전 학습 이후, instruction-following 데이터로 fine-tuning. 이 단계에서 Semi-Autoregressive Remasking 전략을 적용합니다.
Semi-Autoregressive Remasking: 시퀀스를 여러 블록으로 나누고, 블록 단위로는 왼쪽에서 오른쪽으로 순차 생성하되, 각 블록 내에서는 Diffusion reverse process로 병렬 생성합니다.
[Block 1: Diffusion] -> [Block 2: Diffusion] -> [Block 3: Diffusion]
이 하이브리드 방식은 완전한 AR과 완전한 Diffusion의 중간 지점으로, 실용적인 trade-off를 제공합니다.
Variable Length 처리: 사전 학습 데이터의 1%는 길이를 [1, 4096] 범위에서 랜덤으로 설정합니다. 이를 통해 모델이 다양한 길이의 시퀀스를 처리하는 능력을 학습합니다.
Reversal Curse를 피할 수 있는가?
Part 1에서 언급한 Reversal Curse -- "A는 B다"를 학습했지만 "B는 A다"를 추론하지 못하는 현상 -- 는 AR 모델의 구조적 한계입니다.
LLaDA가 이 문제에서 자유로운 이유:
AR 모델: P(x) = P(x_1) * P(x_2|x_1) * ... 로 인해, "A -> B" 방향의 조건부 확률만 학습합니다. "B -> A"는 별도로 학습하지 않으면 알 수 없습니다.
LLaDA: 학습 시 시퀀스의 어디든 [MASK]가 될 수 있습니다. "A [MASK] B"에서 가운데를 예측하기도 하고, "[MASK] is B"에서 A를 예측하기도 하고, "A is [MASK]"에서 B를 예측하기도 합니다. 양방향의 관계가 자연스럽게 학습됩니다.
실제로 LLaDA 프로젝트 페이지에서는 Reversal Curse 데모를 보여줍니다. AR 모델이 실패하는 역방향 질문에서 LLaDA가 정답을 맞추는 사례를 제시합니다.
다만, 이것은 masking이 양방향 context를 제공하기 때문이지, Reversal Curse를 완전히 해결했다고 단정하기는 이릅니다. 양방향 context와 양방향 지식 추론은 다른 문제일 수 있습니다.
In-Context Learning
LLM의 가장 놀라운 능력 중 하나는 In-Context Learning(ICL)입니다. 별도의 fine-tuning 없이, prompt에 예시 몇 개를 넣어주면 새로운 태스크를 수행할 수 있는 능력입니다.
이것이 Diffusion 모델에서도 가능할까? LLaDA는 "그렇다"고 답합니다.
Variable masking ratio가 핵심입니다. 학습 중 masking 비율이 매우 낮을 때 (대부분의 토큰이 보이는 상태), 모델은 사실상 "주어진 context를 이해하고 나머지를 예측"하는 작업을 수행합니다. 이것이 ICL의 학습 메커니즘입니다.
실제로 LLaDA 8B는 여러 ICL 벤치마크에서 LLaMA3 8B와 비슷한 성능을 보여줍니다. 특히 few-shot 설정에서 경쟁력 있는 결과를 달성합니다.
이것은 중요한 발견입니다. ICL이 next-token prediction에 고유한 능력이 아니라, 충분한 스케일의 언어 모델이라면 학습 패러다임에 관계없이 획득할 수 있는 능력임을 시사합니다.
벤치마크 결과
LLaDA 8B vs LLaMA3 8B (자체 구축 AR baseline):
논문에서 강조하는 핵심 결과:
스케일링 비교: 10^18 에서 10^23 FLOPs 범위에서 LLaDA와 ARM의 스케일링 커브가 매우 유사합니다. Diffusion LLM도 AR과 동일한 스케일링 법칙을 따릅니다.
ICL 능력: AR 모델의 고유한 능력으로 여겨졌던 ICL이 Diffusion 모델에서도 나타납니다.
SFT 효과: Instruction following도 SFT를 통해 효과적으로 학습됩니다. Diffusion이라는 이유로 SFT가 안 되는 것이 아닙니다.
한계와 도전
LLaDA 논문이 인정하는 한계:
추론 속도: KV-cache 최적화가 없어 AR 모델보다 추론이 느립니다. 고정 context 길이, 여러 denoising step 필요. 이것이 LLaDA 2.0/2.1에서 해결하려는 핵심 과제입니다.
추론 하이퍼파라미터 민감성: Sampling step 수, remasking 전략 등에 따라 성능이 달라집니다. AR 모델은 temperature와 top-p 정도만 조절하면 되지만, Diffusion은 추가 하이퍼파라미터가 있습니다.
RL 미적용: 논문 시점에서 RLHF 등의 정렬 학습이 적용되지 않았습니다. Diffusion 모델을 위한 RL framework가 아직 연구 단계입니다 (이것도 LLaDA 2.1에서 해결됩니다).
FLOPs 제한: ARM과의 직접 비교가 10^23 FLOPs 미만으로 제한되었습니다. 더 큰 스케일에서의 비교는 미래 연구 과제입니다.
LLaDA의 의의
LLaDA가 증명한 것:
- Diffusion LLM은 AR 모델과 동일한 스케일링 법칙을 따른다
- ICL, Instruction Following 등 AR 모델의 핵심 능력이 Diffusion에서도 나타난다
- 양방향 context 활용으로 Reversal Curse 등의 구조적 문제를 완화할 수 있다
- Transformer를 거의 수정하지 않고도 Diffusion LLM을 구축할 수 있다
이것은 "LLM의 핵심 능력은 AR에 내재한 것인가?"라는 근본적 질문에 "아니다"라고 답합니다. 충분한 스케일과 올바른 학습 전략이 있으면, 생성 패러다임에 관계없이 강력한 언어 모델을 만들 수 있습니다.
Part 4에서는 이 가능성을 현실로 만드는 과정 -- LLaDA 2.0의 100B 스케일링과 LLaDA 2.1의 Token Editing 혁신 -- 을 다룹니다.
핵심 정리
참고 문헌
- Nie et al. "Large Language Diffusion Models." arXiv:2502.09992, 2025.
- Touvron et al. "LLaMA: Open and Efficient Foundation Language Models." arXiv:2302.13971, 2023.
- Sahoo et al. "Simple and Effective Masked Diffusion Language Models." NeurIPS 2024.
- Berglund et al. "The Reversal Curse: LLMs trained on 'A is B' fail to learn 'B is A'." ICLR 2024.