LLM 추론 실패 Part 1: 구조적 한계 -- 스케일링으로 못 고친다
Reversal Curse, Counting, Compositional Reasoning — Transformer 아키텍처에 뿌리를 둔 구조적 실패를 7개 모델로 실험합니다.

LLM 추론 실패 Part 1: 구조적 한계 -- 스케일링으로 못 고친다
LLM이 실패하는 이유를 분석하는 시리즈의 첫 번째 편입니다. 이번 글에서는 모델을 아무리 키워도, 데이터를 아무리 더 줘도 해결되지 않는 구조적(fundamental) 한계 세 가지를 다룹니다.
- Reversal Curse
- Counting Failures
- Compositional Reasoning Wall
이 실패들은 Transformer 아키텍처 자체에서 비롯됩니다. 프롬프트 엔지니어링이나 스케일링으로는 근본적으로 해결할 수 없습니다. Song, Han, Goodman (2025)의 서베이 논문을 바탕으로, 7개 모델을 직접 실험한 결과를 함께 정리합니다.
1. Reversal Curse
논문이 말하는 것
"A는 B다"를 학습한 모델이 "B는 A다"를 추론할 수 있을까? Song et al. (2025)는 이를 Reversal Curse라 부릅니다. Transformer의 next-token prediction(단방향 학습)은 "A → B" 방향의 가중치만 강화합니다. "B → A"는 별도로 학습하지 않으면 추론할 수 없습니다.
더 중요한 건, 이 문제가 Zipf의 법칙 때문에 스케일링으로 해결되지 않는다는 점입니다. 학습 데이터에서 "톰 크루즈의 어머니는 메리 리 파이퍼"라는 문장은 나올 수 있지만, "메리 리 파이퍼의 아들은 톰 크루즈"라는 문장은 훨씬 드뭅니다. 유명인의 이름이 주어일 때와 무명인의 이름이 주어일 때, 데이터 분포의 비대칭이 구조적으로 존재합니다.
관련 포스트

InternVL-U: 4B 파라미터로 이해+생성+편집을 동시에 -- 통합 멀티모달의 새 기준
Shanghai AI Lab의 InternVL-U. 4B 파라미터 단일 모델로 이미지 이해, 생성, 편집, 추론 기반 생성을 모두 수행. 디커플드 비주얼 표현으로 14B BAGEL을 GenEval과 DPG-Bench에서 능가.

Hybrid Mamba-Transformer MoE: 세 팀이 동시에 도달한 같은 결론 -- 2026년 LLM 아키텍처의 수렴
NVIDIA Nemotron 3 Nano, Qwen 3.5, Mamba-3가 독립적으로 75% 선형 레이어 + 25% 어텐션 + MoE 구조에 수렴. 88% KV-cache 절감, O(n) 복잡도로 긴 컨텍스트 처리.

Spectrum: 학습 없이 Diffusion 모델 3~5배 빠르게 -- 체비셰프 다항식의 마법
Stanford/ByteDance의 CVPR 2026 논문. 체비셰프 다항식 기반 feature forecasting으로 FLUX.1 4.79배, HunyuanVideo 4.56배 스피드업. Training-free로 어떤 모델에도 즉시 적용.