LLM 추론 실패 Part 1: 구조적 한계 -- 스케일링으로 못 고친다

LLM이 실패하는 이유를 분석하는 시리즈의 첫 번째 편입니다. 이번 글에서는 모델을 아무리 키워도, 데이터를 아무리 더 줘도 해결되지 않는 구조적(fundamental) 한계 세 가지를 다룹니다.

Reversal Curse
Counting Failures
Compositional Reasoning Wall

이 실패들은 Transformer 아키텍처 자체에서 비롯됩니다. 프롬프트 엔지니어링이나 스케일링으로는 근본적으로 해결할 수 없습니다. Song, Han, Goodman (2025)의 서베이 논문을 바탕으로, 7개 모델을 직접 실험한 결과를 함께 정리합니다.

1. Reversal Curse

논문이 말하는 것

"A는 B다"를 학습한 모델이 "B는 A다"를 추론할 수 있을까? Song et al. (2025)는 이를 Reversal Curse라 부릅니다. Transformer의 next-token prediction(단방향 학습)은 "A → B" 방향의 가중치만 강화합니다. "B → A"는 별도로 학습하지 않으면 추론할 수 없습니다.

더 중요한 건, 이 문제가 Zipf의 법칙 때문에 스케일링으로 해결되지 않는다는 점입니다. 학습 데이터에서 "톰 크루즈의 어머니는 메리 리 파이퍼"라는 문장은 나올 수 있지만, "메리 리 파이퍼의 아들은 톰 크루즈"라는 문장은 훨씬 드뭅니다. 유명인의 이름이 주어일 때와 무명인의 이름이 주어일 때, 데이터 분포의 비대칭이 구조적으로 존재합니다.

모델	정방향	역방향	판정
GPT-4o	Mary Lee Pfeiffer	Tom Cruise	PASS
GPT-4o-mini	Mary Lee Pfeiffer	Tom Cruise	PASS
o3-mini	Mary Lee Pfeiffer	Tom Cruise	PASS
Claude Sonnet 4.5	Mary Lee Pfeiffer	Tom Cruise	PASS
Claude Haiku 4.5	Mary Lee Pfeiffer	"I don't have reliable information"	FAIL
Gemini 2.5 Flash	Mary Lee Pfeiffer	"Joaquin Phoenix"	FAIL
Gemini 2.5 Flash-Lite	Mary Lee Pfeiffer	"Michelle Pfeiffer"	FAIL

모델

정방향

역방향

판정

GPT-4o

Mary Lee Pfeiffer

Tom Cruise

PASS

GPT-4o-mini

Mary Lee Pfeiffer

Tom Cruise

PASS

o3-mini

Mary Lee Pfeiffer

Tom Cruise

PASS

Claude Sonnet 4.5

Mary Lee Pfeiffer

Tom Cruise

PASS

Claude Haiku 4.5

Mary Lee Pfeiffer

"I don't have reliable information"

FAIL

Gemini 2.5 Flash

Mary Lee Pfeiffer

"Joaquin Phoenix"

FAIL

Gemini 2.5 Flash-Lite

Mary Lee Pfeiffer

"Michelle Pfeiffer"

FAIL

LLM 추론 실패 Part 1: 구조적 한계 -- 스케일링으로 못 고친다