AI는 마음을 읽을 수 있을까? LLM의 상식과 인지 실패

AI는 마음을 읽을 수 있을까? LLM의 상식과 인지 실패
사람은 물건이 떨어지면 아래로 간다는 걸 압니다. 누군가가 방을 나간 사이 물건이 옮겨졌으면, 돌아온 사람이 원래 자리를 찾아볼 거라는 것도 압니다. 어제 배운 내용이 오늘 수정되면, 수정된 버전을 기억해야 한다는 것도요.
이 모든 건 몸으로 세상을 경험하면서 쌓은 지식입니다. LLM은 이런 경험 없이 텍스트만으로 학습합니다. 텍스트에 "공은 아래로 떨어진다"고 쓰여 있으니 그 문장은 알지만, 공을 실제로 떨어뜨려본 적은 없습니다.
이번 글에서는 LLM 추론 실패 시리즈의 세 번째 주제로, 상식과 인지 영역의 세 가지 테스트를 다룹니다.
- Theory of Mind: 다른 사람의 믿음을 추적할 수 있는가
- Physical Common Sense: 직관에 반하는 물리 현상을 이해하는가
- Working Memory: 정보 업데이트를 정확히 추적하는가
7개 모델(GPT-4o, GPT-4o-mini, o3-mini, Claude Sonnet 4.5, Claude Haiku 4.5, Gemini 2.5 Flash, Gemini 2.5 Flash-Lite)을 대상으로 직접 실험한 결과입니다.
Theory of Mind: Sally-Anne에서 3rd-order belief까지
Theory of Mind이란
Theory of Mind(ToM)은 "다른 사람이 나와 다른 믿음을 가질 수 있다"는 것을 이해하는 능력입니다. 발달심리학에서 유명한 Sally-Anne 테스트가 대표적입니다.
Sally가 구슬을 바구니에 넣고 방을 나갑니다. Anne이 구슬을 상자로 옮깁니다. Sally가 돌아왔을 때, Sally는 어디를 먼저 찾을까요?
정답은 "바구니"입니다. Sally는 구슬이 옮겨진 걸 모르니까요. 4세 이상의 아이들은 대부분 이걸 맞춥니다.
기본 테스트: 대부분 통과
기본적인 Theory of Mind 테스트 4종을 돌려봤습니다.
7개 모델 모두 Sally-Anne 테스트를 통과합니다. "투명 가방" 테스트도 마찬가지입니다. 라벨에 "초콜릿"이라고 써 있지만 투명 가방이라 팝콘이 보이는 상황에서, Sam이 뭘 믿는지 물으면 정확히 "팝콘"이라고 답합니다.
GPT-4o만 2nd-order belief 문제에서 실패했습니다. "Bob은 Alice가 어디를 찾을 거라고 생각하는가?"에서 Drawer B라고 답했는데, Alice는 이동 사실을 모르므로 정답은 Drawer A입니다.
난이도를 올리면: 3rd-order belief과 시간 뒤섞기
기본 테스트에서 거의 만점을 받으니, 난이도를 올렸습니다.
Alice가 반지를 Box 1에 넣고 떠납니다. Bob이 Box 2로 옮깁니다. Carol이 지켜보다가 Box 3으로 옮깁니다. Alice와 Bob은 Carol의 행동을 보지 못했습니다.
>
Carol은 Bob이 Alice가 어디를 찾을 거라고 생각한다고 생각할까요?
이건 3rd-order belief(third-order belief)입니다. Carol의 머릿속에서 Bob의 머릿속에서 Alice의 머릿속을 추론해야 합니다.
3rd-order belief 문제에서 GPT-4o-mini, o3-mini, Gemini 2.5 Flash가 실패합니다. GPT-4o-mini는 "Box 2"라고 답했는데, 이는 Carol이 아닌 Bob의 관점에서 대답한 것입니다. 재귀적인 믿음 추적에서 한 단계를 건너뛴 겁니다.
흥미로운 점은 시간 뒤섞기(temporal scramble) 테스트입니다. "Jenny가 부엌에 돌아와서 찬장에서 열쇠를 찾았다"로 시작하고, 그 다음에 "아침에 열쇠를 찬장에 두고 갔다" "룸메이트가 서랍으로 옮겼다"가 나옵니다. 시간 순서가 뒤섞여 있지만, 모든 모델이 정답("찬장")을 맞췄습니다. 첫 문장에 답이 직접 나와 있기 때문입니다.
왜 3차에서 무너지나
Transformer의 어텐션 메커니즘은 "A는 B를 안다"와 같은 명시적 관계를 잘 추적합니다. 하지만 "A는 B가 C를 안다고 생각한다"처럼 재귀가 깊어지면, 어텐션 헤드가 각 중첩 단계를 별도로 유지하기 어려워집니다.
기본 ToM에서 모델이 좋은 성과를 내는 이유 중 하나는 Sally-Anne 테스트가 학습 데이터에 수없이 포함되어 있기 때문이기도 합니다. 패턴 매칭으로 풀 수 있는 문제와 진짜 이해가 필요한 문제는 다릅니다.
Physical Common Sense: 풍선은 어느 방향으로 움직이나
텍스트로 물리를 배울 수 있을까
LLM은 텍스트에서 물리 법칙을 배웁니다. "진공에서 모든 물체는 같은 속도로 떨어진다"는 문장을 수천 번 봤을 겁니다. 하지만 직관에 반하는 물리 현상은 어떨까요?
5가지 Physical Common Sense 문제를 테스트했습니다.
테스트 1: 갈릴레오의 실험
10kg 볼링공과 1kg 테니스공을 진공에서 같은 높이에서 동시에 떨어뜨리면?
정답: 동시에 떨어집니다. 모든 모델이 맞췄습니다. 교과서에 너무 자주 나오는 문제입니다.
테스트 2: 뒤집은 물컵
물이 가득 찬 컵을 테이블 위에서 뒤집은 뒤 손을 빼면?
이 문제는 의외로 까다롭습니다. 실제로는 물이 쏟아집니다. 테이블 위에 뒤집어 놓고 손을 빼면 밀봉이 깨지면서 공기가 들어가기 때문입니다. 하지만 일부 모델은 "대기압 때문에 물이 그대로 있다"고 답했습니다. 이건 종이로 밀봉한 컵 실험과 혼동한 것입니다.
테스트 3: 전자레인지 얼음
얼음을 전자레인지에 10분 돌린 뒤 바로 냉동실에 넣으면, 물의 온도는 원래 얼음보다 높은가 낮은가?
정답: 높습니다. 10분이면 물이 상당히 뜨거워집니다. 냉동실에 넣는다고 즉시 얼지 않습니다.
테스트 4: 가속하는 차 안의 헬륨 풍선
닫힌 차 바닥에 헬륨 풍선이 묶여 있다. 차가 급가속하면 풍선은 어느 방향?
이것이 가장 반직관적인 문제입니다. 정답은 "앞으로"입니다.
차가 가속하면 차 안의 공기가 관성 때문에 뒤로 밀립니다. 공기가 뒤로 밀리면 앞쪽의 기압이 낮아지고, 헬륨 풍선은 밀도가 낮으니 부력 효과로 앞쪽으로 이동합니다. 일종의 "가상 중력장"에서의 부력입니다.
테스트 5: 그림자와 체중
그늘에 서면 체중이 줄어드나?
정답: 아닙니다. 체중은 중력에 의해 결정되며, 빛의 복사압(radiation pressure)은 무시할 수 있는 수준입니다.
모델별 종합 결과
전반적으로 잘 맞추지만, 모델마다 다른 문제에서 실수합니다. GPT-4o와 Claude Sonnet 4.5만 5/5를 기록했습니다.
패턴이 보이나요?
갈릴레오 실험이나 그림자 체중처럼 유명한 문제는 모두 맞춥니다. 인터넷에 관련 글이 넘쳐나니까요. 하지만 헬륨 풍선(GPT-4o-mini, Flash-Lite 실패)이나 뒤집은 물컵(Haiku 4.5, Flash 실패)처럼 직관에 반하면서 덜 유명한 문제에서 갈립니다.
이건 물리를 "이해"한 게 아니라 "암기"한 것입니다. 학습 데이터에 많이 등장하는 시나리오는 잘 풀고, 그렇지 않은 시나리오에서는 직관(사실은 편향)에 의존합니다.
Working Memory: 수정된 정보를 기억하는가
Proactive Interference란
인지심리학에서 "proactive interference"란 먼저 배운 정보가 나중에 배운 정보의 기억을 방해하는 현상입니다. 월요일에 A를 배우고 화요일에 B로 수정하면, 월요일의 A가 화요일의 B를 밀어내는 겁니다.
LLM도 같은 현상을 보일까요?
실험 설계
5개 팀에 프로젝트를 배정한 뒤, 2개를 수정합니다.
원래 배정:
- 월요일: Team Alpha → Project Mercury
- 화요일: Team Beta → Project Venus
- 수요일: Team Gamma → Project Earth
- 목요일: Team Delta → Project Mars
- 금요일: Team Epsilon → Project Jupiter
변경사항:
- 월요일: Team Alpha → Project Saturn (Mercury에서 변경)
- 수요일: Team Gamma → Project Neptune (Earth에서 변경)
그 다음 5가지 질문을 합니다:
- Team Alpha는 월요일에 어떤 프로젝트? (변경됨 → Saturn)
- Team Beta는 화요일에 어떤 프로젝트? (변경 안 됨 → Venus)
- Team Gamma는 수요일에 어떤 프로젝트? (변경됨 → Neptune)
- Team Epsilon은 금요일에 어떤 프로젝트? (변경 안 됨 → Jupiter)
- Project Mercury를 담당하는 팀은? (함정 → 없음)
5번이 핵심입니다. Mercury는 Saturn으로 교체되었으므로 더 이상 어떤 팀도 담당하지 않습니다. proactive interference이 작용하면 "Team Alpha"라고 답하게 됩니다.
결과
대부분의 모델이 5문제 모두 정답입니다. 유일하게 o3-mini가 간섭 함정에 걸렸습니다. "현재 Project Mercury를 담당하는 팀은 없습니다(No team currently works on Project Mercury)"라고 의미적으로는 맞게 답했지만, 명시적으로 "none"이라고 하지 않아 실패 처리되었습니다.
역설적이지만, 이것은 추론 모델의 특성이 드러난 사례입니다. o3-mini 같은 추론 모델은 내부적으로 더 긴 사고 과정을 거치면서 장황한 답변을 생성하는 경향이 있습니다. "none"이라는 한 단어면 충분한 질문에 완전한 문장으로 답하려다 오히려 strict evaluation 기준을 놓친 것입니다. 추론 능력이 높을수록 간결한 답변이 어려워지는 -- "너무 많이 생각하는" 실패 모드입니다.
이게 정말 쉬운 걸까?
이 실험에서 대부분의 모델이 통과한 이유는 컨텍스트 길이가 짧기 때문입니다. 5개 배정과 2개 수정은 모델의 컨텍스트 윈도우에서 아주 작은 부분만 차지합니다.
Song et al. 논문에서 지적하는 것은 이런 단순한 케이스가 아닙니다. 실전에서 문제가 되는 건:
- 컨텍스트가 수천 토큰 이상일 때
- 수정 사항이 원래 정보와 멀리 떨어져 있을 때
- 수정이 한두 번이 아니라 반복적으로 일어날 때
- 여러 사실이 서로 충돌하는 복잡한 상황
컨텍스트 윈도우가 크다고 해서 Working Memory이 좋은 건 아닙니다. 128K 토큰 윈도우는 128K 토큰의 텍스트를 "볼 수" 있다는 것이지, "기억한다"는 것이 아닙니다. 초반에 나온 정보와 후반에 나온 수정 사항 사이에서, 어텐션이 어디에 더 가중치를 두는지가 관건입니다.
논문의 진단: 텍스트만으로는 부족하다
Song et al.은 이 세 영역의 실패를 하나의 근본 원인으로 연결합니다: 체현된 경험(embodied experience)의 부재.
Theory of Mind의 경우, 사람은 "나도 저 상황이면 저기를 찾을 거야"라는 시뮬레이션을 머릿속에서 돌립니다. 다른 사람의 관점에 자신을 대입하는 거죠. LLM은 이 시뮬레이션 대신 텍스트 패턴 매칭으로 문제를 풀려고 합니다. "Sally가 방을 나갔다 → Sally는 모른다 → Sally는 원래 위치를 찾는다"라는 패턴을 학습한 것이지, Sally의 관점을 진짜로 시뮬레이션하는 것은 아닙니다.
Physical Common Sense도 마찬가지입니다. "물체를 놓으면 떨어진다"를 텍스트로 아는 것과 물체를 실제로 떨어뜨려본 경험은 다릅니다. 텍스트 기반 학습은 유명한 물리 사실을 잘 암기하지만, 학습 데이터에 드문 반직관적 시나리오에서는 일반화에 실패합니다.
Working Memory은 Transformer 아키텍처의 구조적 문제와도 연결됩니다. 셀프 어텐션은 모든 토큰 사이의 관계를 병렬로 계산하지만, "이 정보가 저 정보를 대체한다"는 시간적 우선순위를 명시적으로 인코딩하지 않습니다.
완화 전략
논문이 제안하는 접근법은 크게 세 가지입니다.
멀티모달 학습: 텍스트만이 아닌 비디오, 시뮬레이션, 로봇 경험 데이터를 포함시켜 체현된 지식을 학습시킵니다. MiniCPM-o나 GPT-4o 같은 옴니모달 모델이 이 방향입니다.
뉴로-심볼릭 추론: 깊은 재귀적 믿음 추적이나 물리 시뮬레이션처럼 패턴 매칭으로 안 되는 문제에 대해, 심볼릭 추론 모듈을 결합합니다. "Carol이 생각하는 Bob의 생각"을 논리적 구조로 분해해서 처리하는 방식입니다.
명시적 메모리 메커니즘: Working Memory 실패에 대해서는, 컨텍스트 내 정보의 시간적 우선순위를 명시적으로 관리하는 메모리 모듈이 연구되고 있습니다. RAG(Retrieval Augmented Generation)도 일종의 외부 메모리로 볼 수 있지만, 장기적으로는 모델 내부에 상태 관리 메커니즘이 필요합니다.
패턴 매칭과 이해의 간극
이 실험들이 보여주는 건 명확합니다.
LLM은 학습 데이터에 패턴으로 존재하는 문제는 잘 풀지만, 진짜 이해가 필요한 변형에서는 취약합니다. Sally-Anne은 통과하지만 3rd-order belief에서 무너집니다. 갈릴레오 실험은 맞추지만 헬륨 풍선에서 갈립니다. 짧은 컨텍스트의 사실 수정은 추적하지만, 실전의 복잡한 정보 업데이트에서는 간섭이 발생합니다.
이건 모델이 "나쁘다"는 뜻이 아닙니다. 오히려 현재 LLM이 어디까지 왔고, 어디서 한계에 부딪히는지를 정확히 보여줍니다. 이 한계를 아는 것이 LLM을 제대로 쓰는 첫걸음입니다.
시리즈 목차
- 개요: LLM이 정말 똑똑할까요? AI 추론 실패 완전 가이드
- Part 1: Structural Limitations -- Reversal Curse, Counting, Compositional Reasoning
- Part 2: Cognitive Biases -- Anchoring, Order Bias, Sycophancy, Confirmation Bias
- Part 3: Common Sense & Cognition -- Theory of Mind, Physical Common Sense, Working Memory (이 글)
- 노트북: 전체 실험 코드 (Jupyter Notebook)
참고 문헌: Song, P., Han, P., & Goodman, N. (2025). Large Language Model Reasoning Failures. Transactions on Machine Learning Research (TMLR), 2026.