AI Research•February 11, 2026•EN

AI는 마음을 읽을 수 있을까? LLM의 상식과 인지 실패

Theory of Mind, Physical Common Sense, Working Memory — 텍스트만으로 학습한 LLM이 상식과 인지에서 어디서 실패하는지 실험합니다.

AI는 마음을 읽을 수 있을까? LLM의 상식과 인지 실패

AI는 마음을 읽을 수 있을까? LLM의 상식과 인지 실패

사람은 물건이 떨어지면 아래로 간다는 걸 압니다. 누군가가 방을 나간 사이 물건이 옮겨졌으면, 돌아온 사람이 원래 자리를 찾아볼 거라는 것도 압니다. 어제 배운 내용이 오늘 수정되면, 수정된 버전을 기억해야 한다는 것도요.

이 모든 건 몸으로 세상을 경험하면서 쌓은 지식입니다. LLM은 이런 경험 없이 텍스트만으로 학습합니다. 텍스트에 "공은 아래로 떨어진다"고 쓰여 있으니 그 문장은 알지만, 공을 실제로 떨어뜨려본 적은 없습니다.

이번 글에서는 LLM 추론 실패 시리즈의 세 번째 주제로, 상식과 인지 영역의 세 가지 테스트를 다룹니다.

Theory of Mind: 다른 사람의 믿음을 추적할 수 있는가
Physical Common Sense: 직관에 반하는 물리 현상을 이해하는가
Working Memory: 정보 업데이트를 정확히 추적하는가

7개 모델(GPT-4o, GPT-4o-mini, o3-mini, Claude Sonnet 4.5, Claude Haiku 4.5, Gemini 2.5 Flash, Gemini 2.5 Flash-Lite)을 대상으로 직접 실험한 결과입니다.

Theory of Mind: Sally-Anne에서 3rd-order belief까지

Theory of Mind이란

Theory of Mind(ToM)은 "다른 사람이 나와 다른 믿음을 가질 수 있다"는 것을 이해하는 능력입니다. 발달심리학에서 유명한 Sally-Anne 테스트가 대표적입니다.

Sally가 구슬을 바구니에 넣고 방을 나갑니다. Anne이 구슬을 상자로 옮깁니다. Sally가 돌아왔을 때, Sally는 어디를 먼저 찾을까요?

정답은 "바구니"입니다. Sally는 구슬이 옮겨진 걸 모르니까요. 4세 이상의 아이들은 대부분 이걸 맞춥니다.

기본 테스트: 대부분 통과

기본적인 Theory of Mind 테스트 4종을 돌려봤습니다.

🔒

이어서 읽으려면 로그인이 필요합니다

무료 회원가입으로 전체 콘텐츠를 확인하세요.

로그인 / 회원가입

관련 포스트

스스로 진화하는 AI 에이전트 — 2026년의 새로운 패러다임

AI Tools & Agents

스스로 진화하는 AI 에이전트 — 2026년의 새로운 패러다임

GenericAgent, Evolver, Open Agents — 스스로 스킬을 만들고, 실행 경로를 기억하고, 실패에서 배우는 자가 진화 에이전트 3종 비교.

나만의 LLM Knowledge Base 구축하기 — Karpathy 스타일 지식 시스템

AI Tools & Agents

나만의 LLM Knowledge Base 구축하기 — Karpathy 스타일 지식 시스템

Obsidian + Claude Code로 영구적인 개인 지식 체계를 만드는 완전 가이드. 위키 + 메모리 두 축의 지식 시스템.

Karpathy의 CLAUDE.md가 48K 스타를 받은 이유 — 그리고 나만의 CLAUDE.md 작성법

AI Tools & Agents

Karpathy의 CLAUDE.md가 48K 스타를 받은 이유 — 그리고 나만의 CLAUDE.md 작성법

마크다운 파일 하나로 AI 코딩 정확도를 65%에서 94%로. Karpathy의 4가지 규칙과 실전 작성법을 분석합니다.