AI는 마음을 읽을 수 있을까? LLM의 상식과 인지 실패
Theory of Mind, Physical Common Sense, Working Memory — 텍스트만으로 학습한 LLM이 상식과 인지에서 어디서 실패하는지 실험합니다.

AI는 마음을 읽을 수 있을까? LLM의 상식과 인지 실패
사람은 물건이 떨어지면 아래로 간다는 걸 압니다. 누군가가 방을 나간 사이 물건이 옮겨졌으면, 돌아온 사람이 원래 자리를 찾아볼 거라는 것도 압니다. 어제 배운 내용이 오늘 수정되면, 수정된 버전을 기억해야 한다는 것도요.
이 모든 건 몸으로 세상을 경험하면서 쌓은 지식입니다. LLM은 이런 경험 없이 텍스트만으로 학습합니다. 텍스트에 "공은 아래로 떨어진다"고 쓰여 있으니 그 문장은 알지만, 공을 실제로 떨어뜨려본 적은 없습니다.
이번 글에서는 LLM 추론 실패 시리즈의 세 번째 주제로, 상식과 인지 영역의 세 가지 테스트를 다룹니다.
- Theory of Mind: 다른 사람의 믿음을 추적할 수 있는가
관련 포스트

파인튜닝 모델 평가부터 배포까지 — 실전 완결편
Perplexity, KoBEST, ROUGE-L로 모델 평가. merge_and_unload()로 어댑터 머지, GGUF 변환, vLLM/Ollama 배포. 과적합 방지, 데이터 품질, 하이퍼파라미터 가이드.

QLoRA + 한국어 — T4 한 장으로 7B 모델을 한국어 전문가로 만들기
QLoRA(4-bit NormalFloat + LoRA)로 T4 16GB에서 Qwen 2.5 7B 파인튜닝. 한국어 데이터셋 구축 가이드, NF4/Double Quantization/Paged Optimizer 원리, Wandb 모니터링.

LoRA 완전 정복 — 7B 모델을 노트북 하나로 파인튜닝하기
LoRA(Low-Rank Adaptation)의 원리부터 Qwen 2.5 7B 실습까지. 전체 파라미터의 0.18%만 학습해서 풀 파인튜닝의 98% 성능을 달성하는 방법. VRAM 130GB → 18GB로 86% 절감.