LLM 추론 실패 Part 2: 인지 편향 — 인간의 편향을 물려받다

LLM은 인간이 만든 텍스트로 학습합니다. 문제는, 인간의 편향까지 함께 물려받는다는 것입니다.

Part 1에서 Reversal Curse, 카운팅, Compositional Reasoning 등 아키텍처 자체의 구조적 한계를 다뤘습니다. 이번 Part 2에서는 견고성(Robustness) 문제를 다룹니다. 모델이 틀린 답을 내는 게 아니라, 질문 방식에 따라 답이 흔들리는 현상입니다.

구조적 한계는 모델을 키워도 해결되지 않습니다. 하지만 인지 편향은 다릅니다. 편향된 학습 데이터와 RLHF에서 비롯되므로, 원칙적으로는 개선 가능합니다. 문제는 현재 모든 모델에서 여전히 관찰된다는 점입니다.

7개 모델(GPT-4o, GPT-4o-mini, o3-mini, Claude Sonnet 4.5, Claude Haiku 4.5, Gemini 2.5 Flash, Gemini 2.5 Flash-Lite)을 대상으로 4가지 인지 편향을 실험했습니다.

1. Anchoring Bias

Anchoring Bias란?

처음 접한 숫자에 판단이 끌려가는 현상입니다. 인간 심리학에서 가장 잘 연구된 편향 중 하나입니다. 부동산 중개인이 먼저 비싼 매물을 보여주는 것, 협상에서 먼저 숫자를 제시하는 것 모두 Anchoring 효과를 노린 것입니다.

LLM에서도 같은 현상이 나타날까요?

LLM 추론 실패 Part 2: 인지 편향 — 인간의 편향을 물려받다

1. Anchoring Bias

Anchoring Bias란?

실험 설계

이어서 읽으려면 로그인이 필요합니다

관련 포스트

스스로 진화하는 AI 에이전트 — 2026년의 새로운 패러다임

나만의 LLM Knowledge Base 구축하기 — Karpathy 스타일 지식 시스템

Karpathy의 CLAUDE.md가 48K 스타를 받은 이유 — 그리고 나만의 CLAUDE.md 작성법