LLM 추론 실패 Part 2: 인지 편향 — 인간의 편향을 물려받다
Anchoring, Order Bias, Sycophancy, Confirmation Bias — RLHF와 편향된 학습 데이터에서 비롯되는 인지 편향을 실험합니다.

LLM 추론 실패 Part 2: 인지 편향 — 인간의 편향을 물려받다
LLM은 인간이 만든 텍스트로 학습합니다. 문제는, 인간의 편향까지 함께 물려받는다는 것입니다.
Part 1에서 Reversal Curse, 카운팅, Compositional Reasoning 등 아키텍처 자체의 구조적 한계를 다뤘습니다. 이번 Part 2에서는 견고성(Robustness) 문제를 다룹니다. 모델이 틀린 답을 내는 게 아니라, 질문 방식에 따라 답이 흔들리는 현상입니다.
구조적 한계는 모델을 키워도 해결되지 않습니다. 하지만 인지 편향은 다릅니다. 편향된 학습 데이터와 RLHF에서 비롯되므로, 원칙적으로는 개선 가능합니다. 문제는 현재 모든 모델에서 여전히 관찰된다는 점입니다.
7개 모델(GPT-4o, GPT-4o-mini, o3-mini, Claude Sonnet 4.5, Claude Haiku 4.5, Gemini 2.5 Flash, Gemini 2.5 Flash-Lite)을 대상으로 4가지 인지 편향을 실험했습니다.
관련 포스트

파인튜닝 모델 평가부터 배포까지 — 실전 완결편
Perplexity, KoBEST, ROUGE-L로 모델 평가. merge_and_unload()로 어댑터 머지, GGUF 변환, vLLM/Ollama 배포. 과적합 방지, 데이터 품질, 하이퍼파라미터 가이드.

QLoRA + 한국어 — T4 한 장으로 7B 모델을 한국어 전문가로 만들기
QLoRA(4-bit NormalFloat + LoRA)로 T4 16GB에서 Qwen 2.5 7B 파인튜닝. 한국어 데이터셋 구축 가이드, NF4/Double Quantization/Paged Optimizer 원리, Wandb 모니터링.

LoRA 완전 정복 — 7B 모델을 노트북 하나로 파인튜닝하기
LoRA(Low-Rank Adaptation)의 원리부터 Qwen 2.5 7B 실습까지. 전체 파라미터의 0.18%만 학습해서 풀 파인튜닝의 98% 성능을 달성하는 방법. VRAM 130GB → 18GB로 86% 절감.