TransformerLens 실전: Activation Patching으로 모델 회로를 읽다
TransformerLens로 모델의 내부 activation을 직접 조작하여, 어떤 layer와 head가 답을 만드는 원인인지 추적한다. Activation patching의 원리와 실전 코드를 다룬다.

TransformerLens 실전: Activation Patching으로 모델 회로를 읽다
지난 글에서 Lens는 모델의 중간 사고를 읽는 창이라고 했습니다.
하지만 "읽기"만으로는 핵심 질문에 답할 수 없습니다:
모델이 그 정보를 정말로 '사용'하고 있는가?
어떤 layer의 hidden state에 "Paris"라는 정보가 있다고 해서, 그 layer가 최종 답을 만드는 데 실제로 기여하는지는 알 수 없습니다. 정보가 있되 사용되지 않을 수도 있기 때문입니다.
관련 포스트

AI Research
Claude Sonnet 4.6: Opus급 성능, 40% 저렴 — 벤치마크 심층 분석
Claude Sonnet 4.6은 SWE-bench 79.6%, OSWorld 72.5%, GDPval-AA 1633 Elo로 실무 태스크에서 Opus 4.6과 동급이거나 우위. $3/$15 vs $5/$25. Adaptive Thinking, Context Compaction, OSWorld 성장 추이 분석.

AI Research
MiniMax M2.5: 1시간 1달러로 Opus급 성능을 쓰는 시대
MiniMax M2.5는 230B MoE 아키텍처에서 10B만 활성화하여 SWE-bench 80.2%를 달성합니다. Claude Opus의 1/20 가격에 동등한 코딩 성능. Forge RL 프레임워크, 벤치마크 분석, 가격 비교.

AI Research
역전파를 처음부터: Chain Rule, 계산 그래프, 위상 정렬
microgpt.py의 backward() 15줄이 작동하는 원리. 고등학교 미분부터 시작해 chain rule, 계산 그래프, 위상 정렬, 역전파까지 연결합니다.