AI Research•February 6, 2026•EN

TransformerLens 실전: Activation Patching으로 모델 회로를 읽다

TransformerLens로 모델의 내부 activation을 직접 조작하여, 어떤 layer와 head가 답을 만드는 원인인지 추적한다. Activation patching의 원리와 실전 코드를 다룬다.

TransformerLens 실전: Activation Patching으로 모델 회로를 읽다

TransformerLens 실전: Activation Patching으로 모델 회로를 읽다

지난 글에서 Lens는 모델의 중간 사고를 읽는 창이라고 했습니다.

하지만 "읽기"만으로는 핵심 질문에 답할 수 없습니다:

모델이 그 정보를 정말로 '사용'하고 있는가?

어떤 layer의 hidden state에 "Paris"라는 정보가 있다고 해서, 그 layer가 최종 답을 만드는 데 실제로 기여하는지는 알 수 없습니다. 정보가 있되 사용되지 않을 수도 있기 때문입니다.

이를 확인하려면 visualization이 아니라 causal intervention이 필요합니다. 모델의 내부를 직접 조작하고, 출력이 어떻게 변하는지 관찰하는 것입니다.

1. TransformerLens: Interpretability의 수술 도구

TransformerLens는 Neel Nanda가 만든 mechanistic interpretability 라이브러리입니다. 핵심 기능은 Transformer의 모든 내부 activation에 hook을 걸어 읽고, 수정하고, 교체할 수 있다는 것입니다.

bash

pip install transformer_lens

HookedTransformer: Hook이 달린 모델

TransformerLens의 핵심 클래스는 HookedTransformer입니다. 일반 Transformer와 동일하게 동작하되, 모든 중요한 activation 지점에 HookPoint가 삽입되어 있습니다.

python

from transformer_lens import HookedTransformer

model = HookedTransformer.from_pretrained("gpt2-small")

Hook Point Map: 모든 관측 가능 지점

GPT-2 Small 기준으로, 각 layer마다 다음 hook point들이 있습니다:

Residual Stream:

🔒

이어서 읽으려면 로그인이 필요합니다

무료 회원가입으로 전체 콘텐츠를 확인하세요.

로그인 / 회원가입

관련 포스트

MIRAGE — 멀티모달 AI는 정말로 이미지를 "보고" 있을까?

MIRAGE — 멀티모달 AI는 정말로 이미지를 "보고" 있을까?

GPT-5.1, Gemini 3 Pro, Claude Opus 4.5가 이미지 없이도 벤치마크 점수의 70-80%를 유지. 3B 텍스트 전용 모델이 흉부 X-ray 벤치마크에서 모든 멀티모달 모델과 방사선과 전문의를 능가. 스탠포드 MIRAGE 논문 리뷰.

InternVL-U: 4B 파라미터로 이해+생성+편집을 동시에 -- 통합 멀티모달의 새 기준

InternVL-U: 4B 파라미터로 이해+생성+편집을 동시에 -- 통합 멀티모달의 새 기준

Shanghai AI Lab의 InternVL-U. 4B 파라미터 단일 모델로 이미지 이해, 생성, 편집, 추론 기반 생성을 모두 수행. 디커플드 비주얼 표현으로 14B BAGEL을 GenEval과 DPG-Bench에서 능가.

Hybrid Mamba-Transformer MoE: 세 팀이 동시에 도달한 같은 결론 -- 2026년 LLM 아키텍처의 수렴

Hybrid Mamba-Transformer MoE: 세 팀이 동시에 도달한 같은 결론 -- 2026년 LLM 아키텍처의 수렴

NVIDIA Nemotron 3 Nano, Qwen 3.5, Mamba-3가 독립적으로 75% 선형 레이어 + 25% 어텐션 + MoE 구조에 수렴. 88% KV-cache 절감, O(n) 복잡도로 긴 컨텍스트 처리.