AI ResearchEN

SAE Lens와 TensorLens: Feature Interpretability의 시대

뉴런은 해석 불가능하다. Sparse Autoencoder가 모델 내부의 monosemantic feature를 추출하고, TensorLens가 Transformer 전체를 하나의 텐서로 통합 분석하는 최신 interpretability를 정리한다.

SAE Lens와 TensorLens: Feature Interpretability의 시대

SAE Lens와 TensorLens: Feature Interpretability의 시대

지난 두 글에서 우리는:

  • Logit/Tuned Lens: 모델의 중간 예측을 읽었고
  • Activation Patching: 어떤 activation이 답의 원인인지 추적했습니다

하지만 여기서 근본적인 문제에 부딪힙니다:

우리가 조작하고 관찰하는 activation은 도대체 무엇을 "의미"하는가?

activation의 각 차원은 개별 뉴런에 대응합니다. 그런데 이 뉴런들은 polysemantic(다의적)합니다. 하나의 뉴런이 학술 인용, 영어 대화, HTTP 요청, 한국어 텍스트에 동시에 반응합니다. 뉴런 단위로는 깨끗한 해석이 불가능합니다.

이 글에서는 이 문제를 해결하는 두 가지 최신 접근법을 다룹니다:

  1. Sparse Autoencoder (SAE): dense activation을 sparse한 monosemantic feature로 분해
  2. TensorLens: Transformer 전체 계산을 하나의 high-order tensor로 통합 분석
🔒

이어서 읽으려면 로그인이 필요합니다

무료 회원가입으로 전체 콘텐츠를 확인하세요.

관련 포스트