Logit Lens에서 Tuned Lens까지: Transformer의 중간 사고를 읽는 법
LLM의 내부에서는 무슨 일이 벌어지고 있을까? Logit Lens와 Tuned Lens를 통해 Transformer가 layer마다 어떻게 답을 만들어가는지 직접 들여다본다.

Logit Lens에서 Tuned Lens까지: Transformer의 중간 사고를 읽는 법
대형 언어 모델(LLM)에게 "프랑스의 수도는?"이라고 물으면 "파리"라고 답합니다.
하지만 이 답은 어디서 만들어진 것일까요? 첫 번째 layer에서? 마지막 layer에서? 아니면 중간 어딘가에서 서서히 형성된 것일까요?
Mechanistic interpretability의 핵심 도구인 Lens 계열은 바로 이 질문에 답합니다. 모델의 중간 hidden state를 사람이 읽을 수 있는 형태로 "투영"하여, layer마다 모델이 무엇을 생각하고 있는지 직접 관찰하는 것입니다.
이 글에서는 가장 단순한 Logit Lens부터 학습 기반의 Tuned Lens까지, Transformer 내부를 읽는 방법의 발전 과정을 정리합니다.
1. Residual Stream: 정보의 고속도로
Lens를 이해하려면 먼저 Transformer의 구조를 다시 살펴볼 필요가 있습니다.
Transformer는 단순히 "layer를 쌓은 것"이 아닙니다. 핵심은 residual stream입니다.
각 layer의 attention과 MLP는 residual stream에 정보를 더하는 역할을 합니다. 즉, hidden state 은 이전 모든 layer의 기여가 누적된 결과입니다.
관련 포스트

InternVL-U: 4B 파라미터로 이해+생성+편집을 동시에 -- 통합 멀티모달의 새 기준
Shanghai AI Lab의 InternVL-U. 4B 파라미터 단일 모델로 이미지 이해, 생성, 편집, 추론 기반 생성을 모두 수행. 디커플드 비주얼 표현으로 14B BAGEL을 GenEval과 DPG-Bench에서 능가.

Hybrid Mamba-Transformer MoE: 세 팀이 동시에 도달한 같은 결론 -- 2026년 LLM 아키텍처의 수렴
NVIDIA Nemotron 3 Nano, Qwen 3.5, Mamba-3가 독립적으로 75% 선형 레이어 + 25% 어텐션 + MoE 구조에 수렴. 88% KV-cache 절감, O(n) 복잡도로 긴 컨텍스트 처리.

Spectrum: 학습 없이 Diffusion 모델 3~5배 빠르게 -- 체비셰프 다항식의 마법
Stanford/ByteDance의 CVPR 2026 논문. 체비셰프 다항식 기반 feature forecasting으로 FLUX.1 4.79배, HunyuanVideo 4.56배 스피드업. Training-free로 어떤 모델에도 즉시 적용.