LLM 추론 최적�� Part 3 — Sparse Attention 실전
Sliding Window, Sink Attention, DeepSeek DSA, IndexCache, Nvidia DMS. 동적 토큰 선별부터 Needle-in-Haystack 평가까지.

LLM 추론 최적화 Part 3 — Sparse Attention 실전
Part 2에서 KV Cache 양자화, 압축, PagedAttention을 다뤘습니다. 이 기법들은 저장된 데이터를 줄이는 접근입니다. Part 3에서는 방향을 바꿔서 계산 자체를 줄이는 Sparse Attention을 다룹니다.
핵심 질문: "모든 토큰이 정말 필요한가?"
대부분의 경우, 답은 "아니오"입니다. 128K 컨텍스트에서 현재 토큰이 실제로 참조해야 하는 토큰은 전체의 5~20%에 불과합니다.
Full Attention의 문제
관련 포스트

AI Engineering
LLM 추론 최적화 Part 4 — 프로덕션 서빙
vLLM과 TGI로 프로덕션 배포. Continuous Batching, Speculative Decoding, 메모리 버짓 설계, 처리량 벤치마크.

AI Engineering
LLM 추론 최적화 Part 2 — KV Cache 최적화
KV Cache 양자화(int8/int4), PCA 압축(KVTC), PagedAttention(vLLM). 실전 메모리 절감 코드와 시나리오별 설정 가이드.

AI Engineering
LLM 추론 최적화 Part 1 — Attention 메커니즘 해부
Self-Attention을 밑바닥부터 구현. MHA → GQA → MQA 진화를 코드로 비교. KV Cache 동작 원리와 Prefill vs Decode 분석.