LLM 추론 최적�� Part 3 — Sparse Attention 실전
Sliding Window, Sink Attention, DeepSeek DSA, IndexCache, Nvidia DMS. 동적 토큰 선별부터 Needle-in-Haystack 평가까지.

LLM 추론 최적화 Part 3 — Sparse Attention 실전
Part 2에서 KV Cache 양자화, 압축, PagedAttention을 다뤘습니다. 이 기법들은 저장된 데이터를 줄이는 접근입니다. Part 3에서는 방향을 바꿔서 계산 자체를 줄이는 Sparse Attention을 다룹니다.
핵심 질문: "모든 토큰이 정말 필요한가?"
대부분의 경우, 답은 "아니오"입니다. 128K 컨텍스트에서 현재 토큰이 실제로 참조해야 하는 토큰은 전체의 5~20%에 불과합니다.
Full Attention의 문제
관련 포스트

AI Tools & Agents
스스로 진화하는 AI 에이전트 — 2026년의 새로운 패러다임
GenericAgent, Evolver, Open Agents — 스스로 스킬을 만들고, 실행 경로를 기억하고, 실패에서 배우는 자가 진화 에이전트 3종 비교.

AI Tools & Agents
나만의 LLM Knowledge Base 구축하기 — Karpathy 스타일 지식 시스템
Obsidian + Claude Code로 영구적인 개인 지식 체계를 만드는 완전 가이드. 위키 + 메모리 두 축의 지식 시스템.

AI Tools & Agents
Karpathy의 CLAUDE.md가 48K 스타를 받은 이유 — 그리고 나만의 CLAUDE.md 작성법
마크다운 파일 하나로 AI 코딩 정확도를 65%에서 94%로. Karpathy의 4가지 규칙과 실전 작성법을 분석합니다.