LLM 추론 최적화 Part 2 — KV Cache 최적화
KV Cache 양자화(int8/int4), PCA 압축(KVTC), PagedAttention(vLLM). 실전 메모리 절감 코드와 시나리오별 설정 가이드.

LLM 추론 최적화 Part 2 — KV Cache 최적화
Part 1에서 Attention의 구조와 KV Cache의 동작 원리를 다뤘습니다. 이번 Part에서는 KV Cache 자체를 최적화하는 실전 기법들을 코드와 함께 살펴봅니다.
모델 가중치는 양자화로 줄여도, KV Cache는 fp16 그대로인 경우가 대부분입니다. 컨텍스트가 길어지면 KV Cache가 전체 VRAM의 절반 이상을 차지하는 것도 흔한 일입니다. 이 문제를 해결하는 세 가지 접근법을 다룹니다.
1. KV Cache 양자화
원리
관련 포스트

AI Tools & Agents
스스로 진화하는 AI 에이전트 — 2026년의 새로운 패러다임
GenericAgent, Evolver, Open Agents — 스스로 스킬을 만들고, 실행 경로를 기억하고, 실패에서 배우는 자가 진화 에이전트 3종 비교.

AI Tools & Agents
나만의 LLM Knowledge Base 구축하기 — Karpathy 스타일 지식 시스템
Obsidian + Claude Code로 영구적인 개인 지식 체계를 만드는 완전 가이드. 위키 + 메모리 두 축의 지식 시스템.

AI Tools & Agents
Karpathy의 CLAUDE.md가 48K 스타를 받은 이유 — 그리고 나만의 CLAUDE.md 작성법
마크다운 파일 하나로 AI 코딩 정확도를 65%에서 94%로. Karpathy의 4가지 규칙과 실전 작성법을 분석합니다.