LLM 추론 최적화 Part 1 — Attention 메커니즘 해부
Self-Attention을 밑바닥부터 구현. MHA → GQA → MQA 진화를 코드로 비교. KV Cache 동작 원리와 Prefill vs Decode 분석.

LLM 추론 최적화 Part 1 — Attention 메커니즘 해부
LLM을 실제 서비스에 배포하면 가장 먼저 부딪히는 벽은 추론 속도와 메모리입니다. 모델이 아무리 좋아도 느리고 비싸면 쓸 수 없습니다. 이 시리즈에서는 LLM 추론의 핵심 병목을 하나씩 해부하고, 실전 최적화 기법을 코드와 함께 다룹니다.
Part 1에서는 모든 최적화의 출발점인 Attention 메커니즘을 밑바닥부터 구현하고, MHA → GQA → MQA의 진화를 코드로 직접 비교합니다.
Self-Attention — 처음부터 구현
기본 구조
관련 포스트

AI Engineering
LLM 추론 최적화 Part 4 — 프로덕션 서빙
vLLM과 TGI로 프로덕션 배포. Continuous Batching, Speculative Decoding, 메모리 버짓 설계, 처리량 벤치마크.

AI Engineering
LLM 추론 최적�� Part 3 — Sparse Attention 실전
Sliding Window, Sink Attention, DeepSeek DSA, IndexCache, Nvidia DMS. 동적 토큰 선별부터 Needle-in-Haystack 평가까지.

AI Engineering
LLM 추론 최적화 Part 2 — KV Cache 최적화
KV Cache 양자화(int8/int4), PCA 압축(KVTC), PagedAttention(vLLM). 실전 메모리 절감 코드와 시나리오별 설정 가이드.