LLM 추론 최적화 Part 4 — 프로덕션 서빙
vLLM과 TGI로 프로덕션 배포. Continuous Batching, Speculative Decoding, 메모리 버짓 설계, 처리량 벤치마크.

LLM 추론 최적화 Part 4 — 프로덕션 서빙
시리즈의 마지막 Part입니다. Part 1~3에서 다룬 Attention 최적화, KV Cache 관리, Sparse Attention을 실제 프로덕션 환경에서 어떻게 조합하는지 다룹니다.
핵심 도구는 vLLM과 TGI (Text Generation Inference) 입니다. 이 두 엔진이 위에서 배운 최적화들을 어떻게 통합하는지, 실전 설정은 어떻게 하는지를 코드와 함께 살펴봅니다.
vLLM vs TGI — 한눈에 비교
| 특성 | vLLM | TGI (HuggingFace) |
|---|---|---|
| PagedAttention | 기본 지원 | 기본 지원 |
| Continuous Batching | 지원 | 지원 |
| Flash Attention | 지원 | 지원 |
| KV Cache 양자화 | FP8 지원 | 부분 지원 |
| 모델 양자화 | AWQ, GPTQ, Marlin | AWQ, GPTQ, EETQ |
| Speculative Decoding | 지원 | 지원 |
| Multi-GPU (Tensor Parallel) | 지원 | 지원 |
| API 호환성 | OpenAI 호환 | 자체 + OpenAI 호환 |
| 설치 난이도 | pip install | Docker 기반 |
관련 포스트

AI Tools & Agents
스스로 진화하는 AI 에이전트 — 2026년의 새로운 패러다임
GenericAgent, Evolver, Open Agents — 스스로 스킬을 만들고, 실행 경로를 기억하고, 실패에서 배우는 자가 진화 에이전트 3종 비교.

AI Tools & Agents
나만의 LLM Knowledge Base 구축하기 — Karpathy 스타일 지식 시스템
Obsidian + Claude Code로 영구적인 개인 지식 체계를 만드는 완전 가이드. 위키 + 메모리 두 축의 지식 시스템.

AI Tools & Agents
Karpathy의 CLAUDE.md가 48K 스타를 받은 이유 — 그리고 나만의 CLAUDE.md 작성법
마크다운 파일 하나로 AI 코딩 정확도를 65%에서 94%로. Karpathy의 4가지 규칙과 실전 작성법을 분석합니다.