LLM 추론 최적화 Part 4 — 프로덕션 서빙

시리즈의 마지막 Part입니다. Part 1~3에서 다룬 Attention 최적화, KV Cache 관리, Sparse Attention을 실제 프로덕션 환경에서 어떻게 조합하는지 다룹니다.

핵심 도구는 vLLM과 TGI (Text Generation Inference) 입니다. 이 두 엔진이 위에서 배운 최적화들을 어떻게 통합하는지, 실전 설정은 어떻게 하는지를 코드와 함께 살펴봅니다.

vLLM vs TGI — 한눈에 비교

특성	vLLM	TGI (HuggingFace)
PagedAttention	기본 지원	기본 지원
Continuous Batching	지원	지원
Flash Attention	지원	지원
KV Cache 양자화	FP8 지원	부분 지원
모델 양자화	AWQ, GPTQ, Marlin	AWQ, GPTQ, EETQ
Speculative Decoding	지원	지원
Multi-GPU (Tensor Parallel)	지원	지원
API 호환성	OpenAI 호환	자체 + OpenAI 호환
설치 난이도	pip install	Docker 기반

vLLM 실전 배포

기본 설정

python

from vllm import LLM, SamplingParams

llm = LLM(
    model="meta-llama/Llama-3.1-8B-Instruct",
    dtype="float16",

    # === 메모리 관리 ===
    gpu_memory_utilization=0.90,   # GPU 메모리의 90% 사용
    max_model_len=32768,            # 최대 컨텍스트 길이

    # === KV Cache 최적화 ===
    kv_cache_dtype="auto",          # "auto", "fp8_e5m2", "fp8_e4m3"
    # kv_cache_dtype="fp8_e5m2",    # FP8 KV Cache → 메모리 2x 절감

    # === 양자화 ===
    # quantization="awq",           # 모델 가중치 양자화

    # === 병렬화 ===
    tensor_parallel_size=1,         # GPU 수
)

params = SamplingParams(
    temperature=0.7,
    top_p=0.9,
    max_tokens=1024,
    stop=["<|eot_id|>"],
)

output = llm.generate("Explain quantum computing.", params)
print(output[0].outputs[0].text)

OpenAI 호환 API 서버

bash

# vLLM 서버 시작
python -m vllm.entrypoints.openai.api_server \
    --model meta-llama/Llama-3.1-8B-Instruct \
    --dtype float16 \
    --gpu-memory-utilization 0.9 \
    --max-model-len 32768 \
    --kv-cache-dtype fp8_e5m2 \
    --port 8000

LLM 추론 최적화 Part 4 — 프로덕션 서빙

LLM 추론 최적화 Part 4 — 프로덕션 서빙

vLLM vs TGI — 한눈에 비교

vLLM 실전 배포

기본 설정

OpenAI 호환 API 서버

이어서 읽으려면 로그인이 필요합니다

관련 포스트

스스로 진화하는 AI 에이전트 — 2026년의 새로운 패러다임

나만의 LLM Knowledge Base 구축하기 — Karpathy 스타일 지식 시스템

Karpathy의 CLAUDE.md가 48K 스타를 받은 이유 — 그리고 나만의 CLAUDE.md 작성법