LLM 추론 최적�� Part 3 — Sparse Attention 실전

LLM 추론 최적화 Part 3 — Sparse Attention 실전

Part 2에서 KV Cache 양자화, 압축, PagedAttention을 다뤘습니다. 이 기법들은 저장된 데이터를 줄이는 접근입니다. Part 3에서는 방향을 바꿔서 계산 자체를 줄이는 Sparse Attention을 다룹니다.

핵심 질문: "모든 토큰이 정말 필요한가?"

대부분의 경우, 답은 "아니오"입니다. 128K 컨텍스트에서 현재 토큰이 실제로 참조해야 하는 토큰은 전체의 5~20%에 불과합니다.

Full Attention의 문제

표준 Self-Attention은 현재 토큰이 모든 이전 토큰과 관계를 계산합니다.

python

import torch
import matplotlib.pyplot as plt
import numpy as np

def visualize_attention_pattern(seq_len=32):
    """Full Attention 패턴 시각화"""
    # Causal mask: 하삼각 행렬
    mask = torch.tril(torch.ones(seq_len, seq_len))

    fig, ax = plt.subplots(figsize=(8, 8))
    ax.imshow(mask, cmap='Blues', aspect='equal')
    ax.set_xlabel('Key Position')
    ax.set_ylabel('Query Position')
    ax.set_title(f'Full Causal Attention ({seq_len}×{seq_len})')

    # 계산량 표시
    total_ops = mask.sum().item()
    ax.text(seq_len//2, -2, f'Total attention pairs: {int(total_ops)}',
            ha='center', fontsize=11)

    plt.tight_layout()
    plt.savefig('full_attention_pattern.png', dpi=150)
    plt.show()

visualize_attention_pattern()

128K 시퀀스에서 Attention 쌍의 수: $128K \times 128K / 2 = 8.2B$ 연산입니다. 실제로는 대부분의 Attention 가중치가 0에 가깝습니다 — 소수의 "중요한" 토큰만 높은 가중치를 받습니다.

LLM 추론 최적�� Part 3 — Sparse Attention 실전

LLM 추론 최적화 Part 3 — Sparse Attention 실전

Full Attention의 문제

Sliding Window Attention

원리

이어서 읽으려면 로그인이 필요합니다

관련 포스트

스스로 진화하는 AI 에이전트 — 2026년의 새로운 패러다임

나만의 LLM Knowledge Base 구축하기 — Karpathy 스타일 지식 시스템

Karpathy의 CLAUDE.md가 48K 스타를 받은 이유 — 그리고 나만의 CLAUDE.md 작성법