Agentic RAG 파이프라인 — 멀티스텝 검색의 프로덕션 적용
Plan-Retrieve-Evaluate-Synthesize 풀 파이프라인 구현. Vector + Web + SQL을 Tool로 통합하고, 환각 탐지와 소스 그라운딩으로 신뢰도를 확보합니다.

title: "Agentic RAG 파이프라인 — 멀티스텝 검색의 프로덕션 적용"
date: "2026-03-09"
series: "agentic-rag"
part: 3
tags: ["rag", "agent", "langgraph", "production", "grounding"]
Agentic RAG 파이프라인 — 멀티스텝 검색의 프로덕션 적용
Part 1에서 "어디서 검색할지", Part 2에서 "검색 결과가 좋은지" 해결했습니다. 하지만 현실의 질문은 한 번의 검색으로 끝나지 않습니다. "지난 분기 매출과 경쟁사 동향을 비교해서 전략을 제안해줘" 같은 복합 질문에는 계획 → 멀티스텝 검색 → 평가 → 합성이 모두 필요합니다. Part 3에서는 이 모든 것을 합쳐서 Plan-Retrieve-Evaluate-Synthesize 풀 파이프라인을 만듭니다.
시리즈: Part 1: Query Routing | Part 2: Self-RAG과 CRAG | Part 3 (이 글)
아키텍처 개요
Query → Plan → [Retrieve → Evaluate → (retry?)] × N → Synthesize → Ground → Answer관련 포스트

Models & Algorithms
TurboQuant 실전 — llama.cpp와 HuggingFace에서 KV Cache 압축하기
llama.cpp turbo3 빌드, HuggingFace 통합, 메모리 계산기, 최적 설정 가이드. 70B 모델 536K 컨텍스트 실현.

Models & Algorithms
TurboQuant 완전 해부 — Google의 KV Cache 극한 압축 알고리즘
PolarQuant + Lloyd-Max로 KV Cache를 3비트까지 압축. 리트레이닝 없이 4.6배 메모리 절약, 정확도 손실 제로.

AI Tools
AgentScope 프로덕션 배포 — Runtime, 모니터링, 스케일링
agentscope-runtime Docker 배포, OpenTelemetry 트레이싱, AgentScope Studio, RL 파인튜닝, 프로덕션 체크리스트.