AgentScope RAG + 메모리 아키텍처 — 지식 기반 에이전트 만들기
KnowledgeBase, 벡터 저장소(Qdrant/Milvus), ReMe 장기 메모리로 지식 기반 에이전트 구축.

AgentScope RAG + 메모리 아키텍처 — 지식 기반 에이전트 만들기
에이전트가 도구를 쓰고, 파이프라인으로 협업하고, MCP로 외부 서비스를 연동하더라도 한 가지가 빠져 있습니다 — 지식입니다. 회사 문서를 읽지 못하는 에이전트는 매번 같은 질문에 "모르겠습니다"라고 답합니다.
이 글에서는 AgentScope의 RAG(검색 증강 생성) 시스템과 메모리 아키텍처를 다룹니다. 문서를 벡터화하고, 에이전트가 필요할 때 검색하고, 대화 맥락을 장기 기억으로 저장하는 방법을 구현합니다.
시리즈: Part 1: 시작하기 | Part 2: 멀티 에이전트 | Part 3: MCP 서버 연동 | Part 4 (이 글) | Part 5: 실시간 음성 에이전트 | Part 6: 프로덕션 배포
1. RAG 개요
관련 포스트

AI Engineering
LLM 추론 최적화 Part 4 — 프로덕션 서빙
vLLM과 TGI로 프로덕션 배포. Continuous Batching, Speculative Decoding, 메모리 버짓 설계, 처리량 벤치마크.

AI Engineering
LLM 추론 최적�� Part 3 — Sparse Attention 실전
Sliding Window, Sink Attention, DeepSeek DSA, IndexCache, Nvidia DMS. 동적 토큰 선별부터 Needle-in-Haystack 평가까지.

AI Engineering
LLM 추론 최적화 Part 2 — KV Cache 최적화
KV Cache 양자화(int8/int4), PCA 압축(KVTC), PagedAttention(vLLM). 실전 메모리 절감 코드와 시나리오별 설정 가이드.