Models & AlgorithmsEN

RAG Evaluation: Precision/Recall을 넘어서

"RAG가 잘 동작하는지 어떻게 알죠?" — Precision/Recall만으로는 부족합니다. Faithfulness, Relevance, Context Recall까지 측정해야 진짜 품질이 보입니다.

RAG Evaluation: Precision/Recall을 넘어서

RAG Evaluation: Precision/Recall을 넘어서

"RAG가 잘 동작하는지 어떻게 알죠?" — Precision/Recall만으로는 부족합니다. Faithfulness, Relevance, Context Recall까지 측정해야 진짜 품질이 보입니다.

왜 기존 메트릭으로 부족한가?

전통적인 IR(Information Retrieval) 메트릭:

메트릭측정 대상RAG에서의 한계
Precision@K상위 K개 중 관련 문서 비율답변 품질과 무관할 수 있음
Recall@K전체 관련 문서 중 검색된 비율Ground truth 필요, 현실적으로 힘듦
MRR첫 관련 문서 순위여러 문서 필요한 경우 무의미
🔒

이어서 읽으려면 로그인이 필요합니다

무료 회원가입으로 전체 콘텐츠를 확인하세요.

관련 포스트