RAG 评测框架实战:让召回和回答都可量化
没有评测就没有优化。本篇从指标设计到线上回流,讲清 RAG 产品如何持续迭代。
1. 常见问题
很多团队只看“主观感觉是否变好”,导致模型和检索策略频繁变更却无法证明收益,最终难以稳定上线。
2. 指标体系
- 检索层:Recall@k、MRR、上下文覆盖率。
- 生成层:事实一致性、引用命中率、回答完整度。
- 线上层:满意度评分、追问率、人工转接率。
3. 工程实现
构建离线评测集并固定版本,每次策略改动都跑自动评测。线上通过反馈按钮和日志事件将低分样本回流标注。
4. 结果
- 检索召回命中率提升 19%
- 低质量回答比例下降 31%
- 用户二次追问率下降 22%
5. 建议
先把评测数据闭环搭起来,再优化模型与提示词。否则很容易陷入“感觉在优化,实际上在回退”的状态。