2026-01-29 · AI 应用 · 阅读约 9 分钟

RAG 评测框架实战：让召回和回答都可量化

没有评测就没有优化。本篇从指标设计到线上回流，讲清 RAG 产品如何持续迭代。

1. 常见问题

很多团队只看“主观感觉是否变好”，导致模型和检索策略频繁变更却无法证明收益，最终难以稳定上线。

2. 指标体系

检索层：Recall@k、MRR、上下文覆盖率。
生成层：事实一致性、引用命中率、回答完整度。
线上层：满意度评分、追问率、人工转接率。

3. 工程实现

构建离线评测集并固定版本，每次策略改动都跑自动评测。线上通过反馈按钮和日志事件将低分样本回流标注。

4. 结果

检索召回命中率提升 19%
低质量回答比例下降 31%
用户二次追问率下降 22%

5. 建议

先把评测数据闭环搭起来，再优化模型与提示词。否则很容易陷入“感觉在优化，实际上在回退”的状态。

← 返回文章列表