Ragas, TruLens。自动化评估流程,通过Faithfulness和Answer Relevancy两个指标,把回答准确率从60%提升到了85%。

自动评估环境构建

自动化,可构建

工具调用型评估环境

Verifiers框架
可验证正确性的任务
环境需要在每次工具调用后更新状态并反馈,环境要提供清晰错误信息。
环境层次化设计
并行执行

人机交互型评估环境

另一个LLM扮演人
最终检查数据库是否一致,在对话中是否输出关键信息

数据集设计

奖励

可观测性

加速问题诊断,支持持续优化,成本管理,支持持续学习(成功失败轨迹作为训练样本)
![[Pasted image 20260311201849.png]]

客服

1. Agent 工作流评价测试体系

通常采用基准测试(Benchmark Testing)结合黄金数据集(Golden Dataset)

  • 测试驱动验证: 在你的项目中,test/resources/ 目录下存在 chat_test_data.json 和 classifier_handler_test_cases.json。这就是典型的测试驱动做法。通过向工作流(如 pipeline/ 中的处理链或 ClassifierHandler)批量输入预设的 Query,对比程序的输出意图、提取实体以及最终大模型的回答是否符合 JSON 文件中的预期标准(Ground Truth)。
  • 端到端评估框架: 行业内常借用 RAGAs 或 TruLens 的评价体系,评估“上下文相关性”、“内容忠实度”和“回答采纳率”。

2. 召回率(Recall Rate)测试

召回率专门用于衡量 Milvus (向量检索) 和 PostgreSQL (结构化检索) 的混合检索效果。

  • 核心指标: 常用的指标是 Hit Rate @K(前 K 个召回结果中包含标准答案的比例)和 MRR(Mean Reciprocal Rank,标准答案首次出现的位置得分)。
  • 测试流程:
    1. 准备一批包含已知答案对应文档 ID (如特定的 ProductChunk ID) 的测试问题。
    2. 投喂给检索组件。
    3. 拦截检索阶段返回的 Top-K 结果集合。
    4. 对比计算:如果标准文档 ID 出现在结果集合中,则记为命中。定期运行这一自动化测试来监测权重(如前文提到的 70/30 比例)调整后的召回率变化。

3. 耗时(Latency)分析与并发测试

在进线并发量激增(如大促期间)时,监控各节点的执行耗时是性能优化的核心。

  • 代码级耗时监控 (AOP 切面): 项目中存在 aop/LogAspect.java。通常通过 Spring AOP 拦截 ControllerService 或特定 Pipeline 节点的执行,利用 System.currentTimeMillis() 计算并记录 EmbeddingMilvus 检索Text2SQL 推理数据库执行等各个子阶段的耗时。
  • 压力测试 (Stress Testing): 使用 JMeter 或 Locust 等工具模拟高并发的自然语言请求(如 500 QPS)。
  • 关注指标: 重点关注 P95 / P99 耗时(即 95%/99% 的请求在多少毫秒内完成)。通过压测可以直观暴露 Text2SQL 链路是否成为瓶颈,并验证项目中由 RedisCacheConfig.java 支撑的语义缓存命中率以及熔断降级策略是否按预期生效。