Eval
Ragas, TruLens。自动化评估流程,通过Faithfulness和Answer Relevancy两个指标,把回答准确率从60%提升到了85%。
自动评估环境构建
自动化,可构建
工具调用型评估环境
Verifiers框架
可验证正确性的任务
环境需要在每次工具调用后更新状态并反馈,环境要提供清晰错误信息。
环境层次化设计
并行执行
人机交互型评估环境
另一个LLM扮演人
最终检查数据库是否一致,在对话中是否输出关键信息
数据集设计
奖励
可观测性
加速问题诊断,支持持续优化,成本管理,支持持续学习(成功失败轨迹作为训练样本)
![[Pasted image 20260311201849.png]]
客服
1. Agent 工作流评价测试体系
通常采用基准测试(Benchmark Testing)结合黄金数据集(Golden Dataset)。
- 测试驱动验证: 在你的项目中,
test/resources/目录下存在chat_test_data.json和classifier_handler_test_cases.json。这就是典型的测试驱动做法。通过向工作流(如pipeline/中的处理链或ClassifierHandler)批量输入预设的 Query,对比程序的输出意图、提取实体以及最终大模型的回答是否符合 JSON 文件中的预期标准(Ground Truth)。 - 端到端评估框架: 行业内常借用 RAGAs 或 TruLens 的评价体系,评估“上下文相关性”、“内容忠实度”和“回答采纳率”。
2. 召回率(Recall Rate)测试
召回率专门用于衡量 Milvus (向量检索) 和 PostgreSQL (结构化检索) 的混合检索效果。
- 核心指标: 常用的指标是 Hit Rate @K(前 K 个召回结果中包含标准答案的比例)和 MRR(Mean Reciprocal Rank,标准答案首次出现的位置得分)。
- 测试流程:
- 准备一批包含已知答案对应文档 ID (如特定的
ProductChunkID) 的测试问题。 - 投喂给检索组件。
- 拦截检索阶段返回的 Top-K 结果集合。
- 对比计算:如果标准文档 ID 出现在结果集合中,则记为命中。定期运行这一自动化测试来监测权重(如前文提到的 70/30 比例)调整后的召回率变化。
- 准备一批包含已知答案对应文档 ID (如特定的
3. 耗时(Latency)分析与并发测试
在进线并发量激增(如大促期间)时,监控各节点的执行耗时是性能优化的核心。
- 代码级耗时监控 (AOP 切面): 项目中存在
aop/LogAspect.java。通常通过 Spring AOP 拦截Controller、Service或特定 Pipeline 节点的执行,利用System.currentTimeMillis()计算并记录Embedding、Milvus 检索、Text2SQL 推理、数据库执行等各个子阶段的耗时。 - 压力测试 (Stress Testing): 使用 JMeter 或 Locust 等工具模拟高并发的自然语言请求(如 500 QPS)。
- 关注指标: 重点关注 P95 / P99 耗时(即 95%/99% 的请求在多少毫秒内完成)。通过压测可以直观暴露 Text2SQL 链路是否成为瓶颈,并验证项目中由
RedisCacheConfig.java支撑的语义缓存命中率以及熔断降级策略是否按预期生效。
All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.
Comments


