Eval

Created2026-03-31|Updated2026-04-01|AI应用向

|Post Views:|Comments:

Ragas， TruLens。自动化评估流程，通过Faithfulness和Answer Relevancy两个指标，把回答准确率从60%提升到了85%。

自动评估环境构建

自动化，可构建

工具调用型评估环境

Verifiers框架
可验证正确性的任务
环境需要在每次工具调用后更新状态并反馈，环境要提供清晰错误信息。
环境层次化设计
并行执行

人机交互型评估环境

另一个LLM扮演人
最终检查数据库是否一致，在对话中是否输出关键信息

数据集设计

奖励

可观测性

加速问题诊断，支持持续优化，成本管理，支持持续学习（成功失败轨迹作为训练样本）
![[Pasted image 20260311201849.png]]

客服

1. Agent 工作流评价测试体系

通常采用基准测试（Benchmark Testing）结合黄金数据集（Golden Dataset）。

测试驱动验证： 在你的项目中，test/resources/ 目录下存在 chat_test_data.json 和 classifier_handler_test_cases.json。这就是典型的测试驱动做法。通过向工作流（如 pipeline/ 中的处理链或 ClassifierHandler）批量输入预设的 Query，对比程序的输出意图、提取实体以及最终大模型的回答是否符合 JSON 文件中的预期标准（Ground Truth）。
端到端评估框架： 行业内常借用 RAGAs 或 TruLens 的评价体系，评估“上下文相关性”、“内容忠实度”和“回答采纳率”。

2. 召回率（Recall Rate）测试

召回率专门用于衡量 Milvus (向量检索) 和 PostgreSQL (结构化检索) 的混合检索效果。

核心指标： 常用的指标是 Hit Rate @K（前 K 个召回结果中包含标准答案的比例）和 MRR（Mean Reciprocal Rank，标准答案首次出现的位置得分）。
测试流程：
1. 准备一批包含已知答案对应文档 ID (如特定的 ProductChunk ID) 的测试问题。
2. 投喂给检索组件。
3. 拦截检索阶段返回的 Top-K 结果集合。
4. 对比计算：如果标准文档 ID 出现在结果集合中，则记为命中。定期运行这一自动化测试来监测权重（如前文提到的 70/30 比例）调整后的召回率变化。

3. 耗时（Latency）分析与并发测试

在进线并发量激增（如大促期间）时，监控各节点的执行耗时是性能优化的核心。

代码级耗时监控 (AOP 切面)： 项目中存在 aop/LogAspect.java。通常通过 Spring AOP 拦截 Controller、Service 或特定 Pipeline 节点的执行，利用 System.currentTimeMillis() 计算并记录 Embedding、Milvus 检索、Text2SQL 推理、数据库执行等各个子阶段的耗时。
压力测试 (Stress Testing)： 使用 JMeter 或 Locust 等工具模拟高并发的自然语言请求（如 500 QPS）。
关注指标： 重点关注 P95 / P99 耗时（即 95%/99% 的请求在多少毫秒内完成）。通过压测可以直观暴露 Text2SQL 链路是否成为瓶颈，并验证项目中由 RedisCacheConfig.java 支撑的语义缓存命中率以及熔断降级策略是否按预期生效。

Author: gyx

Link: https://gyx47.github.io/eval/

Copyright Notice: All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.

AI 应用 Agent RAG LLM 复杂业务

Sponsor

alipay

Related Articles

agent 工作流

大规模系统设计

Comments