2026/4/6 3:35:36
网站建设
项目流程
网站优化计划,wordpress 数据库更新,登录器显的窗口网站怎么做,wordpress 图片重命名代码实现 基于 DeepEval 框架实现工单摘要质量的批量自动评估
一、代码核心目标与整体流程
基于 DeepEval 框架实现工单摘要质量的批量自动评估:对接自定义 OpenAI 兼容接口(34ku),读取 Excel 中的「原始工单对话+人工/模型生成的工单摘要」,通过 DeepEval 的 Summariza…代码实现 基于 DeepEval 框架实现工单摘要质量的批量自动评估一、代码核心目标与整体流程基于DeepEval框架实现工单摘要质量的批量自动评估:对接自定义 OpenAI 兼容接口(34ku),读取 Excel 中的「原始工单对话+人工/模型生成的工单摘要」,通过 DeepEval 的SummarizationMetric指标完成摘要质量打分,最终输出逐行评分、通过率、平均分等统计结果。整体执行流程:读取Excel(原始对话+摘要)→ 构建DeepEval测试用例 → 调用自定义LLM执行摘要评估 → 解析评分结果 → 统计/保存结果二、核心原理:摘要评估的底层逻辑(SummarizationMetric)DeepEval 的SummarizationMetric是基于LLM的自动评估指标,核心是让大模型充当“评委”,从「准确性、完整性、简洁性、流畅性」四个维度评判摘要质量,具体逻辑:构造评估Prompt:DeepEval 会