企业校园网站建设手机制作app的软件免费
2026/1/9 0:16:51 网站建设 项目流程
企业校园网站建设,手机制作app的软件免费,网站建设 域名 数据库,中国互联网金融协会平台官网文章详细介绍了RAG系统的可观测性和评估方法#xff0c;提出检索与生成阶段的多种量化指标#xff0c;如忠实度、相关性等。通过科学评估#xff0c;企业可识别系统瓶颈并进行优化#xff0c;其中忠实度是防范幻觉的关键。文章强调检索质量决定系统上限#xff0c;并预告后…文章详细介绍了RAG系统的可观测性和评估方法提出检索与生成阶段的多种量化指标如忠实度、相关性等。通过科学评估企业可识别系统瓶颈并进行优化其中忠实度是防范幻觉的关键。文章强调检索质量决定系统上限并预告后续实战内容包括自动化评估流水线的构建。RAG的可观测性如何定量监测RAG系统在当前企业级 AI 应用中RAG系统已成为不可或缺的核心模块。通过将私有知识库与大语言模型LLM深度融合RAG 不仅显著提升了回答的准确性与专业性更在抑制模型幻觉、保障输出可信度方面扮演着关键角色。无论是企业知识库、智能客服、法律咨询助手还是金融合规审查、医疗辅助决策等高风险场景RAG 都是确保 AI 回答有据可依的第一道防线。回顾上文我们讲了RAG系统的基本组成然而一个常被忽视的问题是你的 RAG 系统表现到底好不好呢一、为什么评估 RAG 系统很重要很多团队在部署 RAG 后仅凭Vibe Check来判断系统好坏。这种方式在处理前几个测试案例时或许有效但一旦面对真实的生产流量你会发现自己陷入了无数的未知中用户问的问题是否都被正确理解检索到的文档是否真正相关生成的答案是否忠实于原文、没有编造系统在哪些场景下容易失效有效评估和优化基于 LLM 的 RAG 系统决定了你的系统是一个好看的Demo还是一个高度可用、值得信赖的 AI 产品。系统性地思考提前布局并建设评估体系是将 AI 应用真正推向生产环境的必经之路也是作者一直以来的理念。我们需要更严谨的方法和指标才能确保 LLM 应用真正达到最优性能。即建立一套系统性的RAG 可观测性体系。通过可量化、可追踪、可归因的指标持续监控系统运行状态并驱动迭代优化。二、 RAG 的评估指标RAG过程有两个主要环节需要进行评价检索阶段Retrieval与生成阶段Generation生产过程中如果想评价RAG系统表现最难的点是什么呢没有足够的人工数据集或参考答案。由于LLM 系统本质上是生成式的我们往往期待其做出更多创意性的回复。这意味着对于同一个问题可能存在无数种正确的表达方式我们无法通过简单的文本比对来判定对错。我们可以在开发期间建立有限多的人工数据黄金数据集进行测试但是在实际生产中面对海量且多变的真实用户查询没有足够的资源和时间去构建完善的数据集。所以在这里各位可以评估一下自己项目的系统将评估维度拆解为检索与生成两个阶段并根据企业内是否有足够资源建设标准数据集作为参照由此衍生出评价的四象限矩阵RAG 评价指标四象限矩阵附带企业中常用的评估维度各位可以参考酌情使用检索阶段 (Retrieval)上下文精确度Context Precision检索到的内容中真正有用的信息占比。上下文回忆率Context Recall衡量检索到的内容是否完整覆盖了回答问题所需的事实。MRR平均倒数排名关注第一个相关结果是否排在最前面。NDCG归一化折损累计增益全面评估整个排序列表的质量。生成阶段 (Generation)忠实度Faithfulness检查答案中的声明是否都能在上下文中找到依据。非常灵敏的幻觉监测指标。答案相关性Answer Relevancy评估答案是否直接针对用户问题不包含无关信息。答案正确性Answer Correctness将生成答案与标准答案进行语义和事实的双重对比。三. 什么是断言Assertion / Statement在具体讲每个评估指标之前先讲一下什么是断言。断言记作S是指从模型生成的回答中提取出来的原子事实或独立主张。为什么要提取断言呢模型生成的原始回答通常很长包含多个从句和复杂的逻辑。直接判断一整个段落是否忠实很难。因此我们利用 LLM 将长句拆解成一个个一句话只说一个事实的短句。举个例子原始回答RAG 系统通过结合检索与生成提高了准确性且适用于高风险场景。拆解后的断言s_1RAG 系统结合了检索与生成。拆解后的断言 s_2RAG 系统提高了准确性。拆解后的断言s_3RAG 系统适用于高风险场景。这些拆分出来的s_1、s_2、s_3就是断言。它们是可验证的最小单位。**断言在评估中有什么用呢**我们以测试忠实度为例为了计算忠实度Faithfulness系统会进行以下操作拆分把回答 a(q)拆成断言集合S*S*{*s*_1,s_2,...,*s_n*}核对逐个检查 S里的每个断言s_n.是否能从检索到的上下文 c(q)中找到证据原文支持。计数统计 S 中总共有多少个断言即 |S| 。统计其中有多少个断言是能被证明正确的记作 |V| 即 Verified。算分忠实度得分被证实的断言数总断言数通过这种方法可以精准地捕捉到模型是否夹带私货。如果一个回答有 10 个断言其中 8 个在文档里有2 个是模型原生的那么它的忠实度就是 0.8。这种量化方式比人工主观判断好或者不好要科学得多。四、 RAG 系统评估指标自洽性评估企业在推进 RAG 落地时面临的核心痛点在于当缺乏充足的人工标注数据集Ground Truth作为基准时如何科学、客观地量化系统的性能表现针对这一问题我们建议采用自洽性评估Self-contained或无需参考答案Reference-free的评价指标。这些指标不依赖人工编写的标准答案而是通过分析系统内部各环节的逻辑一致性来捕捉生成回答的质量。这也是 AI 系统从 Demo 阶段走向生产级过程中应对测试地狱的最佳实践。在此我们首先定义后续章节中使用的缩写: 用户输入的查询或问题。: 检索器检索到的上下文。: 模型生成的最终答案。: 从答案中提取的断言Assertions集合。1) 忠实度Faithfulness顾名思义忠实度衡量生成的回答 是否忠实于所检索到的上下文 。它通过检查答案中呈现的所有主张或信息判断其是否都能直接从检索到的上下文中推断出来。理想情况下高忠实度得分意味着生成的文本仅使用了检索文档中提供的信息而没有引入无关或虚构的细节从而有效避免幻觉。我们采用多步法来评估忠实度利用 LLM 将生成的回答拆解为若干独立的陈述每个陈述代表一个聚焦的断言。这种分解的目的是将冗长复杂的句子简化为更小、易于验证的逻辑单元。**步骤 1提取断言Extract assertions**给定问题及其生成的回答LLM 首先提取一组断言集合 其中每个断言 都是一个具体的主张。★**提示词示例**给定一个问题和回答请从回答的每一句话中提取一个或多个断言。 问题[在此插入问题] 回答[在此插入生成的回答]**步骤 2验证断言Verify assertions**对于 中的每个断言 LLM 评估其是否可以从上下文 中推断出来。这通过验证函数 来实现以确定该主张是否与检索上下文中的信息保持一致。★**提示词示例**请结合给定的上下文和以下陈述判断每个陈述是否得到了上下文中信息的支持。在得出结论是/否之前请先为每个陈述提供简要解释。最后按顺序给出每个陈述的最终结论请勿偏离指定的格式。 陈述 1[内容] … 陈述 n[内容]步骤 3计算忠实度得分完成所有断言的评估后即可计算忠实度得分 。该得分代表 中完全受上下文支持的陈述所占的比例。 若 代表受支持的陈述数量 为总陈述数则计算公式为高忠实度得分表明答案中的绝大多数或全部主张在上下文中都是可验证的这意味着答案与检索到的信息高度一致。2) 回答相关性Answer Relevance该指标衡量生成的回答 是否以有意义且完整的方式直接回应了用户的查询。需要注意的是该指标关注的是回答的切题程度而非其事实准确性。在评估回答相关性时我们旨在确认响应是否完全覆盖了用户的意图。因此它会惩罚那些虽然技术上正确但表述过于宽泛、部分离题或包含冗余信息的回答。工作原理最终的回答相关性AR得分为所有余弦相似度的平均值**步骤 1生成代理问题Proxy Questions**对于给定的回答 我们提示 LLM 生成一系列可能引出该回答的替代问题 。★**提示词示例**请为给定的回答反向生成一个对应的问题。 回答[在此插入生成的回答]步骤 2计算相似度得分获得原始问题 和生成的代理问题集 后利用嵌入模型Embeddings计算原始问题 与每个代理问题 之间的余弦相似度 。该相似度反映了代理问题与原始问题在语义上的接近程度。高 AR 得分表明生成的回答与原始问题高度契合因为它能匹配多种反映相同意图的问题变体。3) 上下文相关性Context Relevance该指标衡量检索到的上下文 对回答特定问题 的支撑程度。它旨在识别并惩罚上下文中包含的无关细节因为这些噪声可能会在生成阶段误导 LLM。评估方法步骤 1提取相关句子给定问题 及其对应的检索上下文 要求 LLM 仅识别出回答 所需的关键句子。这些句子构成了 的子集 。★提示词示例请从提供的上下文中提取有助于回答以下问题的相关句子。如果未找到相关内容或者你认为无法从给定上下文中回答该问题请返回短语信息不足。在提取句子时必须保持原文不得做任何修改。步骤 2计算上下文相关性得分提取子集 后上下文相关性CR得分计算为提取的句子数量与原始上下文中总句子数量的比率提取的句子数量上下文总句子数量高 CR 得分表示检索到的上下文中大部分内容都与问题直接相关低 CR 得分则表明检索模块存在优化空间返回了过多干扰信息。提示词驱动的灵活性以上三种指标均由提示词驱动这意味着你可以根据业务需求设计自定义提示词以捕捉对应用尤为重要的相关性、准确性或上下文特征。五、 RAG 系统评估指标显式评估方法需参考答案如果你拥有查询的标准答案Ground Truth可以使用以下显式方法进行更深度的对齐4) 回答正确性Answer Correctness该指标综合考虑两个关键维度生成答案与标准答案之间的语义相似度以及事实相似度。评价模型单元Critic LLM设立一个新的LLM单元通过对比生成答案与标准答案来确定事实层面的正确性。嵌入模型计算生成答案与标准答案的余弦相似度以确定语义层面的接近程度。事实正确性评估逻辑 分析回答中的每个陈述并将其归类为事实正确性得分计算公式TP真阳性同时存在于回答和标准答案中的陈述。FP假阳性存在于回答中但不在标准答案中的陈述。FN假阴性存在于标准答案中但在回答中被遗漏的相关陈述。5) 上下文召回率Context Recall利用评价模型衡量检索到的上下文与标准答案的一致程度。它通过分析标准答案中的每一句话核实是否都能在检索到的上下文中找到对应的信息支撑。6) 上下文精确率Context Precision衡量检索到的上下文Contexts中相关项是否被排在了较高的位置。它用于验证检索到的上下文对于得出最终答案的贡献质量即好钢是否用在了刀刃上。​最后我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包✅AI大模型学习路线图✅Agent行业报告✅100集大模型视频教程✅大模型书籍PDF✅DeepSeek教程✅AI产品经理入门资料完整的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】​​为什么说现在普通人就业/升职加薪的首选是AI大模型人工智能技术的爆发式增长正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议到全国两会关于AI产业发展的政策聚焦再到招聘会上排起的长队AI的热度已从技术领域渗透到就业市场的每一个角落。智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200%远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。​​资料包有什么①从入门到精通的全套视频教程⑤⑥包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图还有视频解说全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤ 这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频教程由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌​​​​如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】**​

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询