知名企业网站分析 比较评估网站建设是用自己的服务器
2026/1/12 15:36:36 网站建设 项目流程
知名企业网站分析 比较评估,网站建设是用自己的服务器,北京朝阳做网站,校园互动网站建设无数企业正在尝试使用检索增强生成#xff08;RAG#xff09;#xff0c;但在制作这些系统达到生产质量时普遍会感到失望。因为他们的RAG不仅运行效果差#xff0c;而且对于如何改进和如何进行后续的工作也感到十分的迷茫。 其实阻碍RAG系统的一个关键因素是语义不协调RAG但在制作这些系统达到生产质量时普遍会感到失望。因为他们的RAG不仅运行效果差而且对于如何改进和如何进行后续的工作也感到十分的迷茫。其实阻碍RAG系统的一个关键因素是语义不协调这是由于任务的预期含义、RAG的理解以及存储的底层知识之间的不一致。由于向量嵌入的底层技术是神奇的易变且极不透明因此难以诊断这种不协调使其成为生产化的重大障碍。本文的目标是揭示普通RAG失败的主要原因并提供具体策略和方法使您的RAG更接近生产阶段。在这篇文章中我们将区分理想形态的RAG的前景与普通RAG的现实解释语义不协调是如何产生的介绍如何判断和缓解语义不协调总结一些额外的高ROI策略使RAG更加接近生产质量注为简化问题我们将关注基于问答的文本示例但核心思想可以推广到其他用例为什么选用RAGRAG检索增强生成是一个目前正经历炒作周期的范式。它听起来很吸引人在本质上它是AI的搜索引擎。在GPT-3成为大热之后不久RAG开始流行。企业在构建LLM驱动的AI时面临的一个直接问题是像GPT这样的模型没有在它们特定的数据和领域上进行训练。所以LLM从业者很快发现当在提示中直接提供业务特定上下文如支持文档时GPT的表现出奇的好。这就为企业提供了一个不用进行微调模型的替代方案。对于RAG给它一个问题可能还有用户特定的信息它将返回最相关的上下文给GPT。虽然这在理论上听起来很棒但在实现生产级RAG时存在重大挑战我们将在接下来的部分中探讨。RAG是有前途的普通RAG只是开始RAG只是一个框架一个完美运作的RAG无论其后端如何都将为无数用例带来巨大的价值。如果你对RAG有所了解则可以跳过此节。传统RAG定义一个单步语义搜索引擎它将业务知识如支持文档存储在向量数据库中如Pinecone使用现成的嵌入模型。然后通过创建问题文本的向量嵌入并使用比较度量如余弦相似性来对最相关的前k个文档进行排名。一个向量嵌入模型接收任意字符串并返回一个固定维度的数学向量。流行的嵌入模型包括OpenAI的text-embedding-ada-002及其最新模型text-embedding-3-small。这些模型将文本块转换为约1500维的向量并且几乎没有人类理解的可解释性。向量是非常普遍且非常有用的工具因为可以将非定量的事物分解为丰富的维度数组并对它们进行定量比较。一些例子是(红、绿、蓝)颜色调色板是一个向量每个值介于0-255之间。通过行业标准如Barra可以将股票表示为一个向量量化其对经济因素如广泛增长、利率变化等的敏感度。像Netflix这样的平台可以将用户偏好分解为一个向量其中的组成部分可以表示类型和其他特征。余弦相似性可以说是在语义搜索中比较向量的默认度量标准它通过应用余弦到两个向量之间的点积角度来工作。余弦越接近1向量就越相似。也有其他衡量语义相似性的方法但通常这不是问题的关键所在我们将在文章中使用余弦相似性。但是这里必须强调的是像余弦相似性这样的向量比较度量是很难处理的因为它们没有绝对的意义——这些值完全取决于嵌入模型和涉及文本的上下文。假设你将一个问题与一个答案匹配得到了0.73的余弦相似性。这是一个好匹配吗我们提出一个问题“What is rain”并将其与三个相关性不同的文本进行比较。在下表中看到使用两个不同的OpenAI模型的余弦相似性的范围和解释有很大差异。对于第一个模型0.73表示完全不相关的匹配但是对于第二个模型0.73表示高度相关。这表明任何功能良好的RAG系统都需要校准对这些分数的理解。Text1 (definition): “Rain is the precipitation of water droplets from clouds, falling to the ground when they become too heavy to stay suspended in air.”Text2 (mentions rain): “The winds blowing moisture over the mountains are responsible for rain in Seattle.”Text3 (irrelevant info): “Stripe is a payments infrastructure business.”语义不协调造成问题传统的RAG的几个挑战可以归因于语义不协调和嵌入的解释性差。语义不协调是任务预期含义、RAG的理解以及存储的底层知识之间的不一致。可以大致说为“问题在语义上与它们的答案不一样”所以直接比较问题和你的原始知识库只会得到有限的结果。想象一个律师需要搜索成千上万的文档来寻找投资欺诈的证据。然后他提出了问题“有什么证据表明Bob进行了金融欺诈”与“Bob在3月14日购买了XYZ股票”其中隐含XYZ是竞争对手且3月14日是财报公布前一周基本上没有语义重叠但是在因果层面这两件事情是有联系的向量嵌入和余弦相似性是模糊的因为向量在完全捕捉任何给定陈述的语义内容方面有其固有的不完美。余弦相似性导致精确排名并不是必然的因为它隐含地假设每个维度都具有相同的重要性。使用余弦相似性进行语义搜索倾向于在方向上是正确的但本质上是模糊的。它可以很好地估计前20个结果但通常只靠它来可靠地排名最佳答案是有很多要求的。在互联网上训练的嵌入模型不理解你的业务和领域尤其是在喜欢造词的互联网时代Connect、Radar和Link等词在讨论不同产品时意义大相径庭语义不协调的来源是多重的并导致排名不可靠。诊断和缓解语义不协调在这个示例中将介绍如何诊断RAG中的完全语义不协调。我们还将介绍如何通过增加结构来提高性能的早期迹象。这个例子来自现实生活中的用例。1、我们假设一个电子商务初创公司正在建立一个内部使用的RAG它找到给定业务问题的最佳SQL表。下面是示例的设置其中我们events.purchase_flow产品流程中的详细原始用户事件aggregates.purchases汇总的表包含摘要分析2、然后创建了一些假设的问题进行评估IP地址对查看和购买的产品类型有什么影响本季度鞋类销售的整体趋势如何每小时的几秒钟内有不寻常的行为吗像新年这样的重大事件周围用户参与度如何变化3、生成了额外的元数据每个表的简要描述每个表独特回答的示例问题4、通过将我们的输入文本与“垃圾”进行比较来检查嘈杂的余弦相似性得分5、比较四种不同的检索策略看哪些文本类型与我们的输入“最语义相似”。策略1仅表结构策略2表结构 简要描述策略3表结构 简要描述 示例问题策略4仅示例问题我们比较了随机文本片段与每个问题以及原始表文本的余弦相似性下图为示例。我们发现对于垃圾输入的余弦相似性约在0.04-0.23之间这这有助于建立识别语义重叠弱到无的基线。四种策略的比较从下面的结果可以看出策略4将问题与示例问题进行比较具有最高的语义重叠和最佳排名。策略1和策略2的表现相似与噪声一致——也就是说业务问题与SQL表语句之间存在弱的或根本没有语义重叠。这可能与我们的认知不同因为在一般人的理解中策略1就已经足够了LLM能搞定一切。而专业人士理解的策略3因该更好因为它将所有内容混合在一起但表现不如策略4。噪声随机无关文本余弦相似性在0.04–0.23之间。策略1仅表结构值在0.17–0.25之间与噪声一致。策略2表结构 描述值在0.14–0.25之间仍然与噪声一致。策略3表结构 描述 示例问题值在0.23–0.30之间。明显改善我们开始从噪声中看到信号。策略4仅示例问题值在0.30–0.52之间。明显是表现最好的策略并且完全超出了噪声范围。它导致正确表与错误表之间的余弦相似性有了最大的分离从而产生了更强的信号。进一步提高你的RAG的策略如果你也遇到了我们目前所描述的问题那么首先恭喜你你是一个真正使用过或者想使用RAG的从业者。但是上面的问题也只是触及了表面更复杂的问题已经超出了本文的范畴我们会在后面的文章进行讨论。目前我们需要着眼解决本文所描述的问题以下则是一些对进行阶梯式改进的值得采用的方法。结构化数据可以通过增加结构来改善RAG这是首先将问题链接到现有的问题库随后将指导你找到正确的答案。这与直接将问题链接到单步中的正确文本相反。对于基于支持文档构建的QA系统问题→问题的比较将实质性地提高性能而不是问题→支持文档。实际操作中最简单的方法是 要求你的大模型如ChatGPT为每个文档生成示例问题并让人类专家进行策划。本质上讲就是建立了我们自己的知识库。这种方法还能进一步发展吗对于每个文档让ChatGPT生成它可以回答的100个问题列表这些问题不会完美因此对于你生成的每个问题计算其与其他每个文档的余弦相似性筛选出那些会将正确文档排在所有其他文档之前的问题通过排序那些正确文档与第二名文档的余弦相似性差异最大的问题来识别最高质量的问题发送给人类进行进一步的判断这步就要人工成本了语义 相关性排名几乎每个主要搜索引擎都在使用这个方法所以这可能是我们能得到的更大的好处的方法。因为余弦相似性很适合做初步评估但最终无法进行更高精度的排名。如果你的业务可能拥有更多的信息来帮助AI做出更好的决策例如收集了诸如页面浏览和点赞等指标可能按人物特征拥有这些指标。那么你就可以创建一个包括广泛用户/任务特征的相关性评分来微调排名使RAG工作得更好。例如可以让你的排名成为一个线性组合排名 (余弦相似性) (权重) x (相关性评分)使用AI作为工具而不是完整的解决方案几十年来软件工程实践演变为倾向于设计许多小组件这些组件具有严格、明确的保证。围绕聊天界面的狂热完全颠覆了这一范式五年后这种做法很可能被视为是错误的。ChatGPT以及大部分新兴生态系统鼓励的范式是“给我任何文本我就给你任何文本。”这些AI没有效力或成本和延迟的保证而是有着“我可能在某些时候在某种程度上是对的”的模糊承诺。其实企业应该通过提供更具范围和主观性的接口来构建更健壯的AI。这也就是对于OpenAI所说的超级对齐的来说是非常重要的但又不是必要的。这里仅是我个人的关系供参考总结我们正在见证AI的新时代的到来。这个时代的新颖之处不在于NLP和语言模型的出现而是现成技术降低了企业利用自然语言技术针对他们特定用例的门槛。但是我们还要清楚的认识到目前这项技术仍处于早期开发阶段在为你的AI构建RAG时其实是在构建一个复杂的搜索引擎这是可行的但是要认识到这里的复杂性和挑战并解决这些问题才能让我们向成功迈出第一步。想入门 AI 大模型却找不到清晰方向备考大厂 AI 岗还在四处搜集零散资料别再浪费时间啦2025 年AI 大模型全套学习资料已整理完毕从学习路线到面试真题从工具教程到行业报告一站式覆盖你的所有需求现在全部免费分享扫码免费领取全部内容​一、学习必备100本大模型电子书26 份行业报告 600 套技术PPT帮你看透 AI 趋势想了解大模型的行业动态、商业落地案例大模型电子书这份资料帮你站在 “行业高度” 学 AI1. 100本大模型方向电子书2. 26 份行业研究报告覆盖多领域实践与趋势报告包含阿里、DeepSeek 等权威机构发布的核心内容涵盖职业趋势《AI 职业趋势报告》《中国 AI 人才粮仓模型解析》商业落地《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》领域细分《AGI 在金融领域的应用报告》《AI GC 实践案例集》行业监测《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。3. 600套技术大会 PPT听行业大咖讲实战PPT 整理自 2024-2025 年热门技术大会包含百度、腾讯、字节等企业的一线实践安全方向《端侧大模型的安全建设》《大模型驱动安全升级腾讯代码安全实践》产品与创新《大模型产品如何创新与创收》《AI 时代的新范式构建 AI 产品》多模态与 Agent《Step-Video 开源模型视频生成进展》《Agentic RAG 的现在与未来》工程落地《从原型到生产AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。二、求职必看大厂 AI 岗面试 “弹药库”300 真题 107 道面经直接抱走想冲字节、腾讯、阿里、蔚来等大厂 AI 岗这份面试资料帮你提前 “押题”拒绝临场慌1. 107 道大厂面经覆盖 Prompt、RAG、大模型应用工程师等热门岗位面经整理自 2021-2025 年真实面试场景包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题每道题都附带思路解析2. 102 道 AI 大模型真题直击大模型核心考点针对大模型专属考题从概念到实践全面覆盖帮你理清底层逻辑3. 97 道 LLMs 真题聚焦大型语言模型高频问题专门拆解 LLMs 的核心痛点与解决方案比如让很多人头疼的 “复读机问题”三、路线必明 AI 大模型学习路线图1 张图理清核心内容刚接触 AI 大模型不知道该从哪学起这份「AI大模型 学习路线图」直接帮你划重点不用再盲目摸索路线图涵盖 5 大核心板块从基础到进阶层层递进一步步带你从入门到进阶从理论到实战。L1阶段:启航篇丨极速破界AI新时代L1阶段了解大模型的基础知识以及大模型在各个行业的应用和分析学习理解大模型的核心原理、关键技术以及大模型应用场景。L2阶段攻坚篇丨RAG开发实战工坊L2阶段AI大模型RAG应用开发工程主要学习RAG检索增强生成包括Naive RAG、Advanced-RAG以及RAG性能评估还有GraphRAG在内的多个RAG热门项目的分析。L3阶段跃迁篇丨Agent智能体架构设计L3阶段大模型Agent应用架构进阶实现主要学习LangChain、 LIamaIndex框架也会学习到AutoGPT、 MetaGPT等多Agent系统打造Agent智能体。L4阶段精进篇丨模型微调与私有化部署L4阶段大模型的微调和私有化部署更加深入的探讨Transformer架构学习大模型的微调技术利用DeepSpeed、Lamam Factory等工具快速进行模型微调并通过Ollama、vLLM等推理部署框架实现模型的快速部署。L5阶段专题集丨特训篇 【录播课】四、资料领取全套内容免费抱走学 AI 不用再找第二份不管你是 0 基础想入门 AI 大模型还是有基础想冲刺大厂、了解行业趋势这份资料都能满足你现在只需按照提示操作就能免费领取扫码免费领取全部内容​2025 年想抓住 AI 大模型的风口别犹豫这份免费资料就是你的 “起跑线”本文转自 https://blog.csdn.net/DEVELOPERAA/article/details/151824026?spm1001.2014.3001.5502如有侵权请联系删除。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询