2026/2/5 9:29:44
网站建设
项目流程
如何更换网站图片,网站访问统计 曲线图,企业网站建设 北京,安卓手机软件开发教程检索增强生成(RAG)技术通过引入外部知识库解决大语言模型受限于静态训练数据的问题。RAG系统包含知识库、检索器和生成器三大模块#xff0c;通过向量化用户问题、检索相关知识、构建Prompt并生成结果#xff0c;显著提升模型在知识覆盖广度、准确性和时效性方面的表现#…检索增强生成(RAG)技术通过引入外部知识库解决大语言模型受限于静态训练数据的问题。RAG系统包含知识库、检索器和生成器三大模块通过向量化用户问题、检索相关知识、构建Prompt并生成结果显著提升模型在知识覆盖广度、准确性和时效性方面的表现有效减少幻觉现象同时避免模型更新带来的高计算成本和灾难性遗忘问题。随着大语言模型的规模不断扩大其在生成自然语言与解决复杂任务上的能力取得了显著进步。然而模型的性能仍然受限于训练期间所接触到的静态数据存在正确性、时效性和完备性不足等问题。这种局限性使其在处理实时信息、 长尾知识以及动态更新的领域时显得力不从心。训练数据和参数学习上的不足将导致大语言模型在面对某些问题时无法给出正确答案甚至出现“幻觉” 即生成看似合理实则逻辑混乱或违背事实的回答。为了解决这些问题并进一步提 升大语言模型的生成质量我们可以将相关信息存储在外部数据库中供大语言模型进行检索和调用。这种从外部数据库中检索出相关信息来辅助改善大语言模型生成质量的系统被称之为检索增强生成Retrieval-AugmentedGenerationRAG。因此如何通过外部知识检索来增强大语言模型的能力成为了当前研究和应用的热点方向。检索增强生成技术通过在推理过程中引入外部知识库 或搜索引擎使语言模型能够动态获取所需的信息而不再完全依赖于模型参数。这种方法不仅显著提升了模型在知识覆盖广度、准确性和时效性方面的表现还在解决模型“幻觉”Hallucination 问题上展现出重要作用。检索增强生成RAG旨在通过检索和整合外部知识来增强大语言模型生成 文本的准确性和丰富性其是一个集成了外部知识库Corpus 、信息检索器Retriever、生成器Generator即大语言模型等多个功能模块的系统。RAG利用信息检索、深度学习等多种技术为大语言模型在生成过程中引入最新的、特定领域的知识从而克服传统大语言模型的局限性提供更加精准和可靠的生成内容。具体而言给定一个自然语言问题Query检索器将问题进行编码并从知识库如维基百科中高效检索出与问题相关的文档。然后将检索到的知识和原始问题一并传递给大语言模型 大语言模型根据检索到的知识和原始问题生成最终的输出。RAG的核心优势在于 不需要对大语言模型的内部知识进行更新便可改善大语言模型的幻觉现象提高生成质量。这可以有效避免内部知识更新带来的计算成本和对旧知识的灾难性遗忘Catastrophic Forgetting。一、RAG流程1.向量化用户问题将 用户问题 用相同的Embedding 模型转换为向量用以检索相关知识分片2.检索Retrieval通过向量数据库一系列高效的数学计算 如余弦相似度、欧氏距离等检索出语义相似度最高的几个知识分片Top_k3.构建 Prompt将Prompt 检索结果 用户问题构建成完整的 Prompt4.生成Generation大语言模型再根据这个 Prompt 生成结果知识库构建数据收集与准备从企业内部系统、文档、数据库等渠道收集相关信息。文本处理对收集到的数据进行预处理如清洗、标准化和分割成适合的小段落。向量化利用嵌入模型将每个文本片段转换成向量表示这些向量能够捕捉文本的语义信息并允许通过计算向量间的距离来衡量内容相似度。索引创建建立高效检索机制例如使用近似最近邻搜索算法以便快速找到与查询最相关的知识片段。知识库的应用过程简而言之就是根据用户输入问题在向量知识库中寻找关联信息片段一起整合生成新的prompt输入模型让模型输出结果。这里有个疑问为什么检索出来的是知识片段不是整个文档主要有下面3个原因1、大模型有上下文长度限制需要精简prompt2、成本考虑越多的信息消耗的token也越多成本高3、避免无用信息干扰模型生成二、增强架构仅仅简单地对外部知识库、检索器、大语言模型等功能模块进行连接无法最大化RAG的效用。1、增强架构黑盒增强架构是在闭源模型的背景下提出的它限制了对模型内部参数的直 接调整。在这种架构下我们介绍了无微调和检索器微调两种策略。无微调简单实用它直接利用预训练的语言模型和检索器不进行任何更新适合快速部署。然而这种方法的缺点在于无法对语言模型进行优化以适应新的任务需求。相比之下检索器微调通过调整检索器来适应语言模型输出提供了在无法修改语言模 型的情况下提升性能的可能性。这种方法的效果在很大程度上取决于调整后的检 索器的准确性。白盒增强架构则利用开源模型的优势允许调整语言模型结构和参数可以 更好的协调减速器和大语言模型。在这种架构中我们介绍了两种微调形式仅微调语言模型和检索器和语言模型协同微调。仅微调语言模型专注于优化语言模型 根据检索到的信息仅调整语言模型结构和参数以提升特定任务上的性能。检索器和语言模型协同微调是一种更为动态的策略它通过同步更新检索器和语言模型使得两者能够在训练过程中相互适应从而提高整体系统的性能。尽管白盒增强架构可以有效改善RAG的性能但也存在明显缺点。这种架构通常需要大量计算资源和时间来训练特别是协同微调策略需要大量的运算资源来实现语言模 型和检索器的同步更新。三、知识检索3.1知识库构建知识库构成了RAG系统的根基。知识库构建主要涉及数据采集及预处理与知识库增强两个步骤。数据采集与预处理为构建知识库提供“原材料”。在构建文本型知识库的数据 采集过程中来自不同渠道的数据被整合、转换为统一的文档对象。这些文档对象 不仅包含原始的文本信息还携带有关文档的元信息Metadata。元信息可以用于后续的检索和过滤。以维基百科语料库的构建为例数据采集主要通过提取维 基百科网站页面内容来实现。这些内容不仅包括正文描述的内容还包括一系列 的元信息例如文章标题分类信息时间信息关键词等。在采集到相应的数据后还需通过数据预处理来提升数据质量和可用性。在构 建文本型知识库时数据预处理主要包括数据清洗和文本分块两个过程。数据清洗旨在清除文本中的干扰元素如特殊字符、异常编码和无用的HTML标签以 及删除重复或高度相似的冗余文档从而提高数据的清晰度和可用性。文本分块 是将长文本分割成较小文本块的过程例如把一篇长文章分为多个短段落。对长 文本进行分块有两个好处一是为了适应检索模型的上下文窗口长度限制避免 超出其处理能力二是通过分块可以减少长文本中的不相关内容降低噪音从而 提高检索的效率和准确性。文本分块的效果直接影响后续检索结果的质量。如果分块处理不当可能 会破坏内容的连贯性。因此制定合适的分块策略至关重要包括确定切分方法 如按句子或段落切分、设定块大小以及是否允许块之间有重叠。文本分块的具 体实施流程通常开始于将长文本拆解为较小的语义单元如句子或段落。随后这 些单元被逐步组合成更大的块直到达到预设的块大小构建出独立的文本片段。 为了保持语义连贯性通常还会在相邻的文本片段之间设置一定的重叠区域。知识库增强是通过改进和丰富知识库的内容和结构以提升其质量和实用性。 这一过程通常涉及查询生成与标题生成等多个步骤以此为文档建立语义“锚 点”方便检索时准确定位到相应文本。查询生成指的是利用大语言模型生成与文档内容紧密相关的伪查询。这些伪 查询从查询的角度来表达文档的语义可以作为相关文档的“键”供检索时与用 户查询进行匹配。通过这种方式可以增强文档与用户查询的匹配度。例如对于 一篇介绍考拉和树袋熊关系的文档生成的查询“考拉和树袋熊之间的关系是什 么”不仅准确反映了文档的主题还能有效引导检索器更精确的检索到与用户提 问相关的信息。标题生成指的是利用大语言模型为没有标题的文档生成合适的标题。这些生 成的标题提供了文档的关键词和上下文信息能来用来帮助快速理解文档内容并在检索时更准确地定位到与用户提问相关的信息。对于那些原始文档中缺乏标题的情况通过语言模型生成标题显得尤为重要。3.2查询增强知识库涵盖的知识表达形式是有限的但用户的提问方式却是千人千面的。用 户遣词造句的方式以及描述问题的角度可能会与知识库中的存储的文本间存在差 异这可能导致用户查询和知识库之间不能很好匹配从而降低检索效果。为了解 决此问题我们可以对用户查询的语义和内容进行扩展即查询增强以更好的匹 配知识库中的文本。查询语义增强旨在通过同义改写和多视角分解等方法来扩展、丰富用户查询的语义以提高检索的准确性和全面性。接下来分别对同义改写和多视角分解进行简要介绍。查询内容增强旨在通过生成与原始查询相关的背景信息和上下文从而丰富 查询内容提高检索的准确性和全面性与传统的仅依赖于检索的方式相比 查询内容增强方法通过引入大语言模型生成的辅助文档为原始查询提供更多维 度的信息支持。生成背景文档是一种查询内容增强的方法。它指的是在原始查询的基础上利用大语言模型生成与查询内容相关的背景文档。3.3检索器选择给定知识库和用户查询检索器旨在找到知识库中与用户查询相关的知识文 本。检索器可分为判别式检索器和生成式检索器两类。判别式检索器通过判别模型对查询和文档是否相关进行打分。判别式检索器 通常分为两大类稀疏检索器和稠密检索器。稀疏检索器利用离散的、基于词频的 文档编码向量进行检索而稠密检索器则利用神经网络生成的连续的、稠密向量 对文档进行检索。稀疏检索器SparseRetriever是指使用稀疏表示方法来匹配文本的模型。这 类检索器通过统计文档中特定词项出现的统计特征来对文档进行编码然后基于 此编码计算查询与知识库中的文档的相似度来进行检索。典型的稀疏检索技术包括TF-IDF 和 BM25等它们通过分析词项的分布和频率来评估文档与查询 的相关性。稠密检索器一般利用预训练语言模型对文本生成低维、密集的向量表示通 过计算向量间的相似度进行检索。生成式检索器通过生成模型对输入查询直接生成相关文档的标识符。与判别式检索器不断地从知识库中去匹配相关文档不同生成式检索器直接将知识库中的文档信息记忆在模型参数中。然后在接收到查询请求时能够直接生成 相关文档的标识符即DocID以完成检索。生成式检索器通常采用基于 Encoder-Decoder 架构的生成模型如T5、BART等。生成式检索器的训练过程通常分为两个阶段。在第一阶段模型通过序列到序列的学习方法学习如何将查询映射到相关的文档标识符。这一阶段主要通过最大似然估计MLE来 优化模型确保生成的文档标识符尽可能准确。在第二阶段通过数据增强和排名优化进一步提高检索效率和准确性。数据增强主要通过生成伪查询或使用文档片段作为查询输入以增加训练数据的多样性和覆盖面。排名优化则涉及 使用特定的损失函数如对比损失或排名损失来调整模型生成文档标识符的顺序和相关性从而更好地匹配查询的需求。在生成式检索器中DocID的设计至关重要。其需要在语义信息的丰富性与标 识符的简洁性之间取得平衡。常用的DocID形式分为两类基于数字的DocID和 基于词的DocID。基于数字的DocID方法使用唯一的数字值或整数字符串来表示 文档虽然构建简单但在处理大量文档时可能导致标识符数量激增增加计算和 存储负担。相比之下基于词的DocID方法直接从文档的标题、URL或N-gram中 提取表示能更自然地传达文档的语义信息。通常标题是最佳选择因为它 提供了文档的宏观概述。但在缺乏高质量标题时URL或N-gram也可作为有效的 替代方案。尽管生成式检索器在性能上取得了一定的进步但与稠密检索器相比其效果仍稍逊一筹。此外生成式检索器还面临着一系列挑战包括如何突破模型输入长度的限制、如何有效处理大规模文档以及动态新增文档的表示学习等这些都是亟待解决的问题。3.4检索效率增强知识库中通常包含海量的文本对知识库中文本进行逐一检索缓慢而低效。为 提升检索效率可以引入向量数据库来实现检索中的高效向量存储和查询。向量数据库的核心是设计高效的相似度索引算法。相似度索引算法在向量检索中常用的索引技术主要分成三大类基于空间划分的方法、基于 量化方法和基于图的方法。向量数据库3.5检索结果重排检索器可能检索到与查询相关性不高的文档。这些文档如果直接输入给大语 言模型可能会引发生成质量的下降。为此在将其输入给大语言模型之前我们 还需要对其进行进一步的精选。精选的主要途径是对检索到的文档进行重新排序 简称重排然后从中选择出排序靠前的文档。重排方法主要分为两类基于交叉编码的方法和基于上下文学习的方法。基于交叉编码的重排方法基于交叉编码的重排方法利用交叉编码器Cross-Encoders来评估文档与查询之间的语义相关性。MiniLM-L5是应用最为广泛的基于交叉编码的重排开源模型之一。该模型通过减少层数和隐层单元数来降低参数数量同时采用知识蒸馏技术从大型、高性能的语言模型中继承学习以此来提高模型性能。基于上下文学习的重排方法基于上下文学习的方法是指通过设计精巧的Prompt使用大语言模型来执行重排任务。这种方法可以利用大语言模型优良的深层语义理解能力从而取得了良好的表现。RankGPT是基于上下文学习的重排方法中的代表性方法。在重排任务中输入文档长度有时会超过上下文窗 口长度的限制。为了解决该问题RankGPT采用了滑动窗口技术来优化排序过程。 该技术将所有待排序的文档分割成多个连续的小部分每个部分作为一个窗口。整个排序过程从文档集的末尾开始首先对最后一个窗口内的文档进行排序并将 排序后的结果替换原始顺序。然后窗口按照预设的步长向前移动重复排序和替 换的过程。这个过程将持续进行直到所有文档都被处理和排序完毕。通过这种分 步处理的方法RankGPT能够有效地对整个文档集合进行排序而不受限于单一 窗口所能处理的文档数量。四、生成增强4.1何时增强大语言模型在训练过程中掌握了大量知识这些知识被称为内部知识Self Knowledge。对于内部知识可以解决的问题我们可以不对该问题进行增强。不对 是否需要增强进行判断而盲目增强不仅不会改善生成性能还可能“画蛇添足” 引起生成效率和生成质量上的双下降。对生成效率而言增强文本的引入会增加 输入Token的数量增加大语言模型的推理计算成本。另外检索过程也涉及大量 的计算资源。对生成质量而言因为检索到的外部知识有时可能存在噪音将其输 入给大语言模型不仅不会改善大语言模型的生成质量反而可能会生成错误内容。判断是否需要增强的核心在于判断大语言模型是否具有内部知识。如果我们 判断大模型对一个问题具备内部知识那么我们就可以避免检索增强的过程不 仅降低了计算成本而且还可以避免错误增强。判断模型是否具有内部知识的方 法可以分为两类1外部观测法通过Prompt直接询问模型是否具备内部知识 或应用统计方法对是否具备内部知识进行估计这种方法无需感知模型参数2 内部观测法通过检测模型内部神经元的状态信息来判断模型是否存在内部知识 这种方法需要对模型参数进行侵入式的探测。4.2何处增强在确定大语言模型需要外部知识后我们需要考虑在何处利用检索到的外部 知识即何处增强的问题。得益于大语言模型的上下文学习能力、注意力机制的可 扩展性以及自回归生成能力其输入端、中间层和输出端都可以进行知识融合操 作。在输入端可以将问题和检索到的外部知识拼接在Prompt中然后输入给大 语言模型在中间层可以采用交叉注意力将外部知识直接编码到模型的隐藏状态中在输出端可以利用外部知识对生成的文本进行后矫正。1在输入端增强在输入端增强的方法直接将检索到的外部知识文本与用户查询拼接到Prompt 中然后输入给大语言模型。其是当前主流的增强方法。此方式的重点在于Prompt 设计以及检索到的外部知识的排序。良好的Prompt设计和外部知识排序可以使 模型更好地理解、利用外部知识。在输入端增强的方法直观且易于实现。模型可以直接从输入的上下文中提取 到所需信息无需复杂的处理或转换。然而当检索到的文本过长时可能导致输 入序列过长甚至超出模型的最大序列长度限制。这给模型的上下文理解带来挑 战并且还会增加模型推理计算成本、增加其计算负担。这种方法对大语言模型的 长文本处理能力和上下文理解能力要求较高。2在中间层增强在中间层增强增强的方法利用注意力机制的灵活性先将检索到的外部知识 转换为向量表示然后将这些向量插入通过交叉注意力融合到模型的隐藏状态中。这种方法能够 更深入地影响模型的内部表示可能有助于模型更好地理解和利用外部知识。同 时由于向量表示通常比原始文本更为紧凑这种方法可以减少对模型输入长度 的依赖。然而这种方法需要对模型的结构进行复杂的设计和调整无法应用于黑盒模型。3在输出端增强在输出端增强的方法利用检索到的外部知识对大语言模型生成的文本进行校 准是一种后处理的方法。在此类方法中模型首先在无外部知识的情况下生成一 个初步回答然后再利用检索到的外部知识来验证或校准这一答案。校验过程基 于生成文本与检索文本的知识一致性对输出进行矫正。矫正可以通过将初步回答 与检索到的信息提供给大模型让大模型检查并调整生成的回答来完成。这种方法的优点是可以确保相关则会导致错误的校准结果。生成的文本与外部知识保持一致提高答案的准确性和可靠性。然而其效果在很大程度上依赖于检索到的外部知识的质量和相关性。若检索到的文档不准确或不相关则会导致错误的校准结果。上述三种方案是相互独立的它们也可 以组合使用以实现更优的增强效果4.3多次增强在实际应用中用户对大语言模型的提问可能是复杂或模糊的。复杂问题往往 涉及多个知识点需要多跳multi-hop的理解而模糊问题往往指代范围不明 难以一次就理解问题的含义。对于复杂问题和模糊问题我们难以通过一次检索增 强就确保生成正确多次迭代检索增强在所难免。处理复杂问题时常采用分解式增强的方案。该方案将复杂问题分解为多个子问题子问题间进行迭代检索增强 最终得到正确答案。处理模糊问题时常采用渐进式增强的方案。该方案将问题的 不断细化然后分别对细化的问题进行检索增强力求给出全面的答案以覆盖用 户需要的答案。4.4降本增效检索出的外部知识通常包含大量原始文本。将其通过Prompt输入给大语言模 型时会大幅度增加输入Token的数量从而增加了大语言模型的推理计算成本。 此问题可从去除冗余文本与复用计算结果两个角度进行解决。在RAG中检索出的原始文本通常包含大量的无益于增强生成的冗余信息。 这些冗余信息不仅增加了输入Token的长度而且还有可能对大模型产生干扰 导致生成错误答案。去除冗余文本的方法通过对检索出的原始文本的词句进行过滤从中选择出部分有益于增强生成的部分。去除冗余文本的方法主要分为三类 Token 级别的方法子文本级别的方法以及全文本级别的方法。五、RAG总结RAG 不是单一技术而是 Embedding语义理解 向量数据库高效检索 召回 / 精排筛选优化 混合策略场景适配 的技术协同网络。通过让 “语义表征、快速检索、精准筛选、策略适配” 环环相扣最终实现 “大模型用外部知识精准回答” 的核心目标是解决大模型 “知识局限” 的关键技术底座。AI时代未来的就业机会在哪里答案就藏在大模型的浪潮里。从ChatGPT、DeepSeek等日常工具到自然语言处理、计算机视觉、多模态等核心领域技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。掌握大模型技能就是把握高薪未来。那么普通人如何抓住大模型风口AI技术的普及对个人能力提出了新的要求在AI时代持续学习和适应新技术变得尤为重要。无论是企业还是个人都需要不断更新知识体系提升与AI协作的能力以适应不断变化的工作环境。因此这里给大家整理了一份《2026最新大模型全套学习资源》包括2026最新大模型学习路线、大模型书籍、视频教程、项目实战、最新行业报告、面试题、AI产品经理入门到精通等带你从零基础入门到精通快速掌握大模型技术由于篇幅有限有需要的小伙伴可以扫码获取1. 成长路线图学习规划要学习一门新的技术作为新手一定要先学习成长路线图方向不对努力白费。这里我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。2. 大模型经典PDF书籍书籍和学习文档资料是学习大模型过程中必不可少的我们精选了一系列深入探讨大模型技术的书籍和学习文档它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。书籍含电子版PDF3. 大模型视频教程对于很多自学或者没有基础的同学来说书籍这些纯文字类的学习教材会觉得比较晦涩难以理解因此我们提供了丰富的大模型视频教程以动态、形象的方式展示技术概念帮助你更快、更轻松地掌握核心知识。4. 大模型项目实战学以致用当你的理论知识积累到一定程度就需要通过项目实战在实际操作中检验和巩固你所学到的知识同时为你找工作和职业发展打下坚实的基础。5. 大模型行业报告行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。6. 大模型面试题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我们将提供精心整理的大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。为什么大家都在学AI大模型随着AI技术的发展企业对人才的需求从“单一技术”转向 “AI行业”双背景。企业对人才的需求从“单一技术”转向 “AI行业”双背景。金融AI、制造AI、医疗AI等跨界岗位薪资涨幅达30%-50%。同时很多人面临优化裁员近期科技巨头英特尔裁员2万人传统岗位不断缩减因此转行AI势在必行这些资料有用吗这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。大模型全套学习资料已整理打包有需要的小伙伴可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】