青海高端网站建设公司河南省建设厅村镇建设处网站
2026/1/16 8:53:09 网站建设 项目流程
青海高端网站建设公司,河南省建设厅村镇建设处网站,网站建设的扁平化设计,在线3d建模网站本文是2020-2025年检索增强生成#xff08;RAG#xff09;技术的系统性文献综述#xff0c;专为CSDN平台的小白开发者与程序员打造。内容全面拆解RAG的核心技术组件#xff0c;涵盖检索机制、向量数据库、文档分块、编码器、训练方法及生成模型等核心模块#xff0c;同时深…本文是2020-2025年检索增强生成RAG技术的系统性文献综述专为CSDN平台的小白开发者与程序员打造。内容全面拆解RAG的核心技术组件涵盖检索机制、向量数据库、文档分块、编码器、训练方法及生成模型等核心模块同时深入探讨迭代检索、结构化感知、记忆增强等创新方案。文中详细梳理了RAG系统的评估指标体系剖析了实际落地中的关键挑战如计算资源权衡、数据噪音、领域漂移、安全风险等并补充了新手入门的核心要点为开发者构建高效RAG系统提供从理论到实践的完整指引。RAG关键部分RAG技术的核心价值在于将外部知识检索与生成模型融合解决大模型“知识滞后”与“幻觉”问题。其核心组成可拆解为六大关键模块检索机制、数据存储向量数据库、预处理文档分块、编码向量编码器、训练优化、生成模型各模块环环相扣共同决定系统性能。检索机制Retrieval mechanism稀疏检索方法Sparse term-based methods如BM25它们高效且可解释但难以捕捉语义信息。稠密检索器Dense retrievers如DPR利用双编码器网络将查询和文档映射到连续向量空间通过最大内积搜索MIPS进行语义匹配。混合方法Hybrid approaches结合了稀疏方法和稠密方法以平衡召回率和准确性。编码器-解码器查询生成器Encoder–decoder query generators将复杂的查询重写为独立的搜索查询以提高召回率。重排模块Reclassification modules对初始检索结果进行重新排序以消除噪音并更好地满足生成任务的需求。图检索方法Graph retrieval methods通过知识图谱提取相关子图或路径进行多跳推理。迭代框架Iterative frameworks将检索和生成过程交错进行通过反馈循环逐步完善查询。专用检索器Specialised retrievers针对特定数据类型如代码、图像、临床报告设计的检索器。向量数据库Vector Database核心索引技术如HNSW图和FAISS索引以在生产环境中实现亚毫秒级的性能。分布式和动态环境研究人员已将索引方法扩展到GPU分片索引和云原生服务以处理海量向量。领域特定向量库针对代码、生物医学、金融等特定领域定制的向量存储。商业化服务如Pinecone、Weaviate和Qdrant它们简化了部署但也带来了潜在的供应商锁定和成本问题。文档分块Document chunking静态固定长度分割Static fixed-length segmentation简单易用但可能破坏语义连贯性。语义边界感知分割Semantic boundary–aware splitting根据句子、段落或章节等固有结构进行分块以保持语义完整性但增加了预处理复杂性。领域和模态特定分块Domain and modality specific chunking针对不同类型数据如源代码、知识图谱、法律文件、多模态输入定制的分块策略。自适应动态分块Adaptive dynamic chunking根据查询特征或检索性能动态调整块大小和重叠旨在结合上述方法的优点但仍处于实验阶段。向量编码器Vector encoders稀疏编码器Sparse encoders如TF-IDF和BM25计算效率高但语义建模能力较弱。稠密编码器Dense encoders基于深度学习模型能捕捉上下文和语义细微之处。混合和多模态编码器Hybrid multi-modal encoders融合稀疏和稠密信号或联合编码多种模态如文本和图像以处理异构数据源。训练Training联合端到端训练Joint end-to-end training同时优化检索器和生成器以实现最佳对齐但计算成本高。模块化两阶段方法Modular two-stage approaches将检索器和生成器分开训练提高了稳定性但可能导致全局协调不佳。参数高效微调PEFT和指令微调instruction tuning只更新模型参数的一小部分大大降低了计算资源需求。专用训练目标specialized training objectives使用对比损失、自批判序列训练等方法来提高任务特定指标。领域和模态特定适配domain and modality specific adaptation为特定领域如代码、生物医学定制训练管道。生成模型Generation Model早期模型如RAG、Fusion-in-Decoder通过跨注意力机制融合检索到的信息。自回归模型如RETRO将片段级别的检索与自回归解码交错进行。最新进展如Self-RAG实现了对潜在检索信号的自监督对齐。专业化和多模态应用将RAG扩展到生物医学、法律、代码生成和视觉问答等特定领域。生成模型家族Generative Model Families编码器-解码器模型Encoder–decoder models如Google的Flan-T5、Meta AI的BART擅长多段落融合。仅解码器模型Decoder-only families如OpenAI的GPT系列、Meta的Llama系列、Mistral AI的模型它们通过token插入或适配器进行检索更适合对话场景。创新的RAG方法与标准RAG使用DPR seq-to-seq一次性检索并拼接top-k文档相比创新的RAG方法和途径主要更好的性能因此有更多的步骤。一次性的管道向模块化、策略驱动的架构演进。这种新范式通过混合索引、结构化检索和不确定性触发等方式在不增加token负担的情况下提高了召回率。闭环、轻量级验证器和记忆的引入使RAG成为一个交互式的“研究伙伴”。预检索与后检索阶段Pre-retrieval Post-retrieval Stages预检索Pre-retrieval在喂给索引之前现在的方法更注重数据的准备工作。结构化分块不再简单地按固定长度切割文档而是根据标题、表格、叙事块等结构进行分块以保持语义完整性。内容丰富化在分块的同时用GPT生成关键词和微型摘要以缩小搜索范围提高效率。语料库管理对语料库进行精心筛选例如只保留指导性句子以减少不必要的输出和幻觉。“长单元”处理将整个PDF或相关联的页面作为一个“长单元”进行处理大大减小索引规模。防御入口点通过模糊代码ID、归一化嵌入和毒药过滤器等方式增强检索器的安全性。后检索Post-retrieval在检索到文档后对其进行处理以优化传递给生成模型的上下文。重排Re-rank使用诸如Reciprocal Rank Fusion倒数排名融合或自回归排序器等技术重新排序检索到的文档将最相关的文档放在首位。精简Trim the fat只选择相关的句子、提供“提示”或快速摘要以减少token数量同时保持事实准确性。效用决定使用轻量级的评分器来决定是保留、丢弃还是重复某个文档以适应下游生成任务。噪音作为正则化故意插入一些不相关的段落作为正则化项让模型学会忽略噪音从而提高事实准确性。早期验证使用小型“批评”模型在早期就标记出问题是出在检索还是生成上并只触发必要的修复。提示与查询策略Prompting Query Strategies查询重写和扩展让大型语言模型LLM扩展或重写用户的原始问题生成多个查询并将所有检索到的证据进行下游融合。不确定性触发像FLARE和RINDQFS这样的系统只在模型对某个token的不确定性很高时才触发检索避免了不必要的索引调用。结构化任务使用JSON、实体标签或混合文本-图模板等包装器来组织证据强制模型输出特定格式并减轻其认知负担。检索增强上下文学习在构建提示时插入与查询相似的问答对以最小的token成本提高准确性。ReAct风格提示模型可以计划工具调用Thought, Action, Observation运行检索工具然后根据结果进行修正。思维图Graph-of-Thought将问题分解为子问题每个子问题都有自己的检索步骤然后将答案整合起来。混合与专用检索器Hybrid and Specialised Retrievers分数级融合结合词法如BM25和多个稠密检索器的分数通过倒数排名融合等方法在不进行任务微调的情况下持续优于单个索引。自适应混合检索系统可以学习如何根据输入自适应地决定何时以及如何混合不同的检索信号。例如对词法查询避开稠密检索以降低延迟。利用结构信息在知识图谱问答中首先使用关键词匹配检索实体邻居再用向量相似度进行精炼。在代码智能中结合词法重叠和稠密检索来捕捉语法和语义。多模态融合使用CLIP相似度来检索图像然后用文本编码器来检索精确的文本段落以支持视觉问答。结构感知与基于图的RAGStructure-aware Graph-based RAG图索引将文档、标题或代码转化为节点和边构建连接子图在检索时就能编码多跳上下文。图-token对齐通过软提示投影或将文档嵌入作为潜在token的方式让LLM能够处理图的语义。自动化图创建使用LLM自动从文档中提取实体和关系并维护混合了关键词和向量的图结构。解释性增强由于模型可以引用图中的路径或节点标识符因此答案的可信度和可解释性大大提高。迭代与主动检索循环Iterative Active Retrieval Loops不确定性触发当LLM在生成过程中检测到高不确定性时会暂停生成并触发一次有针对性的检索例如FLARE模型。自我反思SELF-RAG模型使用反思token来触发检索、评估证据并批判自己的输出实现了段落级别的控制。逐步精炼例如CHAIN-OF-NOTECON框架LLM会为每个检索到的文档写下“阅读笔记”在综合答案之前暴露文档的可靠性。验证驱动循环如果一个验证器标记出检索或生成错误管道会重新检索或重新生成答案直到验证器满意为止从而形成闭环修正。智能体管道将检索、重排、精炼和生成等每个阶段作为独立的、可编程的工具模型可以自主规划并调用这些工具。记忆增强型RAGMemory-augmented RAG传统的RAG是无状态的每轮查询都独立进行。记忆增强型RAG通过引入持久化记忆实现了个性化和长时程上下文。短时程对话缓冲区在对话过程中保留最近的聊天记录例如MoodleBot和LangChain的ConversationBufferMemory用于增强后续问题的连贯性。持久化用户记忆为每个用户维护一个独立的记忆库存储长期文档、短时程信号或最近的查询。例如LiVersa的肝病助手通过分离存储不同类型的信息减少了幻觉并缩短了提示长度。模型内部记忆在模型内部建立键值存储key-value store在推理时用于存储和检索内部状态或外部信息。例如RAM和SelfMem。智能体与多工具管道Agentic Multi-tool Pipelines工具箱智能体暴露了一系列异构能力如混合检索器、图遍历、记忆存储和领域插件。控制器智能体通过静态图、动态规划例如ReAct风格的“Thought, Action, Observation”循环或学习型控制器来决定下一步行动。记忆作为核心记忆不再是事后添加的功能而是与检索器同等重要的工具可以记录每一次的感知-思考-行动以辅助复杂的规划任务。效率与压缩Efficiency Compression文档压缩将整个文档或图谱分支压缩成单个投影token大大减少上下文长度和GPU内存。索引优化使用异步重编码器来在线刷新索引将大型PDF视为一个“长检索单元”来缩小索引规模。计算优化PipeRAG在GPU解码时并行从CPU加载文档从而减少了端到端延迟。RAGCache则通过猜测和缓存可复用文档进一步降低了延迟和成本。自适应检索频率根据质量需求或预设的延迟预算动态调整检索的频率。模态扩展Modality Expansion统一多模态骨干MuRAG等系统使图像和文本共享相同的嵌入空间让模型能够同时检索和处理多种模态的信息。编排框架LangChain等工具允许工程师通过简单的配置接入CLIP检索器、Whisper转录器或表格解析器使单个智能体能够处理多样化的数据类型。精准引用在临床成像等领域系统能够将生成的描述与图像中的特定区域联系起来增强了答案的可追溯性。评估 RAG 有效性的常用指标评估检索增强生成RAG系统的有效性需要一套能够同时衡量检索器和生成器性能的指标。这些指标通常分为三大类自动化指标、人工评估指标和新兴的“LLM即评判者”指标。评估总览自动化指标Automated metrics最常用但主要关注表面重叠或检索成功难以捕捉深层语义。其中准确率accuracy、EM精确匹配**和**F1分数最为常见。人工评估指标Human-judged metrics较少使用但对于评估事实性、流畅性和用户满意度至关重要能提供更深入的定性洞察。LLM即评判者LLM-as-judge新兴方法使用强大的LLM如GPT-4来对生成结果进行打分。这种方法结合了自动化和人工评估的优点但存在模型偏见和提示敏感性的风险。全面的RAG评估报告通常会结合使用至少一个检索或重叠指标如recallk、EM/F1、一个基于嵌入的语义指标如BERTScore以及一种人工或LLM评估方法。自动化生成指标基于分类的指标准确率Accuracy衡量正确响应数占总输出数的比例直接评估答案的正确性但忽略了部分匹配。精确匹配EM - Exact Match一个更严格的二元指标要求输出与参考答案逐字符完全一致。适用于需要精确无误的任务如代码生成或事实检索。基于重叠的 N-gram 指标F1分数衡量生成输出和参考答案在token层面的重叠程度是精确率和召回率的调和平均值。它能为部分正确的匹配提供分数常用于问答和摘要任务。 F12×PrecisionRecallPrecision×RecallBLEU (Bilingual Evaluation Understudy)衡量生成文本与参考文本的n-gram 精确率并施加简洁惩罚brevity penalty来防止过短的回答。ROUGE (Recall-Oriented Understudy for Gisting Evaluation)主要关注n-gram 召回率ROUGE-L 变体则衡量最长公共子序列LCS。常用于评估摘要任务。METEOR (Metric for Evaluation of Translation with Explicit ORdering)在 n-gram 重叠的基础上加入了词干提取、同义词匹配等功能与人类判断的相关性通常高于BLEU和ROUGE。基于嵌入的指标BERTScore通过比较生成文本和参考文本的上下文 token 嵌入来衡量语义相似性。相比基于 n-gram 重叠的指标它能更好地捕捉同义词和释义。概率和专业指标困惑度Perplexity - PPL衡量模型对生成序列的不确定性。较低的困惑度表明模型预测下一个词时更有信心常用于评估语言的流畅性和连贯性。其他专业指标Self-BLEU通过计算生成结果与自身其他结果的BLEU分数来量化多样性。支持度Support标记生成结果中的每个声明是否完全、部分或不被检索到的证据所支持以确保事实性。Rare F1 / PKF1用于评估模型在特定任务如低频词或知识恢复上的表现。自动化检索指标基于集合的指标文档检索准确率Document Retrieval Accuracy衡量有多少比例的查询其所有检索到的文档都是相关的。PrecisionkPk和 RecallkRkPrecisionk在前 k 个检索结果中相关文档所占的比例衡量检索器避免无关项的能力。Recallk所有相关文档中有多少比例出现在前 k 个结果中衡量检索的完整性。F1kPrecisionk和Recallk的调和平均数提供一个平衡的综合分数。 F1k2×PrecisionkRecallkPrecisionk×Recallk基于排名的指标平均精度均值MAPk - Mean Average Precision奖励那些将相关文档排在前面的检索结果对排序质量要求较高。平均倒数排名MRRk - Mean Reciprocal Rank仅关注第一个相关文档的排名位置特别适用于问答等对第一个结果至关重要的任务。归一化折损累积增益nDCGk - Normalized Discounted Cumulative Gain能处理分级相关性通过位置对文档增益进行对数折损再进行归一化。基于命中的指标HitK一个二元指标表示前 K 个检索结果中是否至少存在一个相关文档。**Hit Success Ratio (HSR)**衡量需要外部知识的查询中检索器提供了支持证据的比例。其他自动化指标计算效率延迟Latency衡量从文档检索到文本生成的总时间通常分为检索时间、决策时间和生成时间。响应时间Response Time衡量从提交查询到输出第一个token的端到端延迟这对于实时应用至关重要。鲁棒性与错误处理幻觉率Hallucination Rate追踪生成内容中虚假信息或捏造内容的频率。拒绝率Rejection Rate衡量系统在知识库不足时拒绝回答的能力以避免产生幻觉。成功率Success Rate评估系统抵御**恶意提示jailbreak**攻击的能力反映其安全性。上下文偏见上下文偏见Contextual Bias衡量模型在误导性上下文下采纳错误假设的倾向。这在检索到有噪音的文档时尤为重要。图像和代码特定指标CIDEr SPICE用于评估图像描述的质量分别衡量文本共识和语义命题的忠实性。编辑相似度Edit Similarity - ES通过计算代码片段的编辑距离来衡量代码相似性。Passk衡量代码生成在 k 次尝试中通过自动化测试的比例。CodeBLEU在BLEU的基础上加入了抽象语法树AST和数据流的比较能捕捉代码的语法和语义正确性。人工评估指标准确性与正确性正确性与准确性Correctness Accuracy人工评估者判断生成内容是否与专家验证的答案或权威来源相符。相关性Relevance评估检索到的上下文或生成文本与用户查询的主题相关性、语法连贯性和信息适当性。幻觉与接地性幻觉与接地性Hallucination Groundedness人工标注者将幻觉分为外部幻觉完全捏造、内部幻觉对输入信息错误合成或误导性引用以量化模型捏造事实的倾向。事实正确性与一致性事实正确性与一致性Factual Correctness Consistency人工判断长篇回答是否保持内部一致性避免矛盾这能捕捉自动化指标难以发现的细微语义错误。全面性与质量全面性Comprehensiveness评估生成文本是否涵盖了查询的所有方面。质量Quality使用李克特量表如1-5分制对相关性、连贯性和无错性等进行综合打分。用户中心指标用户满意度User Satisfaction通过调查问卷衡量用户对系统的感知有用性和清晰度。系统可用性System Usability - SUS标准化的问卷来评估准确性、清晰度和易用性。标注协议和可靠性大多数研究使用多名人工标注者并采用李克特量表、二元判断或比较性判断。为了确保一致性需要定义清晰的标注指南并衡量标注者间一致性interannotator agreement如Cohen’s κ值。检索增强生成RAG技术的关键挑战尽管 RAG 技术取得了显著进展但在实际应用中仍面临一系列顽固的挑战这些挑战限制了其性能、可扩展性和适应性。1. 计算和资源权衡Computational and Resource Trade-offs延迟和内存动态查询重写、迭代式检索和扩展上下文等创新方法虽然提高了相关性但每次额外的操作都会增加延迟和内存占用。推理瓶颈RAG管道中通常先进行CPU密集型的向量搜索再进行GPU密集型的解码导致一个处理器空闲而另一个工作。尽管像PipeRAG这样的调度器试图通过重叠计算来隐藏延迟但仍需要精细的配置并且对语料库大小敏感。索引权衡近似最近邻ANN索引可以减少检索延迟但会牺牲召回率而穷举搜索则正好相反。这要求系统需要自适应调度策略以平衡ANN深度、推测解码和设备利用率。2. 噪音、异构性和多模态对齐Noise, Heterogeneity, and Multimodal Alignment数据输入噪音RAG管道的输入通常是嘈杂和异构的。例如视觉-语言转换器会压缩复杂的场景损失空间线索代码-属性图会随着项目增大而急剧膨胀导致激进的剪枝可能删除关键信息。混合检索噪音稠密向量、稀疏关键词和规则过滤器使用不兼容的评分标准。简单归一化可能导致过度或不足召回而跨编码器虽然能解决问题但会增加2-5倍的延迟。多模态对齐挑战像CLIP这样的多模态编码器会产生“语义泄露”即不相关的视觉区域影响文本相似性这在医疗等领域风险极高。知识图谱检索虽然在多跳推理方面表现出色但依赖于嘈杂的实体链接和启发式剪枝过度剪枝会删除长尾节点不足剪枝则会耗尽内存。3. 领域漂移、数据集对齐和泛化Domain Shift, Dataset Alignment, and Generalisation跨领域性能下降在一个领域如PubMed表现出色的RAG模型在没有昂贵再训练的情况下在另一个领域如法律会表现不佳。语料库的新鲜度陈旧或错误的信息会直接传播到回答中在金融和医疗等领域是高风险责任。索引刷新可以缓解漂移但需要耗时耗力的验证。评估集的偏见大多数评估集严重依赖英文维基百科这掩盖了专业领域的失败模式并可能因训练-测试重叠而夸大分数。超参数的脆弱性分块大小、k值、缓存策略等看似平常的超参数其不一致的设置可能会导致准确率和延迟曲线发生两位数的剧烈波动影响可复现性。模块化管道和错误级联Modular Pipelines and Error Cascades脆性链将检索、重排和生成分离虽然能减少幻觉但创建了脆弱的链条。第一阶段的错误排名可能会不可逆转地影响生成器。记忆和错误滚雪球记忆增强型管道虽然能减少重复但会引入陈旧和错误累积的问题。缓存中的错误信息可能会在后续轮次中被反复检索。5. LLM局限和安全风险Large-Language-Model Constraints and Safety Risks商业LLM的限制商业LLM API有按token收费、使用上限和持续网络连接等限制。开源模型虽然没有这些限制但需要昂贵的本地硬件。固定上下文窗口固定的上下文窗口会截断多文档证据导致有损分块削弱检索深度。长上下文变体虽然有帮助但无法完全恢复跨文档推理。偏见、毒性和幻觉预训练语料库中的偏见和毒性内容依然存在。检索可以减弱幻觉但无法完全消除尤其在医疗领域事实性错误会造成实际伤害。提示设计的脆弱性微小的语法编辑就可能改变回答的连贯性和事实性而恶意提示可以绕过安全防护或引出被破坏的证据。6. RAG中的安全威胁Security Threats in Retrieval-Augmented Generation语料库投毒Corpus Poisoning攻击者只需篡改极少量0.1%的语料库内容就能创建一个后门back-door。当一个秘密触发词出现时这个后门就会被激活导致RAG系统生成恶意内容。数据泄露和隐私攻击Data-Exfiltration and Privacy Attacks通过在提示中注入恶意指令可以诱使模型从私有数据存储中逐字复制内容从而泄露敏感数据。越狱和策略规避Jailbreak and Policy-Evasion通过注入对抗性内容检索器会忠实地返回这些内容从而绕过通常的防护机制。GPT-4等通常对越狱有抵抗力的模型在这种情况下也会生成被禁止的输出。那么如何系统的去学习大模型LLM作为一名从业五年的资深大模型算法工程师我经常会收到一些评论和私信我是小白学习大模型该从哪里入手呢我自学没有方向怎么办这个地方我不会啊。如果你也有类似的经历一定要继续看下去这些问题啊也不是三言两语啊就能讲明白的。所以我综合了大模型的所有知识点给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢我就曾放空大脑以一个大模型小白的角度去重新解析它采用基础知识和实战项目相结合的教学方式历时3个月终于完成了这样的课程让你真正体会到什么是每一秒都在疯狂输出知识点。由于篇幅有限⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》扫码获取~为什么要学习大模型我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年人才缺口已超百万凸显培养不足。随着AI技术飞速发展预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。大模型学习指南路线汇总我们这套大模型资料呢会从基础篇、进阶篇和项目实战篇等三大方面来讲解。①.基础篇基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念用最易懂的方式带你入门大模型。②.进阶篇接下来是进阶篇你将掌握RAG、Agent、Langchain、大模型微调和私有化部署学习如何构建外挂知识库并和自己的企业相结合学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。③.实战篇实战篇会手把手带着大家练习企业级的落地项目已脱敏比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等从而帮助大家更好的应对大模型时代的挑战。④.福利篇最后呢会给大家一个小福利课程视频中的所有素材有搭建AI开发环境资料包还有学习计划表几十上百G素材、电子书和课件等等只要你能想到的素材我这里几乎都有。我已经全部上传到CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】相信我这套大模型系统教程将会是全网最齐全 最易懂的小白专用课

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询