2026/3/19 14:14:44
网站建设
项目流程
公司做公司网站,北京 网站建设 公,ueeshop外贸建站公司,线上培训平台RAG效果不及预期#xff0c;试试这10个上下文处理优化技巧
**对大部分开发者来说#xff0c;搭一个RAG或者agent不难#xff0c;怎么把它优化成生产可用的状态最难。
在这个过程中#xff0c;检索效率、准确性、成本、响应速度#xff0c;都是重点关注问题。
那么…RAG效果不及预期试试这10个上下文处理优化技巧**对大部分开发者来说搭一个RAG或者agent不难怎么把它优化成生产可用的状态最难。在这个过程中检索效率、准确性、成本、响应速度都是重点关注问题。那么如何对其进行优化业内一致看好Context Engineering也就是上下文工程。本系列文章将从上下文工程的不同环节上下文处理与生成、上下文处理、上下文管理最新的行业探索与进展进行解读。本文为系列第一篇上下文处理篇。01如何理解Context Engineering上下文工程的本质是通过动态构建、优化LLM推理时的信息负载含查询、外部知识、历史对话等比“提示词”更宽泛提升系统长期性能与效率。它是算法驱动的系统级优化涵盖提示词工程、RAG、多智能体等技术从框架来看上下文工程分为基础组件信息生命周期核心模块和复杂系统实现组件的高级集成应用二者可灵活组合适配不同场景。其中基础组件包括上下文检索与生成从提示词、外部知识库等获取原始信息通过动态组装形成适配任务的上下文上下文处理通过压缩、摘要、结构化转换等技术精炼原始信息适配模型理解与推理上下文管理构建内存层次、运用压缩技术在资源约束下高效存储、调度上下文信息复杂系统实现包括检索增强生成RAG结合信息检索与LLM生成从外部知识库获取“证据”解决知识陈旧和幻觉问题含模块化、智能体、图增强等架构记忆系统管理运行过程中的动态“经验”分短期/长期记忆支撑持久交互与长期学习工具集成推理赋予LLM调用外部工具/API的能力扩展任务边界需处理工具数据与上下文更新多智能体系统多个具备专业能力的智能体协作通过通信协调完成复杂任务需管理共享上下文与全局状态02上下文处理的行业进展与方法构成上下文工程的三大核心技术支柱上下文检索与生成、上下文处理以及上下文管理。这些技术方法是实现高效、智能上下文系统的具体手段。其中上下文处理是上下文工程的第二个核心组件它专注于对获取到的上下文信息进行转换和优化以克服LLM在处理复杂信息时面临的挑战并最大化信息的效用。以下为行业关于上下文处理所做出的一些行之有效的探索。1长上下文处理 (Long Context Processing)处理超长序列上下文是LLM面临的一个根本性挑战主要源于Transformer自注意力机制O(n²)的计算复杂度这导致了随着序列长度增加而急剧增长的计算和内存瓶颈。例如将Mistral-7B的输入从4K tokens增加到128K tokens计算量会增加122倍。Llama 3.1 8B在处理128K tokens的请求时可能需要高达16GB的内存。为了解决这些问题研究者们从架构创新、位置插值和优化技术等多个角度进行了探索。a. 架构创新 (如 State Space Models, Dilated Attention)为了从根本上解决Transformer的二次复杂度问题研究者们提出了一系列创新的模型架构。状态空间模型State Space Models, SSMsSSMs通过使用固定大小的隐藏状态实现了线性的计算复杂度和恒定的内存需求。像Mamba这样的模型提供了高效的循环计算机制其扩展性远优于传统的Transformer。扩张注意力Dilated Attention以LongNet为代表的方法采用随着token距离增加而指数级扩张的注意力域实现了线性的计算复杂度同时保持了token之间的对数依赖性使其能够处理超过十亿tokens的序列。托普利茨神经网络Toeplitz Neural Networks, TNNsTNNs使用相对位置编码的托普利茨矩阵来建模序列将时空复杂度降低到对数线性级别并实现了从512个训练tokens到14,000个推理tokens的有效外推。线性注意力Linear Attention通过将自注意力表示为核特征映射的线性点积线性注意力机制将复杂度从O(N²)降低到O(N)在处理极长序列时实现了高达4000倍的加速。b.位置插值与上下文扩展 (如 YaRN, Self-Extend)对于已经预训练好的模型直接扩展其上下文窗口长度是一个挑战。位置插值技术通过在推理时智能地重新缩放位置索引而不是外推到未见过的位置从而实现了对更长序列的处理。神经正切核Neural Tangent Kernel, NTK方法YaRNYet another RoPE-based Interpolation method结合了NTK插值、线性插值和注意力分布校正为上下文扩展提供了数学上更严谨的框架。两阶段扩展方法LongRoPE通过两阶段方法实现了2048K tokens的上下文窗口首先将模型微调至256K长度然后进行位置插值以达到最大上下文长度。无需微调的技术Self-Extend等技术允许LLM在不进行任何微调的情况下处理长上下文它通过采用双层注意力策略——分组注意力和邻近注意力——来捕获远距离和相邻token之间的依赖关系。c.优化技术 (如 FlashAttention, Sparse Attention)在不改变模型基本架构的前提下研究者们还开发了多种优化技术来提高长上下文处理的效率。分组查询注意力Grouped-Query Attention, GQAGQA将查询头分组每组共享键和值头在多查询注意力和多头注意力之间取得了平衡显著降低了解码过程中的内存需求。FlashAttentionFlashAttention利用GPU内存层次结构的不对称性实现了线性的内存扩展而不是二次方增长。其后续版本FlashAttention-2通过减少非矩阵乘法操作和优化工作分配实现了约两倍的速度提升。稀疏注意力Sparse Attention通过只计算部分token之间的注意力权重稀疏注意力技术可以大幅降低计算量。例如BigBird结合了局部注意力、全局token和随机连接能够高效处理比以往长8倍的序列。StreamingLLM则通过保留关键的“注意力汇聚”attention sinktoken和最近的KV缓存条目实现了对无限长序列的处理在处理400万tokens的序列时速度比滑动窗口重计算快22.2倍。内存管理与压缩H₂OHeavy Hitter Oracle提出了一种高效的KV缓存驱逐策略基于观察到少数token贡献了大部分注意力值的原理在提高吞吐量的同时降低了延迟。Infini-attention则将压缩记忆整合到 vanilla attention 中结合了掩码局部注意力和长期线性注意力使得处理无限长输入时的内存和计算都是有界的。(2)上下文自我精炼与适应 (Contextual Self-Refinement and Adaptation)上下文自我精炼与适应是一种让大型语言模型模仿人类修订过程通过循环反馈机制自主改进其输出的技术范式。与依赖外部奖励模型的强化学习方法不同自我精炼主要通过模型自身的自我评估和对话式交互来实现通常利用精心设计的提示词工程来引导模型进行迭代优化。这种方法的核心思想是对于一个给定的任务识别并修正错误往往比一次性生成完美解决方案更容易。通过赋予模型自我批判和修正的能力可以显著提升其在复杂推理、代码生成、创意写作等任务上的表现并使其能够更好地适应新的任务和环境。a.基础自我精炼框架 (如 Self-Refine, Reflexion)一系列基础框架为上下文自我精炼提供了具体的实现路径。Self-Refine框架是一个典型的代表它使用同一个LLM同时扮演生成器generator、反馈提供者feedback provider和精炼器refiner的角色。模型首先生成一个初始解决方案然后对自己的输出提供具体的、可操作的反馈最后根据这些反馈对解决方案进行精炼。这个过程可以循环多次直到达到满意的结果。Reflexion框架则更进一步它引入了“反思文本”reflective text的概念将模型在任务执行过程中的失败经验和教训以自然语言的形式存储在情节记忆缓冲区episodic memory buffer中。这些反思文本在后续的任务中可以被检索出来作为指导模型决策的上下文从而避免重复犯错。然而研究也表明简单的提示词往往不足以实现可靠的自我修正因此需要更结构化的引导。例如N-CRITICS框架采用基于集成ensemble-based的评估方法让多个不同的模型或同一个模型的不同实例对初始输出进行评估并汇总它们的反馈来指导精炼过程从而获得更全面、更独立的评价。b. 元学习与自主进化 (如 SELF, Self-rewarding)上下文自我精炼的高级阶段是元学习Meta-Learning和自主进化Autonomous Evolution其目标是让模型不仅学会解决具体任务更学会如何学习learning to learn。SELF框架通过少量示例教会LLM元技能如自我反馈和自我精炼然后让模型通过生成和筛选自己的训练数据来进行持续的自我进化。自奖励Self-rewarding 机制则让模型通过迭代式的自我评判来自主提升模型同时扮演执行者performer和评判者judge的角色通过最大化自己给自己分配的奖励来优化行为。Creator框架将这种范式扩展到工具使用使LLM能够自主地创建和使用自己的工具通过一个包含创建、决策、执行和识别的四模块流程来完成复杂任务。而Self-Developing框架则代表了最高度的自主性它使LLM能够自主地发现、实现和精炼自己的改进算法通过迭代循环生成算法候选者作为可执行代码从而实现真正的自我发展。这些框架共同指向了一个长期演变方向即LLM将不再是静态的工具而是能够持续学习和进化的智能体。(3)多模态上下文 (Multimodal Context)多模态上下文工程旨在将大型语言模型的能力从纯文本领域扩展到能够理解和处理包含视觉、听觉、3D环境等多种数据类型的复杂现实世界场景。通过将不同模态的信息整合到统一的上下文表示中多模态大型语言模型MLLMs能够执行图像描述、视觉问答、视频理解等更为复杂的任务。然而这种扩展也带来了新的挑战包括如何有效地融合不同模态的信息、如何进行跨模态的推理以及如何高效地处理长序列的多模态数据。该领域的研究致力于构建能够像人类一样综合利用多种感官信息来理解世界的智能系统。a.模态融合与跨模态推理模态融合是多模态上下文处理的核心其目标是将来自不同来源如图像、文本、音频的信息整合成一个连贯、统一的表示。基础的融合方法通常是将视觉输入通过专门的编码器如CLIP转换为一系列离散的token然后与文本token拼接共同输入到LLM中。然而这种简单的拼接可能无法实现深度的语义融合。更先进的策略如交叉模态注意力机制cross-modal attention 允许模型在LLM的嵌入空间内直接学习文本token和视觉token之间的细粒度依赖关系从而增强对图像编辑等任务的理解。为了处理长序列输入分层设计hierarchical designs 将不同模态的处理分阶段进行以确保可扩展性。此外一些研究尝试绕过对纯文本LLM的适配采用从一开始就联合预训练多模态数据和文本语料的统一训练范式以从根本上缓解模态对齐的挑战。跨模态推理则要求模型不仅能理解每个模态还能推断它们组合后的整体含义例如理解一张图片和一段文字共同表达的讽刺意味。b.多模态编码器与对齐模块 (如 CLIP, Q-Former)实现多模态融合的关键技术组件是外部的多模态编码器和连接它们与LLM主干的对齐模块alignment modules 。目前主流的架构范式是使用专门的多模态编码器来处理特定类型的数据例如使用CLIPContrastive Language-Image Pre-training模型来处理视觉信息或使用CLAPContrastive Language-Audio Pre-training模型来处理音频信息。这些编码器将原始的多模态数据如像素、声波转换为高维的特征向量。接下来对齐模块负责将这些特征向量映射到LLM的嵌入空间中使其能够与文本token进行交互。常见的对齐模块包括简单的多层感知机MLP和更复杂的Q-FormerQuerying Transformer。Q-Former通过一个可学习的查询token集合来从视觉编码器的输出中提取与文本最相关的视觉特征从而实现更精细的模态对齐。这种模块化的设计允许独立地更新多模态编码器而无需对整个LLM进行重新训练提供了极大的灵活性。(4)关系型与结构化上下文 (Relational and Structured Context)大型语言模型在处理表格、数据库、知识图谱等关系型和结构化数据时面临着根本性的限制。其主要原因在于LLM的输入是基于线性序列的文本而结构化数据内部蕴含着复杂的、非线性的关系和层次结构。将结构化数据简单地线性化例如将表格的每一行转换成一句话往往会丢失关键的结构性信息导致模型性能下降尤其是在信息分散在上下文不同位置时。为了克服这一挑战研究者们探索了多种方法旨在将结构化信息以一种LLM能够有效利用的方式编码和整合从而提升模型在需要复杂推理和事实核查的任务上的表现。a. 知识图谱与神经网络集成知识图谱Knowledge Graphs, KGs作为一种强大的结构化知识表示形式其与LLM的集成是当前研究的热点。一种直接的方法是利用知识图谱嵌入Knowledge Graph Embeddings 将图谱中的实体和关系转换为低维的数值向量。这些嵌入向量可以被整合到LLM的输入或内部表示中为模型提供结构化的背景知识。更进一步的集成方式是引入图神经网络Graph Neural Networks, GNNs 。GNNs能够直接在图结构上进行计算捕捉实体之间复杂的多跳multi-hop关系。一些混合架构如GraphFormers将GNN组件嵌套在Transformer块中实现了语言上下文和图结构信息的深度交互。例如GreaseLM模型在所有模型层中促进了语言上下文表示和结构化世界知识之间的双向交互使得两者能够相互增强。QA-GNN则通过构建联合图和基于图的消息传递机制实现了问答上下文和知识图谱之间的双向注意力连接。b. 文字化技术 (Verbalization)文字化Verbalization是一种将结构化数据如知识图谱三元组、表格行、数据库记录转换为自然语言句子的技术。这种方法的优势在于它无需对现有的LLM架构进行任何修改即可将结构化信息无缝地整合到语言系统中。例如一个知识图谱三元组(Albert Einstein, bornIn, Ulm)可以被转换成句子“阿尔伯特·爱因斯坦出生于乌尔姆”。然而简单的文字化可能无法完全保留原始数据的结构和关系。因此研究者们也探索了使用编程语言如Python或SQL来表示结构化数据。研究表明在复杂的推理任务中使用Python实现知识图谱或SQL查询数据库其性能优于传统的自然语言表示因为它们能够更好地利用数据固有的结构性。此外一些方法还利用LLM自身的能力来提取结构化信息并将其表示为图、表格或关系模式从而实现对输入文本的多层次结构化。c.混合架构 (如 GraphToken, Heterformer)为了更有效地处理结构化数据研究者们设计了多种混合架构将LLM与专门处理图结构的模块相结合。GraphToken 是一个典型的例子它通过引入参数高效的编码函数显式地将结构信息表示为特殊的token在图推理任务上取得了高达73个百分点的性能提升。Heterformer 等混合GNN-LM架构则在统一的模型中执行上下文相关的文本编码和异构图结构编码解决了扩展这些集成系统时面临的计算挑战。这些混合架构通常遵循不同的集成范式。例如K-BERT 在预训练阶段就将知识图谱三元组注入到模型中使模型内化事实知识。而KAPING等推理时inference-time方法则通过检索相关事实并将其前置到提示词中实现了无需重新训练模型的实时知识访问。更复杂的实现如通过适配器模块和交叉注意力机制将知识图谱衍生的表示直接嵌入到模型的潜在空间中实现了更深度的融合。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】