2026/2/13 5:04:21
网站建设
项目流程
如何做淘宝客个人网站,网站的建设,招生引流100个方法,嵌入式软件开发工具有哪些背景
大语言模型的推理能力受限于训练数据的质量和覆盖范围#xff0c;检索增强生成#xff08;RAG#xff09;技术应运而生#xff1a;让模型在回答时调用外部知识库#xff0c;弥补相关知识缺口。但现有RAG方法存在两个关键问题#xff1a;
噪音干扰#xff1a;检索…背景大语言模型的推理能力受限于训练数据的质量和覆盖范围检索增强生成RAG技术应运而生让模型在回答时调用外部知识库弥补相关知识缺口。但现有RAG方法存在两个关键问题噪音干扰检索到的文档往往包含大量无关信息模型直接基于原始文档推理容易被带偏。比如多跳QA任务中模型需要多次检索才能找到答案若第一次检索到噪音文档后续推理会一错再错。训练指导不足传统训练只关注最终答案的正确性缺乏对中间检索过程的奖励模型难以学会有效检索和利用信息。比如模型可能生成模糊的检索 query导致拿到的文档和问题无关但只要最终答案对了依然能获得奖励这种“治标不治本”的方式限制了模型的长期性能。这些问题让检索增强推理在复杂任务中效果大打折扣尤其是多跳推理。模型需要像人类一样一步一步地检索信息但现有方法缺乏引导容易在中途迷失。为了解决这个问题中国科学技术大学、新加坡国立大学等机构的团队提出了AutoRefine通过在推理中加入“知识精炼”步骤让模型学会过滤噪音、高效利用检索信息在复杂QA任务中准确率比最强基线高了6.9%。热力评分87分AutoRefine 提出了一种新的 search-and-refine-during-think推理范式在连续检索过程中显式引入知识精炼步骤并通过结合结果导向奖励答案正确性与检索特定奖励精炼质量利用 GRPO 进行后训练优化。实验结果显示AutoRefine 在 7 个 QA 数据集上平均准确率提升 6.9%在多跳场景中相对提升高达 21%–26.7%显著优于 Search-R1、ReSearch 等主流基线验证了显式精炼与双奖励机制在复杂推理任务中的关键作用。从工程与落地角度看AutoRefine 通过精炼步骤将推理上下文长度从 600 tokens 压缩至约 100–200 tokens实现 3–6 倍的上下文缩减具备明确的推理成本降低潜力同时该方法基于 RL 后训练不依赖昂贵的高质量搜索轨迹标注减少了 SFT 阶段的数据构建成本。整体而言AutoRefine 在创新性、方法完整性和实用价值之间取得了较好平衡并且相关代码已开源。方法亮点AutoRefine的核心是search-and-refine-during-think范式在模型的思考和检索过程中加入知识精炼步骤并设计针对性的奖励机制让模型学会“边检索、边消化、边推理”。1. 结构化轨迹生成边检索边精炼AutoRefine让模型在推理时生成包含四个步骤的轨迹think→search→refine→answer每个步骤各司其职•think规划下一步检索方向。比如回答“贝克汉姆最后效力球队的主场”时模型会先想“我需要先查他最后效力的球队”。•search生成检索 query从外部知识库获取相关文档。•refine关键步骤模型从检索到的文档中提炼关键信息过滤噪音。比如从“贝克汉姆职业生涯”文档中只保留“最后效力巴黎圣日耳曼”这一核心信息。•answer基于精炼后的信息给出最终答案。为了让模型学会这套流程团队设计了专门的提示模板明确每个步骤的任务。这种结构化的推理方式就像给模型配备了信息过滤器让它在每一步检索后都能“消化”有用信息避免被噪音带偏。2. 双奖励机制既看结果也看过程传统训练只奖励最终答案的正确性AutoRefine则加入了检索特定奖励同时关注结果和过程•结果奖励用F1分数衡量最终答案的正确性和传统方法一致。•检索特定奖励评估refine步骤的质量——如果提炼的信息包含答案的关键内容比如“巴黎圣日耳曼的主场是王子公园球场”就给予奖励。整体奖励计算很巧妙如果答案正确直接获得结果奖励如果答案错了但提炼出了关键信息比如知道了球队名称但主场记错给予0.1的部分奖励如果两者都没有奖励为0。这种设计既鼓励模型追求正确答案又引导它在中间步骤中学会有效精炼信息。AutoRefine 的训练流程3. GRPO优化让模型学会“自主进化”AutoRefine用Group Relative Policy OptimizationGRPO算法训练模型。具体来说• 模型生成多个推理轨迹不同的检索 query 和精炼内容• 根据双奖励机制计算每个轨迹的优势好坏程度• 调整模型参数让好的轨迹出现的概率更高同时用KL散度正则化避免模型走极端。训练时还会屏蔽检索到的原始文档的损失因为文档是外部知识库提供的不是模型生成的这样模型只会专注于优化自己的推理和精炼能力。实验结果团队在7个QA基准数据集3个单跳、4个多跳上测试了AutoRefine结果相当惊艳1. 整体性能平均准确率提升6.9%在各类问答基准上AutoRefine 与基于 Qwen2.5-3B 的基线方法的准确率对比AutoRefine在所有数据集上都超过了最强基线如Search-R1、ReSearch平均准确率高了6.9%。尤其是多跳任务提升更明显• 在2Wiki上准确率比基线高8.3%相对提升21%• 在Musique上准确率提升4.5%相对提升26.7%。这说明AutoRefine在处理复杂推理任务时能有效避免噪音干扰一步步找到正确答案。2. 搜索行为更聪明更高效分析模型的搜索行为发现•自适应搜索频率单跳任务平均搜索1.2次多跳任务平均搜索2.5次——模型学会了根据任务复杂度调整检索次数。AutoRefine 每次 rollout 平均发起的搜索调用次数•更高的搜索质量在多跳任务中AutoRefine的搜索成功率超过50%比基线高10-15%这说明模型生成的query更精准能直接命中关键文档。检索增强推理方法的搜索成功率对比3. 精炼步骤压缩噪音保留关键精炼步骤能把检索到的文档长度压缩到原来的1/4从600 tokens降到100 tokens同时保留关键信息。比如检索到的文档可能有贝克汉姆的转会历史、荣誉等内容但精炼后只留下“最后效力巴黎圣日耳曼”这一核心信息错误率和原始文档相当。知识精炼能在保留检索文档中关键信息的同时缩短上下文长度4. 稳定性不怕更多噪音当检索深度从1增加到7即每次返回更多文档噪音也更多时AutoRefine依然能保持稳定提升。比如检索深度为5时准确率提升最多9%说明它的精炼步骤能有效过滤多文档带来的噪音。在不同检索深度下的下游准确率对比5. 消融实验关键组件缺一不可去掉检索奖励后模型平均准确率下降2.9%同时去掉检索奖励和精炼步骤准确率下降9.3%。这说明精炼步骤和双奖励机制是AutoRefine表现出色的核心。AutoRefine 关键组件的消融实验结论与展望AutoRefine通过“search-and-refine-during-think”范式和双奖励机制有效解决了检索增强推理中的噪音干扰和训练指导不足问题大幅提升了模型在复杂QA任务中的表现。它的核心创新是让模型学会“边检索边消化”信息而不是直接地用原始文档推理。尽管 AutoRefine 显著提升了检索增强推理中的信息利用效率但其方法仍存在一定局限。一方面在语义模糊或涉及多维专业视角的问题中多方向检索容易引入大量弱相关文档增加精炼阶段的噪声过滤难度影响推理稳定性。另一方面知识精炼完全由模型自身完成其效果高度依赖基座模型能力对于能力较弱的模型该方法难以突破固有的理解与抽象上限。总体来看AutoRefine 并非单纯提升检索或推理能力而是首次将“信息精炼”作为显式的、可优化的中间环节引入检索增强推理框架并通过奖励机制对其进行直接约束。这一设计为 RAG 从“检索驱动”迈向“信息利用驱动”提供了清晰路径也为后续在更复杂推理任务中引入结构化中间过程奠定了方法基础。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】