2026/1/9 7:48:01
网站建设
项目流程
深圳精品网站制作,网站外链发布平台,重庆网站建设招标,wordpress ios sharedReasonRAG是由港城大与华为诺亚方舟实验室提出的基于过程监督的Agentic RAG训练框架#xff0c;通过SPRE设计过程级奖励#xff0c;结合MCTS探索高质量推理路径#xff0c;构建了首个过程监督数据集RAG-ProGuide。该方法仅需5k训练数据就在多个评测集上超越了需90k数据的SOT…ReasonRAG是由港城大与华为诺亚方舟实验室提出的基于过程监督的Agentic RAG训练框架通过SPRE设计过程级奖励结合MCTS探索高质量推理路径构建了首个过程监督数据集RAG-ProGuide。该方法仅需5k训练数据就在多个评测集上超越了需90k数据的SOTA模型显著提升了数据效率、多跳推理能力和跨领域泛化性能为复杂推理任务提供了更细粒度、更稳定的优化信号。相关代码与数据已开源。今天为大家分享来自香港城市大学与华为诺亚方舟实验室的最新工作ReasonRAG。该工作提出一种过程监督的Agentic RAG训练框架通过为模型推理的每一步提供细粒度的“过程奖励”显著提升了复杂推理任务的性能与效率。作者还为此构建了首个过程监督偏好数据集RAG-ProGuide。该方法仅用 5k 数据就在多个权威评测集上超越了需 90k 数据训练的 SOTA 模型展现出极高的数据效率。相关代码与数据已开源。随着大语言模型LLMs不断在开放域问答与复杂推理任务中取得突破检索增强生成Retrieval-Augmented Generation, RAG成为连接语言模型与外部知识的重要桥梁。然而传统RAG系统多采用静态、线性工作流无法胜任需要多轮检索、多步思考的复杂任务。为突破这一限制“Agentic RAG”应运而生——它让模型能够自主决策是否检索、生成查询、抽取证据、合成答案在复杂推理中表现出更强的灵活性。近期如Search-R1等方法将强化学习引入Agentic RAG训练流程通过最终答案的正确与否作为唯一奖励信号取得了一定进展。但这类结果级奖励Outcome Reward方法依然存在三大痛点探索效率低奖励仅在完整推理结束后才反馈训练不充分梯度冲突严重后续错误会误伤前序正确推理步骤奖励稀疏且单一缺乏细粒度信号导致模型难以有效学习复杂策略。为此团队首次将过程监督强化学习方法系统性引入Agentic RAG训练流程构建出全新框架——ReasonRAG。该方法通过细粒度奖励机制、基于搜索的路径构建和偏好优化训练策略显著提升了模型在多跳问答、多轮推理场景下的能力。在多个权威评测集上ReasonRAG在仅使用5k训练数据的情况下就超越了使用90k数据训练的Search-R1。技术难点实现Agentic RAG过程监督优化面临两大核心挑战**如何定义高质量过程奖励**奖励不仅要判断模型推理是否正确更要引导其走出最短、最有效的路径。路径太长即使正确也不应被鼓励。**如何自动标注过程监督数据**高质量的中间步骤通常需要人工标注但这种方式耗时耗力、难以扩展。如何让模型自动生成有监督的中间推理步骤成为关键。方法ReasonRAG 由五个核心组件构成形成了从数据自动生成到策略训练、推理部署的闭环体系Figure 2a 展示了过程监督数据的构建流程包括SPRE奖励设计与MCTS路径探索Figure 2b 展示了ReasonRAG在Agentic RAG推理任务中的动态推理流程。整个框架可分为以下步骤使用**Shortest Path Reward EstimationSPRE**设计过程级奖励借助MCTS搜索算法在Agentic推理空间中探索高质量中间步骤自动生成过程偏好数据集RAG-ProGuide基于该数据集进行偏好策略优化DPO模型在推理时根据任务复杂度动态决定检索与回答流程。1. SPRE定义“最短路径奖励函数”传统的强化学习中reward通常只针对最终结果。但在Agentic RAG中每一步推理决策如生成查询或提取证据都会影响整体推理质量。因此ReasonRAG提出Shortest Path Reward EstimationSPRE为每一步决策分配一个过程奖励。该方法会对当前推理路径进行多次模拟Monte Carlo rollout模拟完整推理过程并评估其最终正确性与路径长度。SPRE通过惩罚冗长路径引导模型学会以更短、更精准的方式完成任务从而实现效率与准确性兼顾的学习目标。这种奖励机制为训练过程提供了高频、结构化、动态的反馈信号。2. MCTS在庞大推理空间中自动探索为了从海量可能的推理路径中找到优质策略ReasonRAG引入了经典的 Monte Carlo Tree SearchMCTS将整个Agentic RAG推理过程形式化为状态-动作树state-action tree并在该树上进行探索。在这一框架中模型的推理行为被抽象为三个主要阶段构成状态空间的核心Reasoning阶段模型判断当前是否应该生成新的查询进行检索还是直接生成最终答案。若生成查询则执行一次文档检索操作返回结果将追加至当前状态若直接生成答案则跳转至终止阶段。Grounding阶段从检索结果中抽取关键信息片段为接下来的回答或进一步推理提供支撑。完成后返回Reasoning阶段。Terminal阶段模型生成最终答案并结束推理流程整个推理轨迹完成。在每个推理步骤中模型根据当前状态依赖策略选择下一步动作。其策略定义如下在不同推理阶段模型依据不同的上下文信息决定行为生成方式。这种条件化动作生成方式为MCTS提供了稳定、灵活的搜索基础进而通过UCB策略平衡“探索新路径”和“利用高分路径”高效构建出覆盖多策略空间的推理轨迹。3. RAG-ProGuide过程监督数据集构建基于SPRE和MCTS作者构建了首个专为过程级奖励设计的Agentic RAG数据集RAG-ProGuide。该数据集从三个常见QA数据集中PopQA、HotpotQA、2WikiMultiHopQA采样4603个问题通过MCTSSPRE生成13,289对高质量过程偏好样本。这些样本覆盖三类关键行为查询生成Query Generation证据提取Evidence Extraction答案生成Answer Generation如上图所示RAG-ProGuide覆盖了单跳与多跳任务场景、多轮推理过程、多种类型的行为偏好对并反映了Agentic RAG系统在动态决策过程中的各个关键子任务。4. 偏好策略优化在拥有RAG-ProGuide数据集之后ReasonRAG使用Direct Preference OptimizationDPO进行过程级别的策略优化。5. Agentic RAG 推理流程ReasonRAG通过设计合理的**推理控制流Inference Pipeline**实现了模型的自主决策。整个流程以模块化方式进行模型可动态在多个状态之间跳转并在必要时调用外部检索器以辅助生成答案。模型从初始状态开始最多进行轮推理。在每一轮中模型依据当前状态调用策略函数决定接下来的动作如果处于 Reasoning 状态模型需判断是否继续生成查询或答案通过或进行标识。如果生成答案则进入Terminal状态生成query则调用检索器并进入Grounding状态如果处于 Grounding 状态模型需要根据Query从文档中提取以标识的相关证据并进入Reasoning状态实验结果性能对比论文在五个权威问答数据集上与12个SOTA方法进行了系统对比结果展示了ReasonRAG在数据效率、多跳推理和泛化能力上的显著优势数据效率高仅用5k训练样本ReasonRAG即在平均EM34.4%和F142.3%上超越Search-R1训练数据90kEM 32.8%F1 40.7%。过程奖励显著优于传统的结果奖励。多跳推理更强在HotpotQA上ReasonRAG以48.9%的F1分数超越AutoRAG43.7%和Search-R147.0%展现出强大的复杂推理整合能力。跨领域泛化能力好在Bamboogle和MuSiQue等挑战性测试集上ReasonRAG表现稳定领先显示其推理策略具备良好的迁移性与鲁棒性。训练效率ReasonRAG在PopQA、HotpotQA和2WikiMultiHopQA上的EM表现随GPU小时数增长始终快于Search-R1表明其更高的训练效率。优化策略实验进一步对比了不同优化策略的效果包括基础模型Base、监督微调SFT、结果监督ORL和过程监督PRL。结果显示ReasonRAG在所有数据集上均取得最佳性能表明过程奖励所带来的精细化反馈机制更有助于学习复杂的推理策略。搜索适应性ReasonRAG展示出出色的搜索控制能力对于简单任务自动快速终止对于复杂问题则执行多轮搜索推理。在不同的Top-k检索设定下模型表现出如下规律Top-1 时上下文信息不足性能受限Top-3 显著提升各任务表现Top-5 对PopQA和HotpotQA无进一步增益但对2WikiMultiHopQA这类多跳任务继续有效。这一结果表明ReasonRAG不仅能灵活适应任务复杂度还能高效利用额外检索信息尤其适合处理多源、多轮、多跳问题。总结与未来方向ReasonRAG 提出了一种基于过程奖励的 Agentic RAG 强化学习训练范式展现出在训练效率、复杂推理能力与泛化性能上的潜力。相比传统结果监督方法过程级监督提供了更细粒度、更稳定的优化信号尤其适用于多轮、复杂任务的学习。未来可进一步探索构建更丰富的过程奖励体系引入信息冗余惩罚等多维反馈信号推广至更多任务场景如多模态问答、代码推理、复杂工具调用等 agentic 应用最后我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包✅AI大模型学习路线图✅Agent行业报告✅100集大模型视频教程✅大模型书籍PDF✅DeepSeek教程✅AI产品经理入门资料完整的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】为什么说现在普通人就业/升职加薪的首选是AI大模型人工智能技术的爆发式增长正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议到全国两会关于AI产业发展的政策聚焦再到招聘会上排起的长队AI的热度已从技术领域渗透到就业市场的每一个角落。智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200%远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。资料包有什么①从入门到精通的全套视频教程⑤⑥包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图还有视频解说全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤ 这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频教程由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念通过动态追踪大模型开发、数据标注伦理等前沿技术趋势构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界。业务赋能 突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】**