2026/3/26 22:18:47
网站建设
项目流程
中学生怎么做网站,旅游网站建设策划书范文,做的网站太大怎么办,广州网站优化工具北邮百家AI团队 投稿量子位 | 公众号 QbitAI深度思考大模型面临的“跷跷板”困境#xff0c;这下有解了#xff01;现有RL驱动的深度思考大模型常常面临准确率与效率的“跷跷板”困境——频繁调用搜索工具能提升准确性#xff0c;却带来计算开销和效率低下。对此#xff0c…北邮百家AI团队 投稿量子位 | 公众号 QbitAI深度思考大模型面临的“跷跷板”困境这下有解了现有RL驱动的深度思考大模型常常面临准确率与效率的“跷跷板”困境——频繁调用搜索工具能提升准确性却带来计算开销和效率低下。对此北邮百家AI团队提出LightSearcher框架首创基于经验记忆的高效RL优化技术不依赖额外数据仅通过引入经验记忆机制实现Agent工具调用高效自主优化解决痛点问题。在保持与SOTA基线ReSearch相当准确率的同时搜索工具调用和模型回复时间显著缩短搜索工具调用次数减少39.6%推理时间缩短48.6%Token消耗降低21.2%在保持模型效果的同时显著提升了工具调用效率。团队表示以DeepSeek-R1为代表的深度思考大模型能够处理复杂的推理任务DeepSearch作为深度思考大模型的核心搜索器在推理过程中通过迭代调用外部搜索工具访问参数边界之外的最新、领域特定知识从而提升推理的深度和事实可靠性。不过虽然高频调用外部搜索工具能补充实时信息、提升推理准确率但使得推理延迟大幅升高等待时间可达几十秒至几分钟。而从用户体验角度来看若信息加载时间超过10秒50%的移动用户会放弃访问。因此深度思考大模型系统的长时推理等待无疑会带来类似的用户流失风险。反之减少工具调用以提升效率则会因大语言模型内部知识局限导致推理结果准确性与完整性不足。面对这一两难困境LightSearcher框架应运而生。LightSearcher框架如何教会深度思考大模型策略性地控制搜索工具的使用优化何时以及如何查询外部知识源是深度思考大模型亟待解决的问题现有方法存在显著缺陷1、提示工程或监督学习方法依赖人工标注成本高且泛化差RL驱动方法虽能自主优化但奖励偏重准确性导致模型为确保正确而频繁调用工具造成冗余开销。2、工具调用“过度依赖”现有模型往往不分难易对简单查询也反复检索导致推理时间延长、token消耗激增。3、 准确性与效率失衡部分方法虽提升准确率但牺牲效率另一些虽减少调用却降低答案质量无法兼顾双重目标。这些问题导致现有模型要么要么答案不准、可靠性差要么工具调用过多、效率低下难以同时满足推理准确和高效执行的核心需求。为解决上述缺陷北邮百家AI团队提出基于经验记忆的高效DeepSearch框架——LightSearcher。核心思路是在大模型强化推理过程中通过“对比经验学习”将隐性推理轨迹转化为显性指导经验并结合自适应奖励优化工具调用。具体包含三大关键组件对比经验推理机制Contrastive Experiential Reasoning收集高低质量推理轨迹通过LLM生成成功模式的自然语言总结如“简单查询优先用内部知识”构建动态经验记忆库自适应奖励塑造机制Adaptive Reward Shaping引入最小工具调用基准仅在答案正确时惩罚冗余调用使用指数衰减函数动态平衡准确性和效率避免盲目优化基于经验的RL训练机制采用GRPO算法将积累经验和少样本示例融入提示模板指导模型生成高效轨迹确保探索与利用的均衡。模型最终优化目标为多目标奖励函数的加权和确保工具调用精简与答案质量的协同提升。实验研究团队在四个多跳QA基准数据集NQ、HotpotQA、Musique、2WikiMultihopQA上进行了全面评估对比了多种主流DeepSearch方法。主实验结果实验结果显示:1、模型准确性保持顶尖: LightSearcher在F1分数和LLM评判上与SOTA基线ReSearch相当甚至在部分数据集上优于ReSearch2、效率显著提升: 工具调用减少39.6%推理时间缩短48.6%token消耗降低21.2%3、泛化能力强在不同难度的查询易/难上均表现稳定即使在域外测试集也能超越依赖固定检索的迭代方法。消融实验移除经验导致F1下降7.2%证明其核心作用。团队表示LightSearcher框架通过“经验记忆”这一核心理念为构建高效、可靠的深度推理系统提供了新路径。尽管目前限于多跳QA未来可扩展到代码合成、策略规划等领域。它成功解决了现有DeepSearch的关键痛点从隐性到显性将对比轨迹转化为可解释的推理指导精准平衡通过自适应奖励确保工具调用最小化效率优先利用RL训练维持准确与开销的连贯性双重优化:同时提升推理质量和执行效率而非顾此失彼。最后大模型的DeepSearch能力需设计有效的经验机制。相比于复杂的手动标注, LightSearcher通过其“对比经验”的设计思想, 在推理过程依赖可靠的外部知识调用为构建更加高效、可靠的AI深度思考系统提供了重要的技术路径。论文链接https://arxiv.org/abs/2512.06653百家AI主页https://baijia.online/homepage/index