2026/3/5 6:43:49
网站建设
项目流程
将网站的字体设计成百分比的形式要怎样定义,网页设计的素材图片,app运营策略,怎么安装电脑wordpressMeta超级智能实验室和伊利诺伊大学联合推出Dr. Zero#xff08;DeepResearch-Zero#xff09;框架。零数据自我进化让搜索智能体超越监督学习极限。Meta超级智能实验室和伊利诺伊大学联合推出Dr. Zero#xff08;DeepResearch-Zero#xff09;框架。该框架在完全没有人类标…Meta超级智能实验室和伊利诺伊大学联合推出Dr. ZeroDeepResearch-Zero框架。零数据自我进化让搜索智能体超越监督学习极限。Meta超级智能实验室和伊利诺伊大学联合推出Dr. ZeroDeepResearch-Zero框架。该框架在完全没有人类标注数据的情况下仅靠搜索引擎和自我博弈大语言模型就能训练出超越监督学习水平的搜索和推理智能体。在人工智能的发展历程中高质量数据的获取始终是一道难以逾越的高墙。随着大语言模型对数据胃口的日益增大互联网上现存的高质量文本几近枯竭。面对这一困境让模型像人类一样在实践中自我学习、自我进化成为了打破数据瓶颈的关键路径。现有的尝试多集中在数学或代码等封闭领域因为这些领域的答案非黑即白容易验证。对于涉及开放领域知识的搜索与问答任务由于缺乏标准答案且信息源庞杂零数据自我进化一直是一个悬而未决的难题。Meta的联合研究团队提出了Dr. Zero的创新框架。这一框架彻底摒弃了对人类问题、答案或标注数据的依赖仅凭一个外部搜索引擎就能让模型在自我博弈中不断提升。Dr. Zero训练出的模型在多项复杂问答基准测试中不仅击败了传统的少样本提示方法甚至在某些指标上超越了经过完全监督微调的强力基准模型。提问者与解答者的共生博弈Dr. Zero的核心理念在于构建一个自给自足的学习闭环这类似于一种左右互搏的武术修炼或者更像是一场精心设计的教学相长。在这个系统中同一个基座模型被分化为两个角色一个是提问者Proposer另一个是解答者Solver。提问者的任务是提出问题解答者的任务是利用搜索引擎寻找信息并回答问题。这种架构看似简单实则暗藏玄机。以往的类似尝试往往失败原因在于提问者很容易“偷懒”。如果缺乏适当的引导提问者倾向于生成大量结构简单、甚至不需要搜索就能回答的单跳One-hop问题。这导致解答者虽然刷了很多题但能力始终停留在浅层无法处理需要多步推理和综合搜索的复杂任务。另一方面如果问题太难或完全无解解答者又会因为总是失败而学不到任何东西。Dr. Zero引入了一套精妙的机制来打破这种低水平循环。研究团队为提问者设计了一个多轮工具调用流程。现在的提问者不仅仅是凭空编造问题它也被赋予了使用搜索引擎的能力。在生成问题之前提问者会先利用搜索引擎进行探索确认信息的存在性和关联性。这种设计确保了生成的问题既是基于真实世界的又是理论上可解的。为了让两者共同进步系统引入了一个基于难度的动态奖励机制。这个机制不仅关注解答者是否答对了更关注它是如何答对的。如果解答者对某个问题的所有尝试都失败了说明题目太难提问者得不到高分。如果解答者每一次尝试都轻松答对说明题目太简单提问者同样得不到高分。只有当解答者处于“跳一跳够得着”的状态即部分尝试成功、部分失败时提问者才能获得最高的奖励。这种机制迫使提问者不断试探解答者的能力边界生成那些既有挑战性又能被解决的问题从而在无形中构建出一条难度从低到高、循序渐进的自动化课程。随着训练的进行解答者的搜索和推理能力越来越强简单的问题已经无法满足它的胃口。为了获得高分提问者被迫去挖掘更隐蔽的关联设计需要多次跳转搜索才能找到答案的多跳Multi-hop问题。这种动态的对抗与协作使得整个系统在没有任何外部人类数据输入的情况下自发地涌现出了处理复杂开放域问题的能力。跳数分组相对策略优化在强化学习的框架下训练大语言模型计算成本往往是巨大的挑战。特别是对于Dr. Zero这种需要频繁调用搜索引擎并进行多轮推理的系统效率问题尤为突出。传统的组相对策略优化GRPO算法虽然在减少方差方面表现出色但它要求对同一个提示采样多个输出以计算基准。如果在训练提问者时直接套用GRPO意味着对于每一个生成的“种子想法”都要生成多个完整的问题然后针对每一个问题解答者又要进行多次搜索和推理。这种嵌套式的采样会导致计算量呈指数级爆炸使得训练变得极度缓慢且昂贵。为了解决这一计算瓶颈研究团队提出了一种名为跳数分组相对策略优化Hop-Grouped Relative Policy Optimization简称HRPO的新方法。HRPO的核心洞察在于不同复杂度的问题在结构上具有相似性。与其对同一个提示进行多次昂贵的采样不如利用提问者生成的不同问题之间的自然差异。HRPO将生成的问题按照其“跳数”进行聚类分组。所谓的“跳数”指的是解决该问题所需推理步骤的多少。一步就能搜到答案的是单跳问题需要先搜A再搜B才能推导出C的是多跳问题。HRPO认为同一跳数级别内的问题在难度和预期奖励上是具有可比性的。因此它不再强求针对单一输入的多次采样而是将同一批次中所有相同跳数的问题聚合起来以该组的平均表现作为基准来计算优势函数。这种方法巧妙地实现了两个目标。它极大地降低了采样成本因为不需要为了计算基线而重复生成冗余的样本。它通过同类比较有效地降低了梯度估计的方差。毕竟拿一个简单的单跳问题和一个极度复杂的多跳问题去直接比较奖励是不公平的而HRPO确保了是在同级别的选手中进行较量。配合HRPODr. Zero还设计了精细的奖励函数。对于提问者奖励由两部分组成一部分是基于解答者通过率的难度奖励鼓励生成处于能力边界的题目另一部分是格式奖励确保生成的问题结构完整、逻辑清晰。对于解答者则采用基于结果的奖励并通过GRPO进行优化。由于解答者的任务是客观的答题只需将预测答案与提问者预设的答案进行比对即可。这一整套数学与工程上的优化使得Dr. Zero能够在保持训练稳定性的同时大幅压缩了计算资源的需求。它成功地避开了嵌套采样的陷阱让大规模的自我进化训练在实际操作层面变得可行且高效。零数据方法的强大潜力为了验证Dr. Zero的实际效果研究团队在多个开放域问答基准上进行了广泛的测试。这些测试涵盖了从简单的单跳数据集如Natural QuestionsNQ、TriviaQA到复杂的多跳数据集如HotpotQA、2WikiMultihopQA等。实验使用了Qwen2.5的3B和7B指令微调版本作为基座模型。对比的基线方法包括标准的少样本提示Prompting、迭代检索思维链IRCoT、Search-o1以及检索增强生成RAG。更重要的是Dr. Zero还与完全监督的方法进行了正面交锋包括监督微调SFT和基于强化学习的搜索智能体Search-R1。值得强调的是所有这些基线方法都需要人类提供的标注数据或演示示例而Dr. Zero则是完全的“白手起家”。从Table 1的数据中可以看出Dr. Zero在各项指标上表现得极具竞争力。在基于Qwen2.5-3B模型的测试中Dr. Zero在单跳问答任务NQ, TriviaQA, PopQA上全面超越了监督学习的Search-R1。例如在NQ数据集上Dr. Zero达到了0.397的准确率而Search-R1仅为0.323。这表明即便没有人类教导模型通过自我探索也能掌握极其高效的搜索策略。在多跳问答任务中Dr. Zero同样表现不俗。虽然在部分非常复杂的任务上略逊于经过专门监督训练的对手但差距已经非常微小并且远超其他无监督或少样本方法。当模型规模扩大到7B时Dr. Zero的能力进一步释放在2WikiMQA等高难度数据集上甚至取得了反超证明了该框架具有良好的扩展性。研究人员还将Dr. Zero与现有的其他无数据方法进行了对比如自问语言模型SQLM和R-Zero。结果显示Dr. Zero在各个维度上都实现了碾压式的领先。Table 2的数据清晰地展示了这一点在平均得分上Dr. Zero比增强版的R-Zero*高出了整整7个百分点。为了探究训练过程中的动态变化研究团队记录了不同迭代轮次下的奖励和性能。Figure 3生动地描绘了两者的共同进化过程。随着训练步数的增加解答者解决问题的能力在提升导致初始的奖励值下降。这迫使提问者必须生成更难的问题来获取奖励从而形成了一条上升的进化曲线。Table 3和Figure 4进一步揭示了学习的细节。在第一轮迭代中模型取得了最显著的进步随后几轮则是稳步微调。特别是对于7B模型过多的迭代反而可能导致性能波动这提示了自我进化过程中的不稳定性边界也为未来的研究指明了方向。Dr. Zero是一种范式的转换。它证明了机器智能的提升未必需要人类手把手地喂养数据。只要给予适当的工具搜索引擎和合理的激励机制HRPO与难度引导奖励模型就能在自我博弈中涌现出复杂的推理和搜索能力。这为在数据稀缺的垂直领域开发高级智能体打开了一扇新的大门也让我们对人工智能的自主进化潜力有了更深的期待。未来的AI或许不再需要人类作为老师它们只需要一个像Dr. Zero这样的竞技场就能自己学会如何认识和探索这个世界。