巴中+网站建设邢台微商城制作设计
2026/2/25 9:19:02 网站建设 项目流程
巴中+网站建设,邢台微商城制作设计,自己做的网站如何用手机去查看,网站建设思路方案Anthropic 公司在 2025 年 6 月 13 日发表了一篇名为《如何构建多智能体研究系统》的文章。 Anthropic 的研究功能利用多个 Claude 智能体#xff08;Agent#xff09;更高效地探索复杂主题。本文将分享在构建这个系统过程中遇到的工程挑战以及所学到的经验。 Claude 现已具…Anthropic 公司在 2025 年 6 月 13 日发表了一篇名为《如何构建多智能体研究系统》的文章。Anthropic 的研究功能利用多个 Claude 智能体Agent更高效地探索复杂主题。本文将分享在构建这个系统过程中遇到的工程挑战以及所学到的经验。Claude 现已具备研究能力能够在网络、Google Workspace 及任何集成工具中进行搜索以完成复杂的任务。这个多智能体系统从原型到投入生产的整个过程使团队学到了关于系统架构、工具设计和提示语工程Prompt Engineering的关键经验。一个多智能体系统由多个智能体大型语言模型 LLM 自主地循环使用工具协同工作组成。该研究功能包含一个智能体它会根据用户查询规划研究流程然后利用工具创建并行的智能体同时进行信息搜索。这种多智能体系统在智能体协调、评估和可靠性方面带来了新的挑战。本文将深入探讨那些被证明行之有效且富有成效的原则希望这些经验对读者构建自己的多智能体系统时有所帮助。一、多智能体系统的优势研究工作通常涉及开放性问题很难提前预测所需的具体步骤。探索复杂主题无法依赖预设的固定路径因为研究过程本质上是动态且依赖于路径的。当人们进行研究时他们会根据发现不断调整方法跟随调查过程中出现的线索。这种不可预测性使得人工智能智能体AI Agent特别适合研究任务。研究要求在调查展开时具备灵活调整方向或探索相关联信息的能力。模型必须独立运行多个回合根据中间发现决定下一步的探索方向。线性、一次性的流水线pipeline无法处理这类任务。搜索的本质是压缩从海量语料库中提炼出有价值的洞察。子智能体subagent通过在各自的上下文窗口中并行操作同时探索问题的不同方面然后为主研究智能体提炼出最重要的信息从而促进这种压缩。每个子智能体还实现了关注点分离——拥有不同的工具、提示语prompts和探索轨迹——这减少了路径依赖性并支持彻底且独立的调查。一旦智能达到一定阈值多智能体系统就成为提升性能的关键途径。例如尽管在过去 10 万年中个体人类的智力有所提升但由于集体智慧和协调能力人类社会在信息时代的能力呈现出指数级增长。即使是具备通用智能的智能体在作为个体运行时也会面临局限而智能体群组则能完成远超个体所能及的任务。Anthropic 的内部评估显示多智能体研究系统在需要同时进行多方面独立探索的广度优先查询breadth-first queries中表现尤为出色。评估发现一个以 Claude Opus 4 为主智能体、Claude Sonnet 4 为子智能体的多智能体系统在内部研究评估中比单智能体 Claude Opus 4 的性能高出90.2%。例如当被要求识别信息技术标准普尔 500 指数中所有公司的董事会成员时多智能体系统能够将此任务分解为多个子任务并正确找到答案而单智能体系统则通过缓慢的顺序搜索未能找到答案。多智能体系统之所以有效主要在于它们能够投入足够的 Token 来解决问题。在该团队的分析中三个因素解释了BrowseComp评估该评估测试浏览智能体定位难以找到信息的能力中 95% 的性能差异。研究发现Token 使用量本身解释了 80% 的差异而工具调用次数和模型选择是另外两个解释性因素。这一发现验证了该架构即通过将工作分散到具有独立上下文窗口的智能体中以增加并行推理的能力。最新的 Claude 模型是 Token 使用效率的一大倍增器因为升级到 Claude Sonnet 4 比将 Claude Sonnet 3.7 的 Token 预算增加一倍能带来更大的性能提升。对于超出单个智能体能力范围的任务多智能体架构能够有效地扩展 Token 使用量。当然这种架构也有弊端在实践中它们会迅速消耗大量的 Token。在数据中显示智能体通常比聊天交互多使用约 4 倍的 Token而多智能体系统比聊天多使用约15 倍的 Token。从经济可行性的角度考虑多智能体系统要求任务的价值足够高以支付其所带来的性能提升成本。此外一些需要所有智能体共享同一上下文或涉及智能体之间大量依赖关系的多智能体系统目前可能不太适用。例如大多数编码任务中真正可并行化的任务比研究任务要少而且大型语言模型智能体在实时协调和委托其他智能体方面尚未达到最佳水平。研究表明多智能体系统在涉及大量并行化、信息超出单个上下文窗口限制以及需要与众多复杂工具交互的这类高价值任务中表现出色。二、Research架构概述该研究系统采用了一种多智能体架构其模式为协调者-工作者orchestrator-worker即主智能体协调整个过程同时将任务委托给并行操作的专业子智能体。多智能体架构的运作方式用户查询流经主智能体主智能体创建专门的子智能体以并行搜索不同方面的信息。当用户提交查询时主智能体对其进行分析制定策略并生成子智能体以同时探索问题的不同方面。如上图所示子智能体充当智能过滤器通过迭代使用搜索工具收集信息在此例中是关于 2025年人工智能智能体公司然后将公司列表返回给主智能体以便主智能体整理出最终答案。传统的检索增强生成RAG方法采用静态检索。也就是说它们获取一组与输入查询最相似的块chunks并使用这些块来生成响应。相比之下该架构使用多步骤搜索动态地查找相关信息适应新发现并分析结果以形成高质量的答案。此流程图展示了多智能体研究系统的完整工作流程。当用户提交查询时系统会创建一个 LeadResearcher主研究员智能体该智能体进入一个迭代研究过程。LeadResearcher 首先思考其方法并将计划保存到 Memory内存以持久化上下文。因为如果上下文窗口context window超过 200,000 个 Token将会被截断而保留计划至关重要。然后它创建具有特定研究任务的专业 Subagents子智能体此处显示两个但数量可任意。每个 Subagent 独立执行网络搜索使用**交错式思考interleaved thinking**评估工具结果并将发现结果返回给 LeadResearcher。LeadResearcher综合这些结果并决定是否需要更多研究——如果需要它可以创建额外的子智能体或优化其策略。一旦收集到足够的信息系统退出研究循环并将所有发现传递给 CitationAgent引用智能体 CitationAgent 处理文档和研究报告以识别具体的引用位置。这确保所有声明都正确归因于其来源。最终的研究结果连同引用信息将返回给用户。三、研究智能体的提示语工程与评估多智能体系统与单智能体系统有着关键区别包括协调复杂性迅速增长。早期的智能体常常出现错误例如对于简单的查询生成 50 个子智能体无休止地在网络上搜索不存在的来源或者通过过多的更新彼此干扰。由于每个智能体都由提示语引导提示语工程就成了改进这些行为的主要手段。以下是从提示语智能体中学到的一些原则像智能体一样思考。为了迭代提示语必须理解它们的效果。为了帮助做到这一点团队使用Console构建了模拟环境其中包含系统中的确切提示语和工具然后逐步观察智能体的工作。这立刻揭示了故障模式智能体在已有足够结果时仍继续工作使用过于冗长的搜索查询或选择了不正确的工具。有效的提示语依赖于对智能体建立准确的心理模型这可以使最具影响力的改变变得显而易见。教会协调者如何委派任务。在系统中主智能体将查询分解为子任务并将其描述给子智能体。每个子智能体都需要一个目标、输出格式、关于使用工具和来源的指导以及明确的任务边界。如果没有详细的任务描述智能体就会重复工作、留下空白或者未能找到必要信息。最初让主智能体给出简单、简短的指令例如研究半导体短缺但发现这些指令通常过于模糊导致子智能体误解任务或执行与其他智能体完全相同的搜索。例如一个子智能体探索了 2021 年的汽车芯片危机而另外两个子智能体则重复工作调查 2025 年当前的供应链未能实现有效的分工。根据查询复杂性调整投入。智能体难以判断不同任务所需的适当投入因此在提示语中嵌入了扩展规则。简单的事实查找只需要 1 个智能体进行 3-10 次工具调用直接比较可能需要 2-4 个子智能体每个进行 10-15 次调用而复杂的调查研究可能需要 10 个以上的子智能体并明确划分职责。这些明确的指导原则有助于主智能体高效地分配资源并防止在简单查询上投入过多这是早期版本中常见的故障模式。工具设计和选择至关重要。智能体与工具的接口和人机接口一样关键。正确使用工具效率很高而且往往是必不可少的。例如一个智能体在网络上搜索只存在于 Slack 中的上下文从一开始就注定失败。有了MCP 服务器模型可以访问外部工具这个问题就变得更加复杂因为智能体会遇到描述质量差异很大的未知工具。团队给智能体提供了明确的启发式规则例如首先检查所有可用工具将工具使用与用户意图匹配搜索网络以进行广泛的外部探索或者优先使用专用工具而非通用工具。糟糕的工具描述会使智能体走上完全错误的道路因此每个工具都需要有独特的功能和清晰的描述。让智能体自我提升。研究发现 Claude 4 模型可以成为出色的提示语工程师。当给定一个提示语和一种失败模式时它们能够诊断智能体失败的原因并提出改进建议。团队甚至创建了一个工具测试智能体——当给定一个有缺陷的 MCP 工具时它会尝试使用该工具然后重写工具描述以避免失败。通过对工具进行数十次测试这个智能体发现了关键的细微之处和错误。这种改进工具人体工程学ergonomics的过程使得未来使用新描述的智能体完成任务的时间减少了 40%因为它们能够避免大部分错误。先广泛探索再逐步收窄。搜索策略应模仿人类专家研究先探索整体再深入细节。智能体常常默认使用过长、过于具体的查询导致结果很少。通过提示智能体从简短、宽泛的查询开始评估可用信息然后逐步缩小范围来对抗这种倾向。引导思考过程。****扩展思考模式extended thinking mode引导 Claude 在可见的思考过程中输出额外的 Token可以作为可控的草稿本。主智能体利用思考来规划其方法评估哪些工具适合任务确定查询复杂度和子智能体数量并定义每个子智能体的角色。测试表明扩展思考模式改进了指令遵循、推理和效率。子智能体也进行规划然后在使用工具结果后应用**交错式思考interleaved thinking**来评估质量、识别差距并优化其下一个查询。这使得子智能体在适应任何任务时更加高效。并行工具调用显著提升速度和性能。复杂的科研任务自然涉及探索多种来源。早期的智能体执行顺序搜索速度慢得令人痛苦。为了提高速度引入了两种并行化方式1主智能体并行启动 3-5 个子智能体而非串行2子智能体并行使用 3 个以上的工具。这些更改使复杂查询的科研时间缩短了高达 90%使研究工作能在几分钟内完成而不是几小时同时覆盖的信息量也超过了其他系统。提示策略侧重于灌输良好的启发式方法而非僵化的规则。团队研究了熟练的人类如何处理研究任务并将这些策略编码到提示中——例如将难题分解为更小的任务、仔细评估来源质量、根据新信息调整搜索方法以及识别何时应专注于深度详细调查一个主题与广度并行探索多个主题。同时通过设置明确的护栏来主动缓解意外的副作用以防止智能体失控。最后专注于通过可观察性和测试用例实现快速迭代循环。四、智能体的高效评估良好的评估对于构建可靠的人工智能应用至关重要智能体也不例外。然而评估多智能体系统带来了独特的挑战。传统评估通常假设人工智能每次都遵循相同的步骤给定输入 X系统应遵循路径 Y 以产生输出 Z。但多智能体系统并非如此运作。即使起点完全相同智能体也可能采取完全不同的有效路径来达到目标。一个智能体可能搜索三个来源而另一个搜索十个或者它们可能使用不同的工具找到相同的答案。由于并不总是知道正确的步骤是什么通常不能仅仅检查智能体是否遵循了预先规定的正确步骤。相反需要灵活的评估方法以判断智能体是否达到了正确的结果同时也遵循了合理的流程。立即开始评估小样本。在智能体开发的早期阶段由于低垂的果实随处可见因此改进往往会带来显著影响。一次提示语微调可能将成功率从 30% 提升到 80%。鉴于效果如此之大只需几个测试用例即可发现变化。团队从一组约 20 个代表真实使用模式的查询开始。测试这些查询通常能清楚地看到变化的影响。经常听说 AI 开发团队推迟创建评估因为他们认为只有包含数百个测试用例的大规模评估才有用。然而最好立即从小规模测试开始使用几个示例而不是等到可以构建更全面的评估后再进行。在妥善执行时基于LLM 的评估可以实现规模化。研究输出难以通过编程方式评估因为它们是自由格式的文本很少有唯一的正确答案。LLM大型语言模型非常适合对输出进行评分。团队使用了一个LLM 评估器它根据评估标准rubric中的以下标准对每个输出进行评估事实准确性声明是否与来源匹配、引用准确性引用的来源是否与声明匹配、完整性是否涵盖了所有请求的方面、来源质量是否使用了主要来源而非质量较低的次要来源以及工具效率是否以合理的次数使用了正确的工具。尝试使用多个评估器来评估每个组件但发现使用一个 LLM 调用、一个提示语prompt输出 0.0-1.0 的分数以及合格/不合格的评分是最一致且与人类判断相符的。当评估测试用例确实有明确答案时这种方法尤其有效可以简单地使用 LLM 评估器来检查答案是否正确例如它是否准确列出了研发预算前三名的制药公司。通过使用 LLM 作为评估器能够可扩展地评估数百个输出。人工评估能发现自动化遗漏的问题。人工测试智能体能发现评估中遗漏的边缘情况包括针对异常查询的幻觉hallucinated答案、系统故障或微妙的来源选择偏差。在案例中人工测试人员注意到早期的智能体总是倾向于选择那些经过 SEO 优化的内容农场而不是权威但排名不高的来源如学术 PDF 或个人博客。在提示语中添加了来源质量启发式规则帮助解决了这个问题。即使在自动化评估盛行的世界里人工测试仍然至关重要。多智能体系统具有涌现行为这些行为是在没有特定编程的情况下产生的。例如主智能体的小改动可能会不可预测地改变子智能体的行为。成功需要理解交互模式而不仅仅是单个智能体的行为。因此这些智能体的最佳提示不仅仅是严格的指令而是一个协作框架定义了分工、问题解决方法和投入预算。要做到这一点需要仔细的提示语和工具设计、可靠的启发式方法、可观察性以及紧密的反馈循环。要获取系统中的示例提示请参阅Cookbook 中的开源提示。五、生产可靠性与工程挑战在传统软件中一个 Bug 可能会破坏某个功能、降低性能或导致服务中断。而在智能体系统中微小的变化可能会引发巨大的行为改变这使得为必须在长时间运行过程中维护状态的复杂智能体编写代码变得异常困难。智能体是有状态的错误会累积。智能体可以长时间运行并在多次工具调用中保持状态。这意味着需要持久地执行代码并在此过程中处理错误。如果没有有效的缓解措施微小的系统故障对智能体来说可能是灾难性的。当错误发生时不能仅仅从头开始重启重启成本高昂且会给用户带来挫败感。相反构建了能够在错误发生时从智能体所在位置恢复的系统。同时利用模型的智能来优雅地处理问题例如让智能体知道某个工具何时出现故障并让它自行调整这种做法出人意料地有效。将基于 Claude 构建的 AI 智能体的适应性与重试逻辑retry logic和定期检查点checkpoints等确定性保障措施结合起来。调试受益于新方法。智能体会做出动态决策并且即使在相同的提示语下每次运行的结果也可能不确定。这使得调试更加困难。例如用户可能会报告智能体没有找到明显的信息但却无法看到原因。智能体是否使用了糟糕的搜索查询选择了劣质的来源遇到了工具故障添加完整的生产追踪tracing使团队能够诊断智能体失败的原因并系统地解决问题。除了标准的可观察性之外还监控智能体的决策模式和交互结构——所有这些都在不监控个体对话内容的情况下进行以维护用户隐私。这种高层次的可观察性帮助诊断根本原因、发现意外行为并修复常见故障。部署需要谨慎协调。智能体系统是由提示语、工具和执行逻辑组成的高度有状态的网络几乎持续运行。这意味着无论何时部署更新智能体都可能处于其过程中的任何阶段。因此需要防止善意的代码更改破坏现有智能体。不能同时将所有智能体更新到新版本。相反使用**彩虹部署rainbow deployments**来避免干扰正在运行的智能体通过逐渐将流量从旧版本转移到新版本同时保持两者并行运行。同步执行会造成瓶颈。目前主智能体同步执行子智能体等待每组子智能体完成才能继续。这简化了协调但在智能体之间信息流中造成了瓶颈。例如主智能体无法引导子智能体子智能体之间无法协调并且整个系统可能会在等待单个子智能体完成搜索时被阻塞。异步执行将实现额外的并行化智能体并发工作并在需要时创建新的子智能体。但这种异步性带来了结果协调、状态一致性和跨子智能体错误传播方面的挑战。随着模型能够处理更长更复杂的研究任务预期性能提升将证明这种复杂性是值得的。六、结论在构建人工智能智能体时最后一英里的挑战往往占据了整个旅程的大部分。在开发人员机器上能运行的代码库需要大量工程投入才能成为可靠的生产系统。智能体系统中由于错误复合而导致的特性意味着对传统软件来说的小问题可能会彻底颠覆智能体。一个步骤的失败可能导致智能体探索完全不同的轨迹从而产生不可预测的结果。出于本文所述的所有原因原型和生产之间的差距往往比预期要大。尽管面临这些挑战多智能体系统在开放式研究任务中已证明其价值。用户表示Claude 帮助他们发现了以前未曾考虑的商业机会解决学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询