2026/2/3 23:50:01
网站建设
项目流程
淘宝联盟推广网站建设,免费搭建手机自助网站,2021世界500强企业,微官网怎么关注本文精选25篇智能体工作流(Agentic Workflow)论文#xff0c;分为技术框架、系统工具、评估基准、编程语言、模型工作流和方法论六大类。系统介绍了从LLM到AI Agent再到智能体工作流的研究现状和实践应用#xff0c;涵盖吴恩达提出的四种设计模式及实际案例。这些论文为研究者…本文精选25篇智能体工作流(Agentic Workflow)论文分为技术框架、系统工具、评估基准、编程语言、模型工作流和方法论六大类。系统介绍了从LLM到AI Agent再到智能体工作流的研究现状和实践应用涵盖吴恩达提出的四种设计模式及实际案例。这些论文为研究者和开发者提供了全面的学习资源有助于推动Agentic AI的发展与应用。一、技术框架1、Sibyl用于复杂现实世界推理的简单而有效的智能体框架Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning论文地址https://arxiv.org/abs/2407.10718大型语言模型LLM集成了固有知识、上下文学习和零样本能力展现出强大的问题解决能力。然而现有智能体在长期推理和工具潜力利用方面存在不足导致现实世界推理任务中的缺陷。为克服这些限制Sibyl作为一个新型的LLM智能体框架通过最少工具有效处理复杂推理任务。Sibyl从全球工作空间理论中获取灵感整合了全球工作空间加强了系统知识和对话历史的管理与共享。在心智理论的指导下Sibyl通过多主体辩论的陪审团机制自我完善答案确保全面性和平衡性。这一设计旨在简化系统复杂性拓宽问题解决范围促进从系统1到系统2的思维转变。Sibyl注重可扩展性和易调试性采用函数式编程中的重入概念以无缝集成到其他LLM应用中。在GAIA基准测试集中Sibyl实现了34.55%的平均得分展现了其先进性能。论文作者期望Sibyl能推动开发更可靠和可重用的LLM智能体以应对复杂的现实世界推理挑战。2、PEER使用多智能体框架和调优方法对特定领域的任务进行专业化PEER: Expertizing Domain-Specific Tasks with a Multi-Agent Framework and Tuning Methods论文地址https://arxiv.org/abs/2407.06985在专业领域应用中GPT-4 通过精确的提示和检索增强生成RAG技术展现出巨大潜力但同时也面临性能、成本和数据隐私的三重困境。高性能需求往往需要复杂的技术处理而要管理多个智能体在复杂工作流程中的表现不仅成本高难度也大。为应对这些挑战论文提出了 PEER规划、执行、表达、审查多智能体框架。该框架通过整合精细的问题拆解、高效的信息检索、综合的总结能力以及严格的自我评估系统化地处理专业领域任务。考虑到成本和数据隐私的顾虑许多企业正从 GPT-4 等专有模型转向定制模型以期在成本、安全性与性能之间找到平衡点。团队利用在线数据和用户反馈开发了一套行业实践旨在实现模型的高效调整。本研究提供了一套最佳实践指南用于在特定领域问题解决中应用多智能体系统并实施有效的智能体调优策略。特别是在金融问答领域的实证研究表明该方法达到了 GPT-4 性能的 95.0%同时在成本控制和数据隐私保护方面表现出色。3、BMW Agents——通过多智能体协作实现任务自动化的框架BMW Agents – A Framework For Task Automation Through Multi-Agent Collaboration论文地址https://arxiv.org/abs/2406.20041由大型语言模型LLM驱动的自主智能体展现了自动化的巨大潜力。技术的初步成效已在多个演示中显现其中包括智能体解决复杂任务、与外部系统交互以扩展知识以及触发必要操作。特别是多个智能体以协作方式共同解决复杂任务的场景彰显了它们在非严格和非明确环境下的运作能力。因此多智能体方法在许多工业应用中具有极大的应用潜力无论是构建复杂的知识检索系统还是开发下一代机器人流程自动化。考虑到当前LLM一代的推理能力处理复杂流程需要采取多步骤策略这包括制定明确定义的模块化任务计划。这些任务可以由单一智能体或一组智能体根据其复杂性执行。在本项研究中团队专注于构建一个灵活的智能体工程框架特别关注规划和执行阶段以应对跨不同领域的复杂应用案例。该框架能够为工业应用提供了所需的可靠性并且为确保多个自主智能体能够协同工作、共同解决问题提供了一套可扩展、灵活且协作的技术流程。4、Trace是新的AutoDiff——解锁计算工作流的高效优化Trace is the New AutoDiff – Unlocking Efficient Optimization of Computational Workflows论文地址https://arxiv.org/abs/2406.16218项目地址https://microsoft.github.io/Trace论文探索了一种针对自动化编码助手、机器人和副驾驶等人工智能系统的优化问题研究团队开发了一个名为Trace的端到端优化框架它将AI系统的计算流程视为神经网络图并基于反向传播的泛化进行优化。这种优化处理了包括丰富反馈、异构参数和复杂目标在内的多种因素并能适应动态变化的计算图。Trace框架通过一种新的迭代优化数学设置——使用跟踪预言机优化OPTO——来捕获和抽象AI系统的特性以设计跨领域的优化器。在OPTO中优化器通过接收执行跟踪和输出反馈来迭代更新参数。Trace提供了一个Python接口利用类似PyTorch的接口高效地将计算流程转换为OPTO实例。利用Trace团队开发了一个名为OptoPrime的通用优化器它基于LLM能够解决多种OPTO问题包括数值优化、提示优化、超参数调优、机器人控制器设计和代码调试等且性能可与领域内专业优化器相媲美。论文认为Trace、OptoPrime和OPTO框架将推动下一代交互式智能体的发展使其能够利用各种反馈实现自动适应。5、RCAgent使用工具增强型大型语言模型的自治智能体进行云根本原因分析RCAgent: Cloud Root Cause Analysis by Autonomous Agents with Tool-Augmented Large Language Modelshttps://arxiv.org/abs/2310.16340近期云根本原因分析RCA领域对大型语言模型LLM的应用进行了积极探索。但现有方法仍依赖手动设置工作流未能充分发挥LLM在决策和环境交互方面的能力。为此研究团队推出了RCAgent这是一个工具增强的LLM自治智能体框架专为实用且注重隐私的工业RCA设计。RCAgent不依赖外部模型如GPT系列而是在内部部署的模型上运行能够自主进行自由格式的数据收集和综合分析。该框架融合了多项增强功能包括行动轨迹的自洽性以及一系列用于上下文管理、稳定性提升和领域知识导入的方法。实验结果表明RCAgent在RCA的多个方面如预测根本原因、解决方案、证据和责任以及规则内外任务上均显示出显著且一致的优势这些优势已通过自动化指标和人工评估得到验证。此外RCAgent已成功集成至阿里云Apache Flink实时计算平台的诊断和问题发现工作流程中进一步提升了工业RCA的效率和准确性。二、系统、套件与工具1、AgileCoder基于敏捷方法论的软件开发动态协作智能体AgileCoder: Dynamic Collaborative Agents for Software Development based on Agile Methodology论文地址https://arxiv.org/abs/2406.11912软件智能体正成为解决复杂软件工程任务的有前景的工具。然而现有研究常常过于简化软件开发流程而现实世界中的这些流程往往更为复杂。为了应对这一挑战研究团队设计了AgileCoder这是一个将敏捷方法论AM整合进框架的多智能体系统。该系统将特定的AM角色如产品经理、开发人员和测试人员分配给不同的智能体它们根据用户输入协作开发软件。AgileCoder通过组织工作为一系列冲刺sprint提高开发效率并专注于逐步完成软件的开发。此外还引入了一个动态代码图生成器该模块能够在代码库更新时动态创建代码依赖图。这使得智能体能够更深入地理解代码库从而在软件开发过程中实现更精确的代码生成和修改。AgileCoder在性能上超越了现有的基准如ChatDev和MetaGPT树立了新的标准并展现了多智能体系统在高级软件工程环境中的强大能力。这标志着软件开发向更自动化、智能化方向迈出了重要一步。2、Parrot使用语义变量高效提供基于LLM的应用程序Parrot: Efficient Serving of LLM-based Applications with Semantic Variable论文地址https://arxiv.org/abs/2405.19888LLM的兴起催生了基于LLM与传统软件优势的新型应用程序——AI智能体也叫副驾驶这是一种软件新范式。不同租户的LLM应用程序通过多个LLM请求设计复杂工作流以完成任务但受限于当前公共LLM服务提供的简化请求级API丢失了关键的应用程序级信息。这些服务只能盲目优化单个LLM请求导致应用程序的整体性能不佳。该论文介绍了Parrot这是一个专注于LLM应用程序端到端体验的服务系统。Parrot引入了语义变量的概念这是一种统一的抽象将应用程序级知识暴露给公共LLM服务。语义变量在请求提示中标注输入/输出变量并在连接多个LLM请求时形成数据管道提供了一种自然的LLM应用程序编程方式。公开语义变量给公共LLM服务使其能够执行数据流分析揭示多个LLM请求间的相关性为LLM应用程序的整体性能优化开辟了新空间。广泛的评估显示Parrot针对流行和实际的LLM应用程序用例实现了显著的性能提升。3、使用基础模型实现企业自动化Automating the Enterprise with Foundation Models论文地址https://arxiv.org/abs/2405.03710项目地址https://github.com/HazyResearch/eclair-agents企业工作流程自动化每年可带来 4 万亿美元的生产力提升。尽管这一领域已受到数据管理社区数十年的关注但实现端到端工作流自动化的终极目标仍然具有挑战性。现有解决方案主要依赖流程挖掘和机器人流程自动化RPA这些机器人通常被硬编码以遵循预设规则。通过对医院和大型B2B企业的案例研究研究团队发现RPA的普及受到诸如高设置成本12-18个月、执行不可靠初始准确率60%和维护繁重等问题的制约。新一代多模态基础模型FM如GPT-4以其卓越的推理和规划能力为工作流自动化提供了新的可能性。为此论文提出了ECLAIR系统它在最少人工监督下实现企业工作流程自动化。初步实验显示ECLAIR通过多模态FM实现了接近人类水平的工作流理解准确率93%并基于工作流的自然语言描述即可快速设置实现了40%的端到端完成率。论文认为人与AI的协作、验证和自我改进是未来研究的开放性挑战并提出利用数据管理技术来解决这些问题。4、S-Agents开放环境中的自组织智能体S-Agents: Self-organizing Agents in Open-ended Environmentshttps://arxiv.org/abs/2402.04578利用LLM自主智能体在处理各类任务上取得了显著进步。在开放环境中为了提升协作的效率和有效性需要灵活调整策略。然而现有研究多聚焦于固定且任务导向的工作流程而忽视了以智能体为中心的组织结构。受人类组织行为的启发该团队提出了一种自组织智能体系统S-Agents它包括动态工作流的“智能体树”结构、用于平衡信息优先级的“沙漏智能体架构”以及支持智能体间异步任务执行的“非阻碍协作”方法。这一结构使得一组智能体能在无人为干预下有效应对开放和动态环境的挑战。团队的实验在Minecraft环境中进行S-Agent系统在执行协作建造和资源收集任务时表现出了熟练和高效从而验证了其组织结构和协作方法的有效性。这一研究成果为智能体在复杂环境中的自组织协作提供了新的视角和解决方案。5、一种人机协作工具用于通过几个示例将单个大型语言模型智能体训练到网络中A Human-Computer Collaborative Tool for Training a Single Large Language Model Agent into a Network through Few Examples论文地址https://arxiv.org/abs/2404.15974单个大型语言模型LLM智能体在解决复杂任务时能力有限。通过将多个LLM智能体连接成网络可以显著提升整体性能。然而构建这样的LLM智能体网络LAN是一项耗时且复杂的过程。在本研究中团队推出了EasyLAN这是一个旨在帮助开发者构建智能体网络的人机协作工具。EasyLAN首先根据任务描述生成一个只包含单个智能体的网络。然后它利用训练样本来逐步优化网络。EasyLAN会分析输出与实际值之间的差异诊断错误原因并采取策略进行修正。用户可以参与EasyLAN的工作流程或直接对网络进行调整。最终网络从单一智能体发展成为一个成熟的LLM智能体网络。实验结果表明使用EasyLAN开发者能够迅速构建出性能优异的智能体网络。这一工具极大地简化了智能体网络的构建过程提高了开发效率。6、PromptRPA根据文本提示在智能手机上生成机器人流程自动化PromptRPA: Generating Robotic Process Automation on Smartphones from Textual Prompts论文地址https://arxiv.org/abs/2404.02475机器人流程自动化RPA通过模拟人机交互在不修改现有代码的基础上为自动化图形用户界面GUI上的任务提供了有效的解决方案。但RPA的广泛应用受限于对脚本语言和工作流设计专业知识的需求。为解决这一问题研究团队提出了PromptRPA这是一个能够理解与任务相关的各种文本提示如目标、程序并生成及执行相应RPA任务的系统。PromptRPA由一系列智能体组成它们模仿人类的认知功能专门用于解读用户意图、管理由RPA生成的外部信息并在智能手机上执行操作。这些智能体能够从用户反馈中学习并根据积累的知识不断提升性能。实验结果显示使用PromptRPA后性能从基线的22.28%显著提升至95.21%且每个新任务平均仅需1.66次用户干预。PromptRPA在创建教程、智能辅助以及客户服务等领域展现出广阔的应用前景为RPA技术的进一步普及和应用提供了新的可能性。7、ProAgent从机器人流程自动化到智能体流程自动化ProAgent: From Robotic Process Automation to Agentic Process Automation论文地址https://arxiv.org/abs/2311.10751项目地址https://github.com/OpenBMB/ProAgent自动化技术从古代的水车发展到今天的RPA一直在解放人类从事繁重任务。但RPA在处理需要人类智能的任务时面临挑战尤其是在精心设计工作流和执行中的动态决策方面。随着大型语言模型LLM的出现研究团队提出了智能体流程自动化APA这是一种革命性的自动化新范式利用基于LLM的智能体实现高级自动化通过将任务分配给负责构建和执行的智能体来减轻人力负担。论文具体实现了ProAgent这是一个基于LLM的智能体它可以根据人工指令创建工作流程并通过协调专业的智能体做出复杂决策。通过实证实验论文详细展示了APA在工作流构建和执行方面的过程证明了APA的可行性并展现了由智能体驱动的自动化新范式的巨大潜力。这不仅为自动化领域带来了新的视角也为未来智能自动化的发展提供了新的方向。8、基于LLM的智能体调查常见工作流和可重用的LLM分析组件A Survey on LLM-Based Agents: Common Workflows and Reusable LLM-Profiled Components论文地址https://arxiv.org/abs/2406.05804大型语言模型LLM的最新进展推动了基于LLM的复杂智能体框架的开发。然而这些框架的复杂性在一定程度上阻碍了细粒度差异化的实现这对于在不同框架间高效实现功能和推动未来研究至关重要。因此该调查的主要目标是通过识别通用工作流程和可重用的LLM分析组件LMPC来促进对近期提出的多种框架的统一理解。这项工作旨在简化不同智能体框架之间的差异通过提取共通的工作流程和分析组件为研究者和开发者提供一个更加清晰和一致的视角。通过这种方式论文希望能够降低开发和维护智能体框架的难度同时为未来的研究和创新打下坚实的基础。三、评估测试基准1、WorkArena迈向基于作文规划和推理的常识性工作任务WorkArena: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks论文地址https://arxiv.org/abs/2407.05291基准测试项目https://github.com/ServiceNow/WorkArena/tree/workarena-plus-plus大型语言模型LLM因其模仿人类智能的能力而备受关注这促使基于LLM的自主智能体数量激增。尽管最新的LLM展现出根据用户指令进行规划和推理的潜力但它们在自主任务解决方面的实际应用效果尚待深入研究。特别是在企业环境中自动化智能体的应用被寄予厚望期望能够带来显著的影响。为了解决这一研究空白论文提出了WorkArena这是一个创新的基准测试套件包含682个任务覆盖知识工作者日常执行的实际工作流程。WorkArena的目标是全面评估网络智能体在规划、问题解决、逻辑/算术推理、信息检索以及上下文理解等方面的能力。通过对最先进的LLM、视觉语言模型VLM以及人类工作者的实证研究论文揭示了这些模型在职场中作为有效助手所面临的若干挑战。除了基准测试论文还提供了一种机制能够轻松生成数千条基于真实情境的观察/动作轨迹这些轨迹可以用于微调现有的智能体模型并期望这项工作能够成为推动社区向有能力的自主智能体发展的重要资源。2、FlowBench重新审视基于LLM的智能体工作流引导规划并对其进行基准测试FlowBench: Revisiting and Benchmarking Workflow-Guided Planning for LLM-based Agent论文地址https://arxiv.org/abs/2406.14884大型语言模型LLM驱动的智能体已成为执行复杂任务的有前途工具它们通过迭代规划和行动来完成任务。但当缺乏对专业知识密集型任务的深入理解时这些智能体可能会产生不切实际的规划幻想。为提高规划的可靠性该团队尝试整合与工作流相关的外部知识。尽管这一方法有潜力但整合的知识往往杂乱无章、形式多样缺乏严格的形式化和全面评估。因此该团队对不同格式的工作流知识进行形式化处理并推出了FlowBench——首个工作流引导规划的基准测试。FlowBench覆盖6个领域的51个不同场景以多种形式展现知识。为了在FlowBench上评估不同的LLM团队设计了一个多层评估框架评估了工作流知识在多种格式下的有效性。结果表明现有的LLM智能体在规划方面还有很大的提升空间。论文期望FlowBench这一具有挑战性的基准测试能够为未来智能体规划研究提供参考推动相关技术的进步。3、多模态基础模型是否了解企业工作流业务流程管理任务的基准Do Multimodal Foundation Models Understand Enterprise Workflows? A Benchmark for Business Process Management Tasks论文地址https://arxiv.org/abs/2406.13264数据集和实验项目地址https://github.com/HazyResearch/wonderbread现有的机器学习ML基准测试在评估业务流程管理BPM任务时缺乏足够的深度和多样性的注释。BPM 是一种旨在记录、衡量、改进和自动化企业工作流的实践。目前的研究几乎完全集中在单一任务上即利用多模态基础模型FM如 GPT-4 实现端到端的自动化。这种对自动化的专注忽视了大多数BPM工具的实际应用情况——在典型的流程优化项目中仅仅记录相关工作流就占据了60%的时间。为了填补这一空白研究团队推出了WONDERBREAD这是首个用于评估BPM任务的多模态FM基准测试它超越了自动化的范畴。该论文的贡献包括一个包含2928个记录工作流程演示的数据集6个新的BPM任务涵盖从工作流文档到知识转移再到流程改进的实际应用一套自动评估工具。基准测试显示尽管最先进的FM能够自动生成文档例如在工作流程的视频演示中识别88%的步骤但它们在将这些知识重新应用于更精细的工作流程完成验证方面表现不佳F1分数小于0.3。团队期望WONDERBREAD能够激励开发更多以人为中心的AI工具用于企业应用程序并进一步探索多模态FM在更广泛的BPM任务中的应用。四、编程语言APPL一种提示编程语言用于程序和大型语言模型提示的和谐集成APPL: A Prompt Programming Language for Harmonious Integration of Programs and Large Language Model Prompts**论文地址**https://arxiv.org/abs/2406.13161大型语言模型LLM通过精心设计的提示和外部工具的集成日益展现出处理各类任务的能力。然而随着任务复杂性的提升涉及LLM的工作流程可能变得复杂难以实现和维护。为解决这一难题研究团队提出了APPL一种新颖的提示编程语言它作为计算机程序与LLM之间的桥梁支持将提示无缝嵌入Python函数反之亦然。APPL具备直观的Python原生语法拥有异步语义的高效并行化运行时环境并且配备了无需额外成本的跟踪模块以支持有效的故障诊断和重放。论文通过三个典型场景——自一致性的思维链CoT-SC、ReAct工具使用的智能体以及多智能体聊天——证明了APPL程序的直观性、简洁性和高效性。此外对三个可并行化工作流的实验进一步证实了APPL在并行化独立LLM调用方面的有效性并实现了与预期估算相匹配的显著加速比。这表明APPL是一个强大的工具能够提升LLM在复杂任务中的性能和可用性。五、模型与工作流1、Granite Code Models用于代码智能的开放基础模型系列Granite Code Models: A Family of Open Foundation Models for Code Intelligence**论文地址**https://arxiv.org/abs/2405.04324**项目地址**https://github.com/ibm-granite/granite-code-modelsLLM在代码训练方面取得了突破性进展正深刻改变着软件开发的生态。越来越多的代码LLM被融入到软件开发工具中以提升程序员的工作效率。同时基于LLM的智能体也开始展现出独立处理复杂编码任务的能力。要充分发挥代码LLM的潜力需要它们具备广泛的能力如代码生成、错误修复、代码解释、文档编写和代码库维护等。在本项研究中团队推出了Granite系列仅解码器代码模型专门用于代码生成任务。这些模型经过了116种编程语言的代码训练覆盖了从30亿到340亿参数大小不等的多种模型能够满足从复杂的应用现代化到设备内存受限的各种场景。通过一系列综合任务的评估团队发现Granite Code模型在所有可用的开源代码LLM中始终保持最先进的性能。该模型系列针对企业级软件开发流程进行了特别优化在代码生成、修复和解释等多项编码任务中均有出色表现成为一个多功能的全能型代码模型。所有Granite Code模型均在Apache 2.0许可下发布既适用于研究也适用于商业用途为软件开发领域带来了前所未有的灵活性和创新潜力。2、迈向实现零样本提示优化的分层多智能体工作流程Towards Hierarchical Multi-Agent Workflows for Zero-Shot Prompt Optimization**论文地址**https://arxiv.org/abs/2405.20252大型语言模型LLM在解答用户问题上取得了显著进步支撑了多样化的应用场景。但LLM的回答质量极大程度上依赖于提示的质量一个精心设计的提示能够引导LLM准确回答极具挑战性的问题。尽管已有研究开发了多种策略来优化提示包括手工制作和领域内优化它们在开放场景下的有效性仍受限因为前者依赖于人类对问题的理解而后者对未见过场景的泛化能力不足。为克服这些限制研究团队提出了一种让LLM自主设计最佳提示的方法。具体来说团队构建了一个分层的提示生成框架首先创建包含精确指令和准确措辞的提示再基于此生成最终答案。这一流程称为分层多智能体工作流HMAW。与现有方法相比HMAW不受任何人类预设限制无需训练完全任务独立同时能够适应任务的细微差别。通过跨多个基准的实验证实了HMAW虽然简单却能创建出详尽且合适的提示进一步提升了LLM的性能。3、面向混合现实的多模态细粒度培训助手的自主工作流Autonomous Workflow for Multimodal Fine-Grained Training Assistants Towards Mixed Reality**论文地址**https://arxiv.org/abs/2405.13034自主人工智能智能体Autonomous Agent在自动理解基于语言的环境中展现出巨大潜力尤其是在大型语言模型LLM迅猛发展的背景下。然而对多模态环境的深入理解尚待进一步探索。本研究设计了一个自主工作流程旨在将AI智能体无障碍地集成到扩展现实XR应用中实现细粒度训练。论文展示了一个在XR环境中用于乐高积木组装的多模态细粒度培训助手的案例。该智能体结合了LLM、记忆、规划功能以及与XR工具的交互能力能够根据历史经验做出决策。此外论文介绍了LEGO-MRTA这是一个多模态细粒度装配对话数据集它能够在商业LLM服务的工作流程中自动合成包含多模态说明、对话、XR响应和视觉问答。研究团队选取了几个流行的开放资源LLM作为基准评估它们在微调和未微调状态下对团队提出的数据集的性能。论文期望这一工作流程能够推动更智能助手的开发实现XR环境中的无缝用户交互并促进AI和人机交互HCI社区的研究。六、方法论1、利用多AI智能体进行跨领域知识发现Leveraging Multi-AI Agents for Cross-Domain Knowledge Discovery**论文地址**https://arxiv.org/abs/2404.08511在迅速发展的人工智能领域跨领域知识的整合与应用是一项关键的挑战与机遇。本研究提出了一种新方法通过部署专注于不同知识领域的多人工智能智能体实现跨学科的知识发现。每个智能体都像特定领域的专家在统一框架下协同工作提供综合的、超越单一领域限制的深入见解。研究团队的平台通过促进智能体间的无缝互动利用每个智能体的独特优势增强了知识发现和决策过程。通过对比分析不同的多智能体工作流场景评估了它们在效率、准确性和知识整合广度上的表现。实验结果表明这些特定领域的多智能体系统在识别和填补知识空白方面表现出色。这项研究不仅凸显了协作智能在促进创新中的关键作用也为人工智能推动的跨学科研究和应用的发展奠定了基础。团队在小规模试点数据上评估了其方法结果显示出预期趋势随着自定义训练智能体的数据量增加这些趋势预计将变得更加明显。2、从头开始为类似计划的任务开发基础模型的案例The Case for Developing a Foundation Model for Planning-like Tasks from Scratch**论文地址**https://arxiv.org/abs/2404.04540基础模型 FM 彻底改变了许多计算领域包括自动规划和调度 APS。例如最近的一项研究发现它们对规划问题很有用计划生成、语言翻译、模型构建、多智能体规划、交互式规划、启发式优化、工具集成和大脑启发规划。除了APS还有许多任务涉及生成一系列行动这些行动对于达成目标的可执行性有不同的保障团队统称这些为类似计划PL任务例如业务流程、程序编写、工作流管理和指南制定。研究人员正考虑将FM应用于这些领域。然而以往的研究多集中在使用现成的预训练FM并可能对它们进行微调。该论文讨论了为PL任务从头开始设计全面的FM的必要性并探讨了设计时需考虑的因素。论文认为这样的FM将为PL问题提供新的有效解决方案正如大型语言模型LLM为APS领域所做的那样。3、Transformations时代的转变Transformations in the Time of The Transformer**论文地址**https://arxiv.org/abs/2401.10897基础模型为以人工智能为主导的视角重新设计现有系统和工作流程提供了新的机遇。然而实现这一转型面临着挑战和需要权衡的问题。本文旨在提供一个结构化的框架帮助企业在向以AI为优先的组织转型过程中做出明智的决策。所提供的建议旨在帮助企业全面、有意识地做出知情的选择同时避免受到不必要的干扰。尽管这个领域看似发展迅猛但其中一些核心的基础要素发展步伐相对较慢。团队专注于这些稳定不变的因素以此构建论证的逻辑基础。通过深入理解这些不变的基本面企业可以更稳健地把握AI转型的方向和步骤。4、协同人机交互与基于LLM的智能体进行服务共创的23种启发式指南Synergizing Human-AI Agency: A Guide of 23 Heuristics for Service Co-Creation with LLM-Based Agents**论文地址**https://arxiv.org/abs/2310.15065本项实证研究为服务供应商提供了入门知识帮助他们确定是否以及如何将大型语言模型LLM技术集成到其从业者和更广泛社区的工作之中。通过CoAGent——一种与基于LLM的智能体共同创造服务的工具研究团队探索了非AI专家与AI相互学习的过程。这项研究通过与23位来自美国公共图书馆的领域专家合作经历了一个三阶段的参与式设计流程揭示了将AI集成到人类工作流程中所面临的根本性挑战。研究结果提供了23种可操作的“与AI共同创造服务的启发式方法”这些方法突出了人类与AI之间微妙的共同责任。并进一步提出了人工智能的9个基本智能体方面强调了所有权、公平待遇和言论自由等基本要素。这种创新方法通过将AI视为关键利益相关者并利用AI与AI的交互来识别盲点从而丰富了参与式设计模型。这些见解为服务环境中协同和道德的人类与AI共创铺平了道路为人工智能共存的劳动力生态系统做好了准备。这不仅为服务供应商提供了实用的指导也为构建人机协作的未来提供了宝贵的洞见。5、计算管理的基础将人工智能集成到现有工作流程中的任务自动化的系统方法The Foundations of Computational Management: A Systematic Approach to Task Automation for the Integration of Artificial Intelligence into Existing Workflows**论文地址**https://arxiv.org/abs/2402.05142在AI迅猛发展的今天组织面临一个核心问题如何将AI技术有效融入现有运营为解答这一问题、调控期望并减少挑战该论文引入了计算管理——一种系统化的任务自动化方法旨在增强组织利用AI的潜力。计算管理融合了管理科学的战略洞察与计算思维的分析精确性架设了二者之间的桥梁。论文提供三个分步流程以助于在工作流中启动AI的集成。首先是任务重新制定它将工作活动拆解为基本单元每个单元由智能体执行包括明确行动并产生多样结果。第二评估任务自动化潜力通过任务自动化指数对任务进行评估依据其标准化输入、规则明确性、重复性、数据依赖性和客观输出进行排序。第三任务规范模板详述了16个关键组件作为选择或调整AI解决方案以适应现有工作流程的清单。这些流程结合了手动和自动方法并为现有的大型语言模型LLM提供了使用提示以辅助完成这些步骤。计算管理为人与AI的协同提供了路线图和工具提升了组织效率和创新力为人机共荣的未来铺平了道路。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】为什么要学习大模型我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年人才缺口已超百万凸显培养不足。随着AI技术飞速发展预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。大模型入门到实战全套学习大礼包1、大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通2、大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。3、AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。4、大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。5、大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。适用人群第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】