2026/4/7 20:23:24
网站建设
项目流程
查询数据的网站怎么做,家教网站制作,南充商城网站建设,做企业网站备案都需要什么LLMs之MAS之LatentMAS#xff1a;《Latent Collaboration in Multi-Agent Systems》翻译与解读 导读#xff1a;本研究引入了LatentMAS#xff0c;一个创新的、无需训练的框架#xff0c;旨在通过实现LLM Agent在连续潜在空间中的纯粹协作#xff0c;克服传统基于文本的多…LLMs之MAS之LatentMAS《Latent Collaboration in Multi-Agent Systems》翻译与解读导读本研究引入了LatentMAS一个创新的、无需训练的框架旨在通过实现LLM Agent在连续潜在空间中的纯粹协作克服传统基于文本的多智能体系统所面临的效率和信息瓶颈。LatentMAS的核心机制包括Agent内部的自回归潜在思想生成和跨Agent的无损潜在工作记忆传输并通过一个线性对齐操作符确保潜在表示的分布一致性。理论分析证明了LatentMAS在表达能力和计算效率上的显著优势而广泛的实证评估也表明该框架在多种推理任务中不仅提高了准确性还大幅减少了token使用量并加速了推理过程。LatentMAS为构建下一代能够超越自然语言限制进行协作的智能体系统提供了一个可扩展且通用的范式为多智能体系统的未来发展开辟了新的方向。背景痛点● LLM-based MAS的现有局限性 现有的多智能体系统MAS中大型语言模型LLMAgent主要依赖基于文本自然语言的推理和通信进行协作这限制了系统级智能的发挥。● 文本作为通用媒介的低效性 自然语言或文本作为Agent间思想交流的通用媒介存在固有的效率低下和信息瓶颈。文本通信需要显式解码和编码导致信息传输速度慢、token使用量大且可能丢失LLM内部连续潜在空间中更丰富的语义信息。●缺乏统一的潜在协作框架 尽管有研究探索利用LLM的隐藏表示进行单模型内部的潜在思维链CoT推理或在两个模型间通过KV缓存或层嵌入进行信息交换但目前仍缺乏一个能够统一潜在推理和潜在通信的全面模型协作框架实现纯粹的潜在协作。具体的解决方案● LatentMAS框架 提出LatentMAS一个端到端、无需训练的框架使LLM Agent能够完全在连续潜在空间中进行纯粹的潜在协作。● 核心设计理念 LatentMAS的核心设计整合了Agent内部的“潜在思想生成”和跨Agent的“潜在工作记忆传输”。● 训练无关性 LatentMAS是一个完全“训练无关”training-free的框架这意味着它不需要额外的模型训练即可实现潜在协作。核心思路步骤● Agent内部的自回归潜在思想生成* 机制 每个LLM Agent不生成显式token而是通过自回归地将最后一层Transformer层的隐藏表示直接作为下一个输入嵌入来执行潜在推理。这取代了传统token生成中的解码和下一标记嵌入过程。* 潜在思想 Agent新生成的最后一层隐藏状态序列被定义为“潜在思想”代表了模型的持续内部思考。* 输入-输出分布对齐 为了解决高维隐藏状态与输入嵌入空间统计模式不一致的问题引入了一个“线性对齐操作符”W_a。这个操作符将最后一层隐藏状态映射回有效的输入嵌入空间确保分布一致性。* W_a 的计算 W_a 是一个尺寸为 d_h x d_h 的小型投影矩阵通过最小化 ||W_out * W_a - W_in||_F^2 来计算实际上是求解一个带L2正则化的岭回归问题。它只需计算一次并在所有后续潜在步骤中重复使用计算成本可忽略不计。* 表达能力 理论分析表明潜在思想生成比基于文本的推理效率高O(d_h / log|V|) 倍其表达能力与隐藏维度 d_h 线性相关。● Agent间工作记忆保存和思想传输* 机制 在LatentMAS中当一个LLM Agent完成其潜在思想生成后它会提取其所有Transformer层的KV缓存。这些KV缓存构成了该Agent的“潜在工作记忆”。* KV缓存内容 潜在工作记忆不仅封装了初始输入上下文还包含了Agent新生成的潜在思想。* 传输过程 后继Agent通过层级拼接prepending的方式将前一个Agent的KV缓存直接整合到自己的KV缓存中。这意味着新Agent的潜在思想生成将以前一个Agent的工作记忆和自身的内部表示为条件。* 无损信息传输 理论分析证明这种潜在工作记忆传输机制确保了信息保真度其效果等同于显式输入交换从而避免了信息损失和冗余的重新计算。● 端到端流程与复杂性分析* 完整流程 整个LatentMAS系统中的所有Agent都遵循上述潜在思想生成和工作记忆传输机制只有最后一个Agent负责解码最终答案。* 时间复杂度 LatentMAS每个Agent的时间复杂度为 O((d_h^2 * m d_h * m^2 d_h * t * m) * L)与实现相同表达能力的基于文本的MAS相比显著降低了计算复杂性。优势● 更高的准确性 LatentMAS在9个涵盖数学与科学推理、常识理解和代码生成的基准测试中始终优于强大的单模型和基于文本的MAS基线准确率最高提高14.6%。● 显著的效率提升输出token使用量减少70.8%至83.7%。端到端推理速度提高4倍至4.3倍。理论上潜在思想生成效率比基于文本的推理高 O(d_h / log|V|) 倍。● 无损信息传输 潜在工作记忆传输机制保证了信息保真度确保Agent间信息交换的完整性。● 更高的表达能力 潜在思想编码了比离散token更丰富、更具语义的结构提供了更大的表达能力。● 训练无关性 作为一个无需训练的框架LatentMAS易于部署和应用无需额外的模型微调。● 语义一致性与鲁棒性 潜在思想的嵌入空间与文本的嵌入空间高度重叠表明语义一致性。线性对齐操作符 W_a 有效地恢复了输入嵌入空间的几何和统计结构缓解了迭代潜在步骤中的表示漂移增强了系统的鲁棒性。● 缓解错误累积潜在协作能够有效缓解Multi-Agent管道中错误累积的问题因为后续Agent接收的是丰富的连续表示而非脆弱的文本这使得它们能够重新解释、细化和纠正上游推理避免继承表面错误。结论观点经验与建议● 潜在协作的有效性 LatentMAS成功证明了多智能体系统完全在连续潜在空间中协作的可行性超越了自然语言的固有局限。● 理论与实证的统一 论文通过全面的理论分析关于表达能力、信息保真度和计算复杂性和广泛的实证评估共同验证了LatentMAS的有效性和优势。●对齐机制的关键作用 线性对齐操作符 W_a 对于维持潜在推理过程中隐藏状态与输入嵌入空间之间的分布一致性至关重要并在实验中带来了显著的性能提升。● 潜在步骤深度的优化 增加潜在步骤深度通常能提高性能但存在一个最佳范围例如40-80步过多的潜在思想生成可能引入冗余或无用信息需要权衡。● 未来研究方向* 将基于文本的MAS中先进的后训练范式如强化学习或策略优化应用于优化LatentMAS的潜在协作协议以解锁更有效的Multi-Agent推理策略。* 将LatentMAS框架扩展到支持异构Agent即使用不同LLM模型或不同架构的Agent进行协作可能通过引入可训练的适配器来对齐和共享潜在表示。目录《Latent Collaboration in Multi-Agent Systems》翻译与解读AbstractFigure 1:Evaluation of LatentMAS across (i) accuracy performance (%), (ii) inference speed (times(s)/run), and (ii) token usage (per token) over 9 benchmarks and 3 LLM model scales under the Hierarchical MAS setting. LatentMAS consistently improves system-level reasoning accuracy while substantially reducing computational overhead compared with single model and text-based MAS.图 1在分层多智能体系统设置下针对 9 个基准测试和 3 种大规模语言模型规模对潜在 MAS 在i准确率性能%、ii推理速度次/秒/运行和iii标记使用量每标记方面的评估。与单模型和基于文本的 MAS 相比潜在 MAS 一直提高系统级推理准确率同时大幅降低计算开销。1、IntroductionFigure 2:Illustration of sequential and hierarchical MAS.图 2顺序式和分层式多智能体系统的示意图。Figure 3:Overview of LatentMAS. Each LLM agent in the system first generates latent thoughts through last-layer hidden states, then transfers information layer-wise via shared latent working memory stored in KV-caches, enabling completely system-wide latent collaboration.图 3LatentMAS 概览。系统中的每个 LLM 代理首先通过最后一层隐藏状态生成潜在想法然后通过存储在 KV 缓存中的共享潜在工作内存逐层传递信息从而实现整个系统范围内的潜在协作。6 Conclusion《Latent Collaboration in Multi-Agent Systems》翻译与解读地址论文地址https://arxiv.org/abs/2511.20639时间[v1] 2025 年 11 月 25 日[v2] 2025 年 12 月 8 日作者普林斯顿大学伊利诺伊大学厄巴纳-香槟分校斯坦福大学AbstractMulti-agent systems (MAS) extend large language models (LLMs) from independent single-model reasoning to coordinative system-level intelligence. While existing LLM agents depend on text-based mediation for reasoning and communication, we take a step forward by enabling models to collaborate directly within the continuous latent space. We introduce LatentMAS, an end-to-end training-free framework that enables pure latent collaboration among LLM agents. In LatentMAS, each agent first performs auto-regressive latent thoughts generation through last-layer hidden embeddings. A shared latent working memory then preserves and transfers each agents internal representations, ensuring lossless information exchange. We provide theoretical analyses establishing that LatentMAS attains higher expressiveness and lossless information preservation with substantially lower complexity than vanilla text-based MAS. In addition, empirical evaluations across 9 comprehensive benchmarks spanning math and science reasoning, commonsense understanding, and code generation show that LatentMAS consistently outperforms strong single-model and text-based MAS baselines, achieving up to 14.6% higher accuracy, reducing output token usage by 70.8%-83.7%, and providing 4x-4.3x faster end-to-end inference. These results demonstrate that our new latent collaboration framework enhances system-level reasoning quality while offering substantial efficiency gains without any additional training. Code and data are fully open-sourced at this https URL.多智能体系统MAS将大型语言模型LLM从独立的单模型推理扩展到协调的系统级智能。虽然现有的 LLM 智能体依赖于基于文本的中介来进行推理和通信但我们更进一步使模型能够在连续的潜在空间中直接协作。我们引入了LatentMAS这是一个无需端到端训练的框架能够实现 LLM 智能体之间的纯潜在协作。在 LatentMAS 中每个智能体首先通过最后一层隐藏嵌入进行自回归潜在思维生成。一个共享的潜在工作内存随后保存并传递每个智能体的内部表示确保信息无损交换。我们提供了理论分析证明 LatentMAS 达到了比基于文本的普通 MAS更高的表达能力和无损信息保存且复杂度大幅降低。此外在涵盖数学和科学推理、常识理解以及代码生成的 9 个综合基准上的实证评估表明LatentMAS一直优于强大的单模型和基于文本的 MAS 基线准确率最高提升 14.6%输出标记使用量减少 70.8% - 83.7%端到端推理速度提高 4 倍至 4.3 倍。这些结果表明我们的新潜在协作框架在系统级推理质量方面有所提升同时在无需任何额外训练的情况下实现了显著的效率提升。代码和数据已完全开源网址为https://this-url 。Figure 1:Evaluation of LatentMAS across (i) accuracy performance (%), (ii) inference speed (times(s)/run), and (ii) token usage (per token) over 9 benchmarks and 3 LLM model scales under the Hierarchical MAS setting. LatentMAS consistently improves system-level reasoning accuracy while substantially reducing computational overhead compared with single model and text-based MAS.图 1在分层多智能体系统设置下针对 9 个基准测试和 3 种大规模语言模型规模对潜在 MAS 在i准确率性能%、ii推理速度次/秒/运行和iii标记使用量每标记方面的评估。与单模型和基于文本的 MAS 相比潜在 MAS 一直提高系统级推理准确率同时大幅降低计算开销。1、IntroductionModel collaboration emerges as the foundation of system-level intelligence in the era of Agentic AI (Acharya et al., 2025). Recent advances in multi-agent systems (MAS) (Wu et al., 2024; Hong et al., 2023; Hu et al., 2025) have catalyzed a paradigm shift from solitary, model-centric reasoning into a collaborative endeavor among multiple interacting models. Among these, large language model (LLM)-based MAS has been adopted across various downstream applications, including cooperative math and science reasoning (Pezeshkpour et al., 2024; Zhou et al., 2025), distributed tool-use in open-domain QA (Jin et al., 2025; Li et al., 2025d), and embodied decision-making in robotics (Feng et al., 2025; Li et al., 2025c). Within LLM-based MAS, natural language or text generally serves as the lingua franca—the common medium that carries each agent’s internal thoughts and enables communication across different agents (Guo et al., 2024).Beyond explicit text, several studies have explored the use of LLMs’ continuous latent space as a new form of “model language,” (Chen et al., 2025b) by either (i) leveraging hidden representations within transformers to enable single model’s internal latent chain-of-thought (CoT) reasoning (Hao et al., 2024; Zheng et al., 2025; Zhang et al., 2025), or (ii) employing KV caches or layer embeddings for information exchange across two models (Liu et al., 2024; Fu et al., 2025). However, a comprehensive model collaboration framework unifying both latent reasoning and latent communication remains unexplored. Moving one step forward, we investigate:[Uncaptioned image]Can multi-agent systems achieve pure latent collaboration?To address this question, we introduce LatentMAS, an end-to-end collaborative framework that operates entirely within the continuous latent space. Our core design integrates both internal latent thoughts generation and cross-agent latent working memory transfer. Inside each agent, reasoning unfolds through auto-regressive generation of last-layer hidden representations, capturing the model’s ongoing internal thoughts without explicit decoding. Across agents, information is exchanged via shared latent working memory stored in layer-wise KV caches, capturing both the input context and newly generated latent thoughts. Overall, LatentMAS is completely training-free, enabling all agents to think and interact purely through their internal latent representations.Building on our framework design, LatentMAS is grounded on three foundational principles, verified by comprehensive theoretical and empirical analyses:The first two principles jointly underscore the advantage of LatentMAS by enabling richer latent reasoning and lossless latent communication. The third principle further provides an overall complexity analysis, showing that LatentMAS achieves substantially lower computational complexity than text-based MAS while maintaining a higher level of model expressiveness.在代理式人工智能Acharya 等人2025 年时代模型协作成为系统级智能的基础。多智能体系统MAS的最新进展Wu 等人2024 年Hong 等人2023 年Hu 等人2025 年促使了从孤立的、以模型为中心的推理向多个交互模型间协作努力的范式转变。其中基于大型语言模型LLM的多智能体系统已被广泛应用于各种下游应用包括合作式的数学和科学推理Pezeshkpour 等人2024 年Zhou 等人2025 年、开放领域问答中的分布式工具使用Jin 等人2025 年Li 等人2025 年 d以及机器人技术中的具身决策Feng 等人2025 年Li 等人2025 年 c。在基于 LLM 的多智能体系统中自然语言或文本通常充当通用语言——承载每个智能体内部思想并实现不同智能体间交流的共同媒介Guo 等人2024 年。除了明确的文本之外已有若干研究探索了将大型语言模型LLM的连续潜在空间作为一种新的“模型语言”的用途Chen 等人2025b其方式要么是i利用转换器中的隐藏表示来实现单个模型内部潜在的链式思维CoT推理Hao 等人2024Zheng 等人2025Zhang 等人2025要么是ii利用键值缓存或层嵌入在两个模型之间进行信息交换Liu 等人2024Fu 等人2025。然而一个将潜在推理和潜在通信统一起来的全面模型协作框架仍未被探索。更进一步我们研究[未加说明的图片]多智能体系统能否实现纯粹的潜在协作为了解决这个问题我们引入了 LatentMAS这是一个完全在连续潜在空间中运行的端到端协作框架。我们的核心设计整合了内部潜在思维生成和跨智能体潜在工作记忆传输。在每个智能体内部推理通过自回归生成最后一层的隐藏表示来展开捕捉模型正在进行的内部思维而无需明确解码。在各个智能体之间信息通过存储在分层键值缓存中的共享潜在工作内存进行交换该内存既捕获了输入上下文也包含了新生成的潜在思维。总体而言LatentMAS 完全无需训练使所有智能体能够完全通过其内部潜在表示进行思考和交互。基于我们的框架设计LatentMAS 建立在三个基础原则上这些原则已通过全面的理论和实证分析得到验证前两个原则共同强调了 LatentMAS 的优势即能够实现更丰富的潜在推理和无损的潜在通信。第三个原则进一步提供了整体复杂性分析表明 LatentMAS 在保持更高模型表达能力的同时其计算复杂度远低于基于文本的 MAS。To empirically assess the efficacy of LatentMAS, we conduct comprehensive evaluations on nine benchmarks spanning math and science reasoning, commonsense understanding, and code generation, as illustrated in Figure 1. Across both sequential and hierarchical MAS settings and three backbone scales (4B, 8B, and 14B (Yang et al., 2025)), LatentMAS consistently outperforms strong single-model and text-based MAS baselines by (i) improving accuracy by up to 14.6%, (ii) reducing output token usage by 70.8%-83.7%, and (iii) delivering 4 ×-4.3× faster end-to-end inference. These results demonstrate that latent collaboration not only enhances system-level reasoning quality but also provides substantial efficiency gains without any additional training. Further detailed analyses of latent thought expressiveness, working-memory transfer, and input–output alignment confirm that LatentMAS enables semantically meaningful, lossless, and stable collaboration entirely in latent space.为了实证评估潜在多代理系统LatentMAS的有效性我们在涵盖数学和科学推理、常识理解以及代码生成的九个基准测试上进行了全面评估如图 1 所示。在顺序和分层的多代理系统设置以及三种骨干规模40 亿、80 亿和 140 亿Yang 等人2025 年下LatentMAS 始终优于强大的单模型和基于文本的多代理系统基线具体表现为i准确率最高提升 14.6%ii输出标记使用量减少 70.8% - 83.7%iii端到端推理速度提高 4 倍至 4.3 倍。这些结果表明潜在协作不仅提升了系统级推理质量而且在无需额外训练的情况下带来了显著的效率提升。对潜在思维表达能力、工作记忆转移以及输入输出对齐的进一步详细分析证实LatentMAS 能够完全在潜在空间中实现语义上有意义、无损且稳定的协作。Figure 2:Illustration of sequential and hierarchical MAS.图 2顺序式和分层式多智能体系统的示意图。Figure 3:Overview of LatentMAS. Each LLM agent in the system first generates latent thoughts through last-layer hidden states, then transfers information layer-wise via shared latent working memory stored in KV-caches, enabling completely system-wide latent collaboration.图 3LatentMAS 概览。系统中的每个 LLM 代理首先通过最后一层隐藏状态生成潜在想法然后通过存储在 KV 缓存中的共享潜在工作内存逐层传递信息从而实现整个系统范围内的潜在协作。6 ConclusionWe introduced LatentMAS, a training-free framework that enables multi-agent systems to collaborate entirely within the continuous latent space. By combining latent auto-regressive reasoning with a lossless latent working-memory transfer mechanism, LatentMAS overcomes the inherent inefficiencies and information bottlenecks of text-based collaboration. Our theoretical analyses establish substantial gains in expressiveness and computational efficiency, and our empirical results across diverse reasoning, commonsense, and code-generation benchmarks demonstrate that latent collaboration consistently improves accuracy performance, token usage, and decoding speed over strong single-model and text-based MAS baselines. Together, LatentMAS serves as a scalable and general paradigm for building next-generation agentic systems that cooperate beyond the limits of natural language. An exciting future direction is to adapt advanced post-training paradigms from text-based MAS to optimize LatentMAS ’s latent collaboration protocols to unlock more effective multi-agent reasoning strategies.我们介绍了 LatentMAS这是一个无需训练的框架它使多智能体系统能够在连续的潜在空间中完全协作。通过将潜在自回归推理与无损潜在工作内存传输机制相结合LatentMAS 克服了基于文本协作的固有低效性和信息瓶颈。我们的理论分析表明在表达能力和计算效率方面有显著提升而我们在各种推理、常识和代码生成基准上的实证结果表明潜在协作始终能提高准确率、减少标记使用量并加快解码速度优于强大的单模型和基于文本的多智能体系统基线。总之LatentMAS 为构建超越自然语言限制的下一代智能系统提供了一种可扩展且通用的范式。一个令人兴奋的未来方向是将基于文本的多智能体系统中的先进后训练范式应用于优化 LatentMAS 的潜在协作协议以解锁更有效的多智能体推理策略。