2026/1/14 7:10:47
网站建设
项目流程
少儿编程网课平台哪个好,网站推广优化建设,如何用织梦做网站详细教程,怎么给一个网站做推广传送锚点1. 引言2. 统一多模态基础模型的演进与定义2.1. 演进历程2.2. 形式化定义3. 核心建模范式3.1. 外部专家集成建模3.2. 模块化联合建模3.2.1. 提示词媒介建模3.2.2. 表征媒介建模3.3. 端到端统一建模3.3.1. 自回归建模3.3.2. 扩散建模3.3.3. 自回归-扩散混合建模3.3.4. 其…传送锚点1. 引言2. 统一多模态基础模型的演进与定义2.1. 演进历程2.2. 形式化定义3. 核心建模范式3.1. 外部专家集成建模3.2. 模块化联合建模3.2.1. 提示词媒介建模3.2.2. 表征媒介建模3.3. 端到端统一建模3.3.1. 自回归建模3.3.2. 扩散建模3.3.3. 自回归-扩散混合建模3.3.4. 其他架构4. 关键技术组件编码与解码4.1. 编码策略4.1.1. 连续表示4.1.2. 离散表示4.1.3. 混合表示4.2. 解码策略4.2.1. 连续表示解码4.2.2. 离散表示解码4.2.3. 视频与音频解码的特殊性5. 训练与微调策略5.1. 预训练5.1.1. 编码器-解码器的构建5.1.2. 对齐模块的构建5.1.3. 骨干网络的构建5.2. 微调5.2.1. 监督微调 (Supervised Fine-tuning, SFT)5.2.2. 对齐微调 (Alignment Fine-tuning, AFT)6. 核心挑战与未来展望6.1. 挑战一数据工程6.2. 挑战二评估基准6.3. 未来研究方向7. 结论1. 引言统一多模态基础模型Unified Foundation Models, UFM正站在人工智能研究的最前沿代表着构建更通用、更强大人工智能系统的核心方向。物理学家理查德·费曼曾言“我无法创造之物亦无法理解之What I cannot create, I do not understand。”这句名言深刻揭示了“理解”与“创造”之间不可分割的协同关系并为人工智能的发展提供了核心指导原则。这种向统一化的迈进并非简单的增量式进步它代表着一场范式转移——从过去十年碎片化、专业化的模型转向一种更全面、更整合的机器智能愿景以此模拟人类认知本身的多面性。在技术层面统一模型的内在动机和不可替代的价值主要体现在两个方面。首先理解与生成能力相互促进。深度理解是实现可控、高质量生成的基础。例如要生成“一个表面反射着燃烧森林的水晶玻璃国际象棋棋子”模型必须首先精确理解“水晶般透明”、“玻璃材质”和“反射”等概念及其背后的物理与艺术约束。反之生成能力也是复杂推理不可或缺的一部分例如在解决几何问题时绘制辅助线或通过“生成图像来思考”以增强空间推理能力。这种反馈循环使得统一模型能够深化其认知与推理这是仅专注于单一能力的模型所不具备的。其次统一模型是应对高难度现实世界任务的必然选择。许多现实世界的复杂任务如根据剧本生成一部短片要求模型能同时理解叙事结构、视觉语义和时间动态并在此基础上迭代生成连贯的场景。这类任务本质上要求理解与生成能力的无缝协作。因此构建一个能够同时处理感知和创造的统一模型不仅是技术上的追求更是迈向更通用人工智能的必经之路。本综述将全面回顾统一多模态基础模型的发展。我们将首先追溯其演进历程并提供一个严谨的形式化定义。随后我们将系统性地剖析其核心建模范式与关键技术组件并深入探讨模型的训练与微调策略。最后我们将分析当前该领域面临的核心挑战并对未来的研究方向进行展望。2. 统一多模态基础模型的演进与定义本章旨在追溯统一多模态基础模型UFM的演进脉络并为其提供一个严谨的学术定义从而为后续的技术讨论奠定坚实的概念基础。通过梳理其发展阶段和明确其核心特征我们可以更清晰地理解这一前沿领域的研究边界与目标。2.1. 演进历程统一多模态模型的发展并非一蹴而就而是经历了一个从孤立到组合并最终迈向能力涌现的演进过程。其历程可被理解为以下三个独特阶段第一阶段特定能力阶段 (Specific Stage)此阶段的显著特点是模型能力的“孤立专业化”。理解模型如图像字幕生成、动作识别与生成模型如文本到图像生成、图像修复作为独立的实体被分开研究和训练。它们各自在特定任务上表现出色但彼此之间缺乏有效的协同机制无法共同完成需要综合能力的任务。第二阶段组合能力阶段 (Combine Stage)随着技术的发展模型开始进入能力组合阶段。在这一阶段模型能够结合理解与生成能力以应对更复杂的任务。例如“视觉标注驱动的理解”通过绘制辅助线来更好地理解几何问题和“基于知识的图像生成”根据现实世界背景信息创作图像都体现了两种能力的初步融合。这种组合使模型能够执行超越单一功能的复合型任务。第三阶段涌现能力阶段 (Emergent Stage)此阶段目前仍是一个未来的愿景其核心是实现“交错推理Interleaved Reasoning”能力即在解决一个复杂问题的过程中能够灵活地交替使用理解和生成能力。这类任务的难度极高例如“基于脚本的多模态电影生成”模型需完整理解剧本并生成对应的电影片段和“基于图像的空间迷宫导航”模型需利用视觉信息进行路径推理。目前尚无任何模型能完全实现这一阶段所描绘的复杂能力。2.2. 形式化定义尽管统一基础模型已取得显著进展但学术界对其确切定义仍存在模糊之处。为了构建一个严谨的研究框架我们有必要为其建立一个清晰的形式化定义。首先我们定义两种基础的任务集合理解任务集 (TU): 包含所有理解类任务的集合如图像分类、目标检测、视频问答等。生成任务集 (TG): 包含所有生成类任务的集合如文本到图像生成、视频编辑、语音合成等。需要强调的是TU和TG均为开放集意味着随着研究的深入新的任务类型可以被不断地补充进来。在此基础上我们引入统一任务集 (UniSet)的概念。一个任务集若要被称为UniSet它必须同时包含至少一个理解任务和一个生成任务。所有合格的UniSet的集合我们称之为PowerUniSet。形式上PowerUniSet是TU ∪ TG的幂集从中减去TU的幂集和TG的幂集。这个数学定义确保了PowerUniSet中的任何任务集I都必须同时包含至少一个理解任务和一个生成任务从而排除了那些仅由单一类型任务构成的集合。最后我们可以精确地陈述统一多模 μπορεί基础模型UFM的形式化定义一个模型被称为统一基础模型UFM当且仅当它能够处理一个属于PowerUniSet的任务集I。该任务集I的广度即|I|的大小决定了模型统一能力的强弱。一个更强大的UFM能够覆盖更广泛、更多样的理解与生成任务。通过对UFM的演进和定义的梳理我们为其理论框架奠定了基础。接下来我们将深入探讨实现这些模型的具体架构范式。3. 核心建模范式当前实现统一多模态基础模型UFM的研究主要遵循三种主流的建模范式外部专家集成建模、模块化联合建模和端到端统一建模。每种范式在架构设计、资源需求和能力边界上都有其独特的权衡。理解这些范式的差异对于评估其技术优劣和选择合适的应用场景至关重要。本章将对这三种范式进行系统性的剖析。3.1. 外部专家集成建模此范式的核心思想是将一个强大的大型语言模型LLM作为中央控制器或“大脑”通过规划、调度和调用一系列外部的、预训练好的专业模型如图像识别、语音生成、视频理解等来协同完成复杂的多模态任务。其典型工作流程可分为三个步骤任务规划与调度LLM首先解析用户的多模态指令将其分解为一系列可执行的子任务并确定调用哪些外部专家模型以及它们的执行顺序。任务执行LLM生成结构化的控制指令通常是自然语言提示依次调用选定的外部模型来执行相应的子任务。响应后处理与集成LLM收集所有外部模型的执行结果进行整合、提炼并最终生成一个统一、连贯的响应给用户。这一范式的代表性工作包括Visual ChatGPT、HuggingGPT和AudioGPT。例如HuggingGPT利用LLM连接HuggingFace社区中的海量模型动态地解决复杂AI任务展示了极强的灵活性和可扩展性。3.2. 模块化联合建模模块化联合建模是一种介于完全集成和完全统一之间的折衷方案。它通常由一个核心的语言模型和一个或多个独立的生成模块组成二者通过特定的“媒介”连接协同工作。根据媒介的不同该范式可进一步分为两种技术路线。3.2.1. 提示词媒介建模这种方法以自然语言提示词作为连接LLM与外部生成模块的桥梁。LLM负责理解用户意图并生成一段详细的、结构化的文本描述这段描述随后被用作提示词来驱动一个独立的生成模型如Stable Diffusion完成图像或音频的生成。例如M2-Omni在处理图像生成任务时就是通过其LLM核心生成精确的自然语言描述再调用Stable Diffusion来创建最终的视觉内容。优点架构简单耦合度低易于扩展和维护。由于中间媒介是可读的自然语言因此模型的可解释性和可控性较好。缺点生成质量严重受限于语言表达的精确性。语言的抽象性和模糊性使其难以传递精细的结构或序列信息因此不适用于需要精细控制的生成任务。3.2.2. 表征媒介建模为了克服自然语言在信息传递上的局限性该方法使用中间特征表征如连续的向量或离散的查询作为连接LLM和生成模块的媒介。这种表征比文本更密集能够传递更丰富的语义和结构信息。实现方式包括将多模态输入编码为“连续输入”特征或采用“基于查询的组合”机制来高效聚合生成所需的条件特征。优点信息密度高能够更精确地传递细节从而实现更高质量和更强可控性的生成。通过与外部生成模块进行联合训练可以进一步提升性能。缺点需要额外的计算开销来训练和对齐中间特征工程实现的复杂性更高。如果特征对齐不佳可能会显著影响最终的生成质量。3.3. 端到端统一建模端到端统一建模是实现通用人工智能的理想路径之一其目标是通过一个单一的、无缝的架构来处理所有理解和生成任务。这种许多研究人员追求的终极方法高度依赖于精密的编码与解码策略以将所有模态统一到共享的表征空间中。选择离散分词允许与自回归LLM原生集成还是连续表征通常与扩散机制配对构成了基础的架构决策我们将在下一章详细探讨。该范式不再依赖外部独立的模块而是将所有能力内化于一个统一的参数空间中。3.3.1. 自回归建模这是最主流且最成熟的端到端统一建模方法。其核心思想是将所有模态文本、图像、音频等的输入数据都编码为统一的离散token序列然后采用自回归机制即逐个token预测来生成输出序列。关键技术流派因果掩码建模 (Causal Masked Modeling)以CM3为代表其关键创新在于通过将序列的掩码部分移至末尾在自回归框架内巧妙地模拟了掩码效果。这使得模型能够将通常与BERT式模型相关的双向上下文信息融入生成式的自回归过程中从而增强其理解能力。其后续工作CM3Leon则采用了一种两阶段训练策略首先进行大规模的检索增强预训练然后进行多任务监督微调。早期融合 (Early Fusion)以Chameleon为代表在模型早期阶段就将不同模态的信息投射到共享的表示空间以促进深度融合。下一尺度预测 (Next Scale Prediction)以VARGPT为代表受视觉自回归模型VAR的启发探索了新的统一生成范式。优点架构简洁与主流LLM范式天然对齐无需复杂的辅助模块具有很强的可扩展性。3.3.2. 扩散建模此方法将强大的扩散模型集成到统一框架中通过逐步去噪的过程来生成高质量的多模态内容。技术路线上可分为处理连续特征的“连续扩散”和处理离散token的“离散扩散”。优点生成质量极高能够产生丰富、逼真的细节。缺点推理速度较慢因为它需要多步迭代去噪。相比之下其多模态理解能力通常弱于自回归模型。3.3.3. 自回归-扩散混合建模该范式旨在结合自回归模型强大的序列建模、理解能力与扩散模型卓越的生成质量。代表作包括采用连续扩散的Transfusion和采用离散扩散的Show-o。为了优化混合架构一些工作如LMFusion还引入了“专家混合Mixture-of-Experts, MoE”架构为不同模态或任务分配专门的子网络以减少任务间的干扰。3.3.4. 其他架构除了上述主流架构研究者们也在探索其他可能性编码器-解码器Transformer (Encoder-Decoder Transformer)以Unified-IO系列为代表采用经典的序列到序列架构将所有任务统一为“输入序列到输出序列”的格式。状态空间模型 (State Space Models)以OmniMamba为代表利用Mamba等新兴架构替代Transformer在处理长序列时具有更高的效率。图结构 (Graph Structures)以GraphGPT-o为代表将多模态输入表示为图结构以更好地捕捉跨模态实体间的复杂关系。在系统了解了宏观的建模范式后下一章我们将深入探讨构成这些模型的具体技术组件即多模态数据的编码与解码策略。4. 关键技术组件编码与解码编码Encoding和解码Decoding是统一多模态基础模型UFM处理和生成多模态数据的两个核心环节。编码负责将来自不同模态的原始输入如图像、视频转换为模型能够处理的内部表示而解码则执行相反的过程将模型的内部表示转换回人类可感知的模态数据。本章将详细剖析不同模态数据的连续、离散及混合表示方法以及与之相对应的解码策略。4.1. 编码策略编码策略的目标是将多模态输入数据映射到统一的特征空间。根据内部表示的类型这些策略可被大致归类为三种类型连续表示、离散表示和混合表示。4.1.1. 连续表示连续表示将输入数据映射到一个连续的向量空间。以图像编码为例主流范式有三种基于VAE的范式 (VAE-Based)利用变分自编码器VAE的编码器将图像压缩成一个连续的潜在向量。这种方法能够以较高的压缩率保留图像的全局结构和低频信息但可能在语义抽象方面有所欠缺。基于CLIP ViT的范式 (CLIP ViT-Based)直接使用预训练好的CLIP视觉TransformerViT作为特征提取器。由于CLIP在大规模图文数据上进行了对比学习训练其提取的特征与文本语义高度对齐富含高层语义信息但可能丢失了图像的精细细节。基于Q-Former的范式 (Q-Former-Based)采用一个轻量级的查询TransformerQ-Former作为适配器通过少量可学习的查询向量来“提炼”和压缩来自预训练视觉编码器的特征。这种方法在语义抽象和信息压缩之间取得了很好的平衡。4.1.2. 离散表示离散表示通过矢量量化Vector Quantization, VQ等技术将连续的特征映射到一个预定义的码本codebook中从而将输入数据转换为一个离散的token序列。这种离散化的主要动机在于创建一个统一的表征格式。通过将图像等连续数据转换为离散的token序列它们在结构上变得与文本无法区分从而允许像Transformer这样强大的、为文本而生的架构能够在一个统一、一致的框架内处理和生成它们。主流范式主要基于VQ-VAE、VQ-GAN及其变体如采用多通道量化的MoVQ。这些方法通过训练一个编码器-解码器对和一个码本来实现离散化。核心权衡离散表示同样面临在重建保真度和语义抽象之间的权衡。为像素级重建优化的token通常缺乏高层语义而富含语义的token又可能丢失细节。4.1.3. 混合表示为了结合连续与离散表示的优点混合编码策略应运而生。这类策略通常采用“级联”或“双分支”架构同时提取用于理解任务的语义特征连续和用于生成任务的细节特征离散以期在单一模型中实现两种能力的最佳平衡。4.2. 解码策略解码策略与编码策略相辅相成负责将模型的内部表示转换回原始模态。解码器的选择和设计直接决定了生成内容的质量。与编码策略相对应解码策略也分为连续、离散和混合三种类型。4.2.1. 连续表示解码当模型的内部表示是连续特征时解码通常依赖于一个强大的生成器。外部预训练生成器最常见的方法是利用外部预训练好的扩散模型如Stable Diffusion用于图像生成或AudioLDM用于音频生成。模型的连续特征输出被用作这些生成器的条件输入。内部集成扩散机制一些模型在自身架构内集成了扩散模块直接在模型内部完成从连续特征到最终输出的去噪生成过程。4.2.2. 离散表示解码当模型的内部表示是离散token序列时解码器通常是与编码器配对的VQ-VAE解码器。LLM首先自回归地生成token序列然后该解码器负责将这些token重建为像素级的图像或波形级的音频。4.2.3. 视频与音频解码的特殊性视频解码视频生成不仅要保证单帧图像的质量还必须处理帧与帧之间的时序一致性。一些模型如BAGEL采用“同步去噪”机制同时对视频中的多个帧进行去噪以增强时间上的连贯性。音频解码音频解码通常在梅尔频谱图上进行然后需要一个专门的声码器vocoder如HiFi-GAN将频谱图转换为最终的音频波形。在剖析了编码与解码的技术机制——即在原始数据和模型的内部语言之间进行转换的过程——之后我们必须审视这些机制是如何被学习的。下一章将深入探讨赋予模型掌握这些复杂表征和转换能力的训练与微调策略。5. 训练与微调策略训练与微调是赋予统一多模态基础模型UFM强大能力的关键过程它将模型架构与海量数据相结合塑造其理解与生成的核心功能。本章将首先解构UFM预训练阶段的模块化构建范式然后系统阐述用于优化模型性能的两种核心路径监督微调SFT和对齐微调AFT。5.1. 预训练UFM的预训练过程通常被解构为三个核心模块的构建。这种模块化的方法有助于稳定训练过程并有效利用现有的预训练资源。5.1.1. 编码器-解码器的构建编码器和解码器是模型与多模态世界交互的接口其构建范式分为两类解耦训练 (Decoupled Training)编码器和解码器被独立构建或训练。在解耦训练范式中编码器通常是一个预训练好的、冻结的特征提取器如CLIP ViT。模型仅学习一个轻量级的“特征适配”模块——例如一个简单的线性投影层或更复杂的适配器如Q-Former——来将视觉特征与语言模型的输入空间对齐。类似地解码器可能是一个预训练的、现成的扩散模型如Stable Diffusion它不与核心模型联合训练。这种方式灵活且高效但可能存在语义鸿沟。耦合训练 (Coupled Training)编码器和解码器通过一个共同的目标如重建损失进行联合训练。这包括经典的VAE系列自编码器和更先进的多模态分词器如SEED的分词器。这种方式确保了编解码之间的高度一致性但训练成本更高。5.1.2. 对齐模块的构建对齐模块是连接不同组件如视觉编码器和LLM骨干网络的桥梁负责将一个模块的输出特征映射到另一个模块能够理解的语义空间。其实现方式多样Q-Former一种轻量级的查询Transformer通过少量可学习的查询向量高效地从视觉特征中提取与文本相关的语义信息。线性投影层最简单直接的方式通过一个或多个线性层进行特征维度和空间的映射。专用适配器针对特定任务或模态设计的更复杂的网络结构以实现更精细的对齐。5.1.3. 骨干网络的构建骨干网络是UFM的核心负责处理和生成统一的序列表示。其发展脉络清晰早期探索采用经典的序列到序列Seq2Seq架构如OFA。主流范式当前主流是基于大型语言模型LLM的架构主要分为两大流派基于LLM的自回归范式直接利用预训练LLM强大的序列建模能力通过自回归方式统一处理和生成多模态token序列。基于扩散的范式将扩散模型的去噪过程集成到骨干网络中以实现高质量的生成。5.2. 微调预训练赋予了模型通用的基础能力而微调则是在特定任务或指令数据上对模型进行优化使其输出更精确、更有用。5.2.1. 监督微调 (Supervised Fine-tuning, SFT)SFT使用高质量的“指令-响应”对数据来教导模型如何遵循指令。根据数据和优化策略的不同可分为两种通用任务微调 (General-task Fine-tuning)在包含多种理解和生成任务的混合指令数据上进行统一优化。优点简化了训练流程能协同提升模型的综合能力。缺点不同任务的优化目标可能存在冲突导致模型在任何单一任务上都无法达到最佳性能且可能发生“灾难性遗忘”。多任务微调 (Multi-task Fine-tuning)针对特定的任务子集、领域或模态进行独立或分阶段的优化。优点可以为不同任务设计专门的优化策略有效缓解任务间冲突在特定任务上性能更优。缺点实现过程更复杂需要更多的工程投入和专业知识。随着高质量统一任务数据集的出现通用任务微调已成为构建基础UFM的主流策略而多任务微调则更多用于将模型适配到专门的下游应用中。5.2.2. 对齐微调 (Alignment Fine-tuning, AFT)对齐微调的目标是使模型的输出更符合人类的偏好、价值观和安全准则。为避免术语混淆本综述使用“对齐微调”特指基于人类偏好信号的优化以区别于更宽泛的“后训练post-training”。核心策略直接偏好优化 (Direct Preference Optimization, DPO)通过一个包含“更优”和“更差”响应的偏好数据集直接优化语言模型使其倾向于生成更优的响应而无需显式训练一个奖励模型。组相对策略优化 (Group Relative Policy Optimization, GRPO)作为DPO的一种显著替代方案GRPO是一种强化学习策略它直接优化策略而无需一个独立的、同等大小的评论家模型。它的运作方式是将当前策略下响应的似然度与参考策略进行比较并根据优势分数进行加权同时使用一个裁剪函数如PPO中所示来防止过大的策略更新并稳定训练。核心挑战将偏好对齐应用于UFM时最大的挑战在于设计一个能够同时准确捕捉并平衡理解任务的正确性和生成任务的质量/创意性偏好的奖励模型或优化目标。这是未来研究的一个重点方向。在训练和微调的每一步中数据都扮演着至关重要的角色。下一章将深入探讨支撑整个流程的数据工程。6. 核心挑战与未来展望尽管统一多模态基础模型UFM已经取得了令人瞩目的进展但其在通往更通用人工智能的道路上仍面临着数据工程、评估体系和前沿研究方向等多方面的挑战。本章将深入探讨这些关键挑战并对未来的发展趋势进行展望。6.1. 挑战一数据工程高质量的数据是训练强大UFM的基石。数据工程涉及数据来源、过滤和构建的全过程每个环节都充满挑战。数据来源UFM的训练数据主要来自以下四种渠道现有公共数据集如COCO、LAION等。优点是易于获取、有标准基线缺点是规模和多样性有限可能无法满足特定需求。网络爬取数据规模巨大多样性丰富。但数据质量参差不齐充满噪声且存在版权和隐私风险。内部专有数据大型科技公司拥有海量的专有数据如社交媒体内容。质量和规模优势明显但具有封闭性无法为社区共享。合成数据利用大模型生成。优点是可控性强、成本相对较低缺点是质量受限于生成模型的能力可能引入或放大偏见存在“模型喂养模型”的风险。例如LLaVA数据集利用GPT-4从COCO图像标题中生成复杂的指令对话而ShareGPT-4o-Image则包含完全由GPT-4o合成的图像。数据过滤从海量原始数据中筛选出高质量的训练样本至关重要主要方法包括基于数据属性的启发式过滤根据文本长度、图像分辨率、长宽比等基本属性进行规则过滤和去重。基于模态相关性的过滤使用CLIP等模型计算图文对的相似度如CLIP-Score剔除相关性低的样本确保模态间的语义对齐。内容安全与合规性过滤利用分类器或关键词匹配移除不安全内容NSFW、仇恨言论并筛查个人身份信息PII和版权材料确保数据的安全与合规。数据构建为了满足SFT和AFT的需求需要构建高质量的指令数据主要方法有已有数据集的转换将现有的标注数据集如VQA、字幕数据集转换为“指令-响应”格式。利用大模型生成使用GPT-4o等强大的模型根据给定的图像或标签生成多样化的对话、推理问题或生成指令。人工标注质量最高最符合人类偏好但成本极高规模受限通常用作高质量的种子数据或评测基准。6.2. 挑战二评估基准建立全面、可靠的评估基准是衡量模型能力、指导技术迭代的“标尺”。随着UFM能力的扩展评估维度也日益复杂需要覆盖从基础感知到复杂推理从内容生成到人机对齐的各个方面。以下表格系统性地总结了当前UFM领域的各类评测基准6.3. 未来研究方向展望未来UFM的发展将在以下几个关键方向上寻求突破架构创新专家混合MoE的应用MoE架构在LLM中已证明其在提升效率和性能方面的巨大潜力。在UFM中当前MoE的应用大多采用固定的路由策略如为不同模态分配不同专家。未来的研究将探索更深层次的融合例如动态路由、跨模态专家共享甚至在单一模态内部分化出不同功能的专家以实现更精细、高效的计算资源分配。统一分词器Unified Tokenizer的演进为UFM设计专用的分词器至关重要。一个理想的统一分词器需要在“语义抽象”和“细节保真度”之间取得精妙平衡。它既要能为理解任务提供高度概括的语义token也要能为生成任务提供足以重建高质量图像或视频的细节token。未来的探索将集中于如何设计和训练这样的分词器以支撑更强大的统一模型。交错推理与数据构建实现复杂的交错推理Interleaved Reasoning是UFM的终极目标之一但这极度依赖于高质量的交错式多模态指令数据。目前手动标注此类数据的成本极高而模型合成的质量又难以保证。因此开发高精度的可控生成技术以低成本、大规模地构建用于训练交错推理能力的数据集将是解锁UFM更高层智能的关键瓶颈和研究热点。双重任务的偏好对齐当前的人类偏好对齐技术如DPO主要针对生成任务。如何为UFM设计一个能够同时评估和优化“理解的正确性”与“生成的质量/创意性”的奖励模型和对齐算法是一个核心挑战。未来的研究需要探索新的方法论以确保模型在变得更有用、更安全的同时不会牺牲其在理解任务上的准确性。全面的评估协议现有的评估指标各有局限基于准确率的指标无法评估推理过程的有效性而“以模型为评委”MLLM-as-Judge的方法又会引入评委模型自身的偏见。未来可能需要建立一种混合评估协议例如使用MLLM-as-Judge来评估模型生成的中间步骤如规划的合理性同时使用客观、基于规则的指标来评估最终输出的准确性从而实现更全面、公正的模型能力评估。7. 结论统一多模态基础模型UFM正迅速成为人工智能领域最具活力的前沿之一其核心驱动力在于通过融合“理解”与“生成”这两种基本智能构建更接近通用人工智能的系统。本综述全面回顾了UFM的发展态势从其演进历程、核心定义到三大主流建模范式——外部专家集成、模块化联合与端到端统一——的演进趋势。我们看到该领域正从依赖外部工具的松散集成逐步向单一模型内实现无缝统一的终极目标迈进。展望未来数据工程的创新、全面评估体系的建立以及模型架构如专家混合、统一分词器的突破将是驱动该领域持续发展的核心动力。与此同时实现复杂的交错推理能力和为双重任务设计有效的偏好对齐算法仍是亟待解决的关键挑战。最终对UFM的追求不仅仅是一项技术挑战它更是对机器真正“理解”和“创造”意味着什么这一根本问题的直接探索。随着这些模型的演进它们不仅将重新定义人工智能的边界也将成为我们审视智能本质的一面强有力的全新透镜。