网站被黑的表现建设项目信息类网站
2026/1/20 1:29:57 网站建设 项目流程
网站被黑的表现,建设项目信息类网站,深圳保障性住房计划,htm网站开发 实训Mixture-of-Transformers(MoT)是一种新型稀疏多模态Transformer架构#xff0c;通过按模态解耦非嵌入参数(前馈网络、注意力矩阵和层归一化)实现高效处理。实验表明#xff0c;MoT在Chameleon 7B设置中仅需55.8%的FLOPs就达到密集基线性能#xff0c;扩展到语音时仅需37.2%的…Mixture-of-Transformers(MoT)是一种新型稀疏多模态Transformer架构通过按模态解耦非嵌入参数(前馈网络、注意力矩阵和层归一化)实现高效处理。实验表明MoT在Chameleon 7B设置中仅需55.8%的FLOPs就达到密集基线性能扩展到语音时仅需37.2%的FLOPs。系统分析进一步显示MoT可显著减少训练时间为多模态大模型训练提供了高效解决方案。Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation ModelsURL: https://arxiv.org/abs/2411.04996代码https://github.com/facebookresearch/Mixture-of-Transformers【背景】大型语言模型LLMs的发展已扩展到多模态系统能够在统一框架内处理文本、图像和语音。【挑战】与仅处理文本的 LLMs 相比训练这些模型需要更大的数据集和计算资源。【方法】为解决扩展挑战我们提出了 Mixture-of-TransformersMoT一种稀疏多模态 transformer 架构可显著降低预训练计算成本。【细节】MoT 按模态解耦模型的非嵌入参数——包括前馈网络、注意力矩阵和层归一化——实现对特定模态的处理同时保持对完整输入序列的全局自注意力。【效果1】我们在多种设置和模型规模下评估了 MoT。在 Chameleon 7B 设置自回归文本和图像生成中MoT 仅使用 55.8%的 FLOPs 就达到了密集基线的性能。当扩展到包含语音时MoT 仅使用 37.2%的 FLOPs 就达到了与密集基线相当的语音性能。在 Transfusion 设置中文本和图像使用不同目标进行训练7B MoT 模型仅使用三分之一 FLOPs 就达到了密集基线的图像模态性能而 760M MoT 模型在关键图像生成指标上超过了 1.4B 密集基线模型。【效果2】系统分析进一步突显了 MoT 的实际优势在 AWS p4de.24xlarge 实例配备 NVIDIA A100 GPU上MoT 以 47.2%的墙钟时间达到密集基线的图像质量以 75.6%的墙钟时间达到文本质量。图 1Mixture-of-transformerMoT架构。MoT 是一种生成模型架构旨在处理任意交错模态如文本、图像和语音的序列。每种模态使用一组独立的非嵌入 transformer 参数——包括前馈网络、注意力矩阵和层归一化。在训练过程中每种模态可以使用特定于模态的损失函数进行监督。多模态模型训练的观察多个模态让优化变得复杂经验表明在密集的 transformer 模型中这些模态通常表现出冲突的训练动态图 15这使优化复杂化并增加了计算负载。不同模态 ⇒ 特征空间的不同位置尽管输入被处理为没有模态特定先验的统一 tokens但不同模态在特征空间中占据不同的区域图 2(e)附录图 23这表明模态处理方式存在固有差异。一种自然的想法是使用 MoE不同模态对应不同的专家MoE 的优点通过路由减少整体计算负载MoE 的缺点专家激活不均衡训练动态复杂化受到这样的想法的启发先前的工作在 MoE 层中引入了模态感知稀疏性 ⇒ 表明基于模态的简单规则路由优于 MoE 中常用的学习路由这种成功可能归因于更稳定的训练动态避免了在早期阶段专家和路由器都训练不足时出现的不稳定性。与先前的方法不同MoT 在整个 transformer 中应用模态感知稀疏性而不是特定层或模块。MoT 接收交错的多模态序列如文本、图像、语音作为输入并为每个令牌动态应用不同的、模态特定的参数包括 FFN、attention矩阵和层归一化。因此MoT 设计产生了一个稀疏模型其计算结构和 FLOP 计数与其密集 transformer 对应模型完全相同。设计了下面几种实验自回归的文本目标图像目标自回归的文本目标图像目标语音目标Chameleon 数据集自回归的文本目标基于扩散的图像目标【具体意思可以看下面的图3因为模型中都是token表示所以其实只是 loss 的不同】2 方法Mixture-of-Transformers 架构2.1 背景多模态生成的基础模型之前的工作Chameleon将图像标记为 1,024 个离散 token允许文本和图像的统一训练Transfusion使用连续图像 token 和基于扩散的训练目标来改进连续模态如图像的生成图(2) a 典型的多模态基础模型处理交错文本T和图像I令牌例如Chameleon。图像 token 源自预训练的 VQGAN 模型将图像转换为 1,024 个离散令牌。本文做了一个小实验对 transformer 不同层的特征空间进行了聚类结果如下。主成分分析PCA显示特征空间中不同模态有明显的区域划分尽管输入作为离散令牌被统一处理没有模态特定的先验。这种自然聚类表明模态处理存在固有差异为我们的后续方法提供了信息。图(2) b ChameleonSpeech 7B Dense 模型在层 1、5、17 和 32 的潜在特征空间的 PCA 结果。 † 尽管模型的架构将所有输入作为均匀离散 token 处理没有模态特定的先验但在特征空间中观察到按模态文本、语音、图像的明显聚类。这种自然聚类突显了模态之间的固有差异表明模型可能以不同方式处理它们。图(2) b ChameleonSpeech 7B Dense 模型在层 1、5、17 和 32 的潜在特征空间的 PCA 结果。 † 尽管模型的架构将所有输入作为均匀离散 token 处理没有模态特定的先验但在特征空间中观察到按模态文本、语音、图像的明显聚类。这种自然聚类突显了模态之间的固有差异表明模型可能以不同方式处理它们。图 3用于多模态生成 AI 的 Mixture-of-Transformers 架构。 a稀疏激活的 Mixture-of-TransformersMoT架构示意图。对于每个输入令牌MoT 激活模态特定权重包括前馈网络、注意力投影矩阵和层归一化然后在整个序列上应用自注意力。T、S 和 I 分别表示文本、语音和图像令牌。【就是说除了注意力层外别的都是各自模态算各自的】 b-c模态表示和训练目标的灵活性。图像可以表示为(b)离散令牌序列使用自回归目标训练Chameleon 设置或©连续令牌序列使用扩散目标训练Transfusion 设置。这允许集成多样化的学习任务如文本的自回归目标和图像的基于扩散的目标。图 3用于多模态生成 AI 的 Mixture-of-Transformers 架构。 a稀疏激活的 Mixture-of-TransformersMoT架构示意图。对于每个输入令牌MoT 激活模态特定权重包括前馈网络、注意力投影矩阵和层归一化然后在整个序列上应用自注意力。T、S 和 I 分别表示文本、语音和图像令牌。【就是说除了注意力层外别的都是各自模态算各自的】 b-c模态表示和训练目标的灵活性。图像可以表示为(b)离散令牌序列使用自回归目标训练Chameleon 设置或©连续令牌序列使用扩散目标训练Transfusion 设置。这允许集成多样化的学习任务如文本的自回归目标和图像的基于扩散的目标。2.2MoT 架构模态特定参数解耦这是一种新颖的架构旨在加速多模态预训练同时降低计算成本。MoT 通过为所有非嵌入模型参数包括前馈网络、注意力矩阵和层归一化引入模态特定权重扩展了标准 Transformer 架构。这种方法使模型能够更高效地处理不同模态同时保留学习跨模态交互的能力。考虑输入序列x(x1,…,xn) 每个 xi 都有模态 mi ∈{text,image,speech}经典 transformer θθMoT 中我们按模态解耦参数同时保持全局自注意力θθ与利用交叉注意力来融合不同模态信息的研究(Alayrac et al., 2022; Aiello et al., 2023)相比我们采用的全局自注意力公式在跨模态 token 间归一化注意力权重的同时还减少了架构中的层数。全局自注意力机制跨所有模态运行尽管存在模态特定的参数解耦仍能捕获跨模态关系【明明都是特定参数的解耦为什么说能捕获跨模态关系呢答可以看看下面的算法这里只是一个token的计算但是实际上所有 Qi Ki Vi 会各自拼在一起最后用公式 (7) 进行计算】θ在这里上标包含mi的变量都是特定模态的投影矩阵这种方法使 MoT 能够根据每种模态的特定特征调整其处理方式同时保持多模态学习的统一架构。MoT 中的计算过程首先按模态对输入令牌进行分组算法 1第 3-5 行。然后应用模态特定的投影进行注意力计算第 6 行接着是跨所有模态的全局自注意力第 8-9 行。随后应用模态特定的输出投影第 11 行、层归一化和前馈网络第 12-13 行。最后通过组合输出包含残差连接和层归一化来结束该过程第 14-16 行。image.png3 实验对于文本我们使用Llama 2 分词器和语料库该语料库包含来自不同领域的 2 万亿个 token。图像使用变分自编码器 (VAE)编码为潜在块其中每个块对应一个连续向量。我们使用 3.8 亿张授权的 Shutterstock 图像及其标题。每张图像都经过中心裁剪并调整为 256×256 像素大小。我们的 VAE 模型对图像进行 8×8 空间下采样。对于多模态示例我们在将图像序列整合到文本序列之前用特殊 token——图像开始(BOI)和图像结束(EOI)——包围每个图像序列。这种方法产生了一个单一序列其中可能包含离散元素(文本 token)和连续元素(图像块)。我们随机排列图像和标题有 80% 的时间将标题放在前面。在大多数实验中我们从两种模态中以 1:1 的比例采样 0.5 万亿个 token(或块)。训练了五种不同规模的模型——参数量分别为 0.16B、0.76B、1.4B 和 7B。我们在所有配置中保持 U-Net 块编码参数固定为 0.27B 额外参数。我们随机初始化所有模型参数并使用 AdamWβ10.9, β20.95, ϵ1e-8进行优化学习率为 3e-4预热 4000 步后使用余弦调度器衰减至 1.5e-5。我们在 4096 个 token 的序列上以每批 2M token 的批量进行训练共训练 250k 步总计达到 0.5T token。我们使用 0.1 的权重衰减进行正则化并通过范数(1.0)裁剪梯度。在推理过程中我们进行 250 步扩散。图 4具有自回归目标的多模态实验设置Chameleon。文本和图像都使用自回归目标进行训练。图像使用预训练的 VQ-VAE 模型被标记为 1,024 个离散令牌。此设置展示了使用单一目标函数在模态间的统一处理。图 5MoT 在 7B 参数 Chameleon 多模态模型上的预训练加速。图 5MoT 在 7B 参数 Chameleon 多模态模型上的预训练加速。 a全局训练损失曲线。MoT 比密集模型和 MoE-4x 模型更快地降低损失在 60,000 步内达到密集模型在 120,000 步时的最终损失。 ba 中训练损失的步数匹配图。MoT 仅需密集模型训练步数的 45.5%即可获得 comparable 性能。 c,d图像模态训练损失及相应的步数匹配图。 e,f文本模态训练损失及相应的步数匹配图。 MoT 对图像模态特别有效仅需密集模型训练步数的 34.8%即可匹配最终损失。MoT 和 MoE-4x 在文本模态上都优于密集模型。 g-j图像模态验证损失。 k-n文本模态验证损失。 所有模型和 MoT 在 55.8%训练检查点处的最终验证损失比较。MoT 在 55.8%训练步数时实现了与密集模型最终损失相当或更低的验证损失表明所需训练 FLOPs 减少了 44.2%。稀疏模型的模型大小表示激活的参数。所有运行都是 FLOPs 控制的并且从头开始预训练。后面有很多实验这里先不仔细看了。但是需要注意的是这个模型是支持生成图片的不过似乎这个论文更看重loss而没有很多目前常测的 benchmark​最后我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包✅AI大模型学习路线图✅Agent行业报告✅100集大模型视频教程✅大模型书籍PDF✅DeepSeek教程✅AI产品经理入门资料完整的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】​​为什么说现在普通人就业/升职加薪的首选是AI大模型人工智能技术的爆发式增长正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议到全国两会关于AI产业发展的政策聚焦再到招聘会上排起的长队AI的热度已从技术领域渗透到就业市场的每一个角落。智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200%远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。​​资料包有什么①从入门到精通的全套视频教程⑤⑥包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图还有视频解说全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤ 这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频教程由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌​​​​如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】**​

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询