为什么会有人攻击我用织梦做的网站自己做装修效果的网站
2026/2/26 10:20:38 网站建设 项目流程
为什么会有人攻击我用织梦做的网站,自己做装修效果的网站,企业信息查询app,做h游戏视频网站ViLT是一种创新的多模态预训练模型#xff0c;摒弃传统CNN和区域监督#xff0c;仅通过轻量线性投影处理图像输入#xff0c;与文本统一由Transformer进行模态交互。这种设计显著提高视觉-语言任务效率#xff0c;推理速度比基于区域特征的模型快60倍#xff0c;同时保持相…ViLT是一种创新的多模态预训练模型摒弃传统CNN和区域监督仅通过轻量线性投影处理图像输入与文本统一由Transformer进行模态交互。这种设计显著提高视觉-语言任务效率推理速度比基于区域特征的模型快60倍同时保持相当甚至更优的下游任务性能。ViLT为后续研究提供重要参考推动多模态模型向高效统一架构发展。一VILT1概述ViLTVision-and-Language Transformer是2021年ICML会议上提出的一种多模态预训练模型旨在通过简化视觉特征提取过程显著提升视觉-语言任务的效率和性能。其核心创新在于完全摒弃传统视觉语言模型VLM中依赖的卷积神经网络CNN或区域监督如目标检测首次实现了仅通过轻量化的线性投影层处理图像输入与文本输入统一由Transformer进行模态交互。以下从背景、方法、实验与贡献等方面进行介绍A 研究背景与动机传统VLM模型如VisualBERT、ViLBERT等依赖复杂的视觉特征提取模块例如基于Faster R-CNN的区域特征或ResNet的网格特征。这些方法存在两大问题效率瓶颈视觉特征提取耗时远超模态交互步骤例如区域特征需通过目标检测器生成计算成本高表达能力受限模型性能受限于预训练视觉嵌入器的能力例如目标检测器预定义的1600个对象类可能无法覆盖所有下游任务需求。ViLT的提出旨在解决上述问题通过将视觉输入简化为与文本相同的处理方式实现高效且轻量的多模态学习。B 模型架构与创新点1统一模态处理ViLT采用单流single-streamTransformer架构将图像和文本输入统一处理文本嵌入使用BERT的Tokenizer生成词嵌入并添加位置编码和模态类型嵌图像嵌入将图像分割为32×32的块patch通过线性投影仅需2.4M参数映射为向量并添加位置编码和模态类型嵌入模态交互拼接文本和图像嵌入序列输入多层Transformer进行跨模态交互。2轻量化视觉处理ViLT完全移除了传统VLP中的卷积或目标检测模块仅需0.4ms即可完成图像嵌入速度比基于区域特征的模型快数十倍比基于网格特征的模型快。3预训练目标ViLT采用两种预训练任务图像-文本匹配ITM以50%概率替换图文对中的图像通过二分类任务判断图文是否匹配掩码语言建模MLM随机掩码15%的文本token结合图像信息预测被掩码内容并引入**全词掩码Whole Word Masking**技术强制模型依赖视觉信息而非局部文本上下文。4训练技巧图像增强在微调阶段使用RandAugment排除颜色反转和切除操作提升模型泛化能力长时训练增加训练步数如从100K到200K可显著提升下游任务性能。C 实验与性能1下游任务表现分类任务在VQAv2视觉问答和NLVR2视觉推理任务中ViLT分别达到71.26%和75.70%的准确率与依赖卷积的模型相当检索任务在Flickr30K数据集上ViLT的零样本文本检索R1达73.2%图像检索R1达55.0%。2效率优势ViLT的推理速度比基于区域特征的模型快60倍参数量显著减少例如ViLT-B/32仅需12层Transformer适合实时应用。D 主要贡献与意义1轻量化架构首次实现无需卷积或区域监督的VLP模型极大降低计算成本2模态交互优化通过单流Transformer集中计算资源于跨模态交互而非单模态特征提取3训练方法创新验证了全词掩码和图像增强在多模态预训练中的有效性4推动研究方向为后续工作如更大规模的ViLT变体、视觉掩码建模奠定了基础。E) 未来方向扩展模型规模如训练更大参数的ViLT-L或ViLT-H以提升性能视觉掩码目标借鉴无监督学习设计无需区域监督的视觉掩码预训练任务增强策略优化研究更适合多模态任务的文本和图像数据增强方法。ViLT的提出标志着多模态模型从依赖复杂视觉特征转向高效统一的Transformer架构为后续研究提供了重要参考。二论文翻译摘要 视觉与语言预训练VLP在各种视觉与语言联合的下游任务上提升了性能。当前的视觉与语言预训练方法严重依赖图像特征提取过程其中大部分涉及区域监督如目标检测和卷积架构如残差网络ResNet。尽管在文献中被忽视了但我们发现它存在两方面的问题1效率/速度方面单纯提取输入特征所需的计算量比多模态交互步骤要多得多2表达能力方面其上限受制于视觉嵌入器的表达能力以及其预定义的视觉词汇。 在本文中我们提出了一个极简的视觉与语言预训练模型——视觉与语言TransformerViLT。从处理视觉输入的方式被大幅简化为与处理文本输入相同的无卷积方式这一角度来看它是一体化的。我们证明了ViLT比先前的视觉与语言预训练模型快数十倍同时在下游任务上具有相当甚至更好的性能。我们的代码和预训练权重可在https://github.com/dandelin/vilt获取。1.引言预训练加微调的范式已扩展至视觉与语言的交叉领域催生了一类视觉与语言预训练Vision-and-Language Pre-training, VLP模型。这些模型通过图像文本匹配和掩码语言建模目标在图像及其对应描述的语料库上进行预训练最终在涉及双模态输入的视觉-语言下游任务中进行微调。迄今多数VLP研究聚焦于通过增强视觉编码器提升模型性能。虽然学术实验中常通过预先缓存区域特征缓解计算负担但重型视觉编码器的缺陷在真实场景中依然显著——实际应用时仍需经历耗时的特征提取流程。为此我们转向探索轻量化、高效率的视觉嵌入方案。近期研究表明通过简单的图像块线性投影即可有效实现像素嵌入继而输入Transformer架构。尽管Transformer在文本领域已成为主流其在视觉领域的应用方兴未艾。我们推测VLP模型中负责多模态交互的Transformer模块同样具备处理视觉特征的能力可替代传统卷积式视觉编码器。本文提出视觉与语言统一TransformerViLT其核心创新在于对像素输入采用浅层、无卷积的轻量化嵌入方式。通过摒弃专用于视觉输入的深度编码器模型规模与推理速度得到显著优化。如图1所示这种参数高效的模型在视觉-语言下游任务中取得相当甚至更优性能的同时其推理速度比采用区域特征的VLP模型快数十倍较使用网格特征的模型也至少提升四倍。图1. 传统VLP架构与本文提出的ViLT模型对比示意图我们完全移除了VLP处理流程中的卷积神经网络且未影响下游任务性能。ViLT是首个各模态专用模块的计算量低于多模态交互Transformer组件的VLP模型。我们的核心贡献可总结如下ViLT是迄今为止视觉-语言模型中结构最简化的架构。它摒弃了独立的深度视觉编码器转而通过Transformer模块直接提取并处理视觉特征。这一设计显著提升了模型的运行效率并降低了参数量。首次在未依赖区域特征或深度卷积视觉编码器的条件下于视觉-语言任务中实现优异性能。首次通过实验验证在VLP训练框架中引入全词掩码whole word masking与图像增强image augmentations策略此前未被应用于VLP训练可进一步提升下游任务表现。2. 背景2.1 视觉-语言模型的分类体系我们提出一种基于以下两点的视觉-语言模型分类方法模态表达能力是否均衡——即两种模态是否具有相近的专用参数量和计算量模态间是否存在深层网络交互。图2. 视觉-语言模型的四种类别 各矩形的高度表示其相对计算量大小。VE视觉嵌入器、TE文本嵌入器和MI模态交互分别为视觉嵌入模块、文本嵌入模块和模态交互模块的缩写。基于这两点标准可归纳出图2所示的四种模型原型图2a类型以视觉语义嵌入Visual Semantic Embedding, VSE模型为代表例如VSE和SCAN。这类模型对图像和文本使用独立的编码器通常视觉编码器计算量显著更大并通过简单的点积或浅层注意力层计算跨模态特征相似性。图2b类型以CLIP模型为代表。该模型为图像和文本分别使用独立但计算代价相当的Transformer编码器但模态间交互仍停留在浅层如特征向量的点积。尽管CLIP在图像-文本检索任务上展现出卓越的零样本性能但在其他视觉-语言下游任务中表现欠佳。例如将CLIP提取的视觉与文本向量点积作为多模态表征并微调NLVR2任务的MLP头部时开发集准确率仅为50.99 ± 0.38三次随机种子实验均值。由于随机基线准确率为50%这表明此类表征无法有效学习该任务。这一结果与Suhr等人的研究结论一致——仅通过简单融合多模态表征的模型均无法有效学习NLVR2任务。此现象印证了我们的推测即使使用高性能单模态编码器其输出的简单融合仍不足以应对复杂视觉-语言任务进一步凸显了设计深度跨模态交互机制的必要性。图2c类型与浅层交互模型不同近年来的VLP模型如多数基于区域特征的方法通过深层Transformer建模图像与文本特征的交互。然而此类模型仍依赖卷积网络提取图像特征如图1所示这部分占据主要计算量。此外基于调制的视觉-语言模型也属于此类型其视觉CNN主干作为视觉编码器RNN生成文本编码器的调制参数而调制后的CNN则负责模态交互。图2d类型本文提出的ViLT模型首次属于图2d类型其图像像素嵌入层与文本标记嵌入层同样采用浅层、轻量化的设计从而将主要计算资源集中于多模态交互建模。2.2 模态交互模式当代VLP模型的核心在于Transformer架构。其工作流程可概括为接收视觉与文本嵌入序列作为输入通过各层级联建模模态间交互以及可选的模态内交互最终输出上下文关联的特征序列。Bugliarello等人2020将交互模式分为两类单流方法如Visual-BERT、UNITER图像与文本输入的嵌入序列在输入层直接拼接各Transformer层共同处理混合模态信息双流方法如ViLBERT、LXMERT两种模态的嵌入序列在输入层保持独立通过交叉注意力机制进行交互。2.3 视觉嵌入方案尽管所有高性能视觉语言预训练VLP模型都共享相同的文本嵌入器 —— 来自预训练 BERT 的分词器以及类似于 BERT 的词嵌入和位置嵌入但它们在视觉嵌入器上存在差异。不过在大多数如果不是全部情况下视觉嵌入是现有 VLP 模型的瓶颈。我们通过引入补丁投影patch projection来简化这一步骤而不是使用需要重型提取模块的区域特征或网格特征。区域特征VLP 模型主要利用区域特征也称为自底向上特征。这些特征通过现成的目标检测器如 Faster R-CNN获取。生成区域特征的一般流程如下首先区域提议网络RPN基于 CNN 主干网络池化后的网格特征提出感兴趣区域RoI。然后非极大值抑制NMS将 RoI 的数量减少到几千个。经过 RoI 对齐RoI Align等操作池化后RoI 通过 RoI 头层处理成为区域特征。最后对每个类别再次应用 NMS将特征数量减少到一百个以下。上述过程涉及多个影响性能和运行时间的因素主干网络、NMS 的类型、RoI 头层。以往的研究对这些因素的控制较为宽松不同研究的选择差异如表 7 所示。主干网络ResNet-101和 ResNext-152是两种常用的主干网络。非极大值抑制NMSNMS 通常按类别进行。当类别数量较多时如 VG 数据集中的 1.6K 类对每个类别应用 NMS 会成为主要的运行时间瓶颈。最近提出的类不可知 NMSclass-agnostic NMS旨在解决这一问题。RoI 头层最初使用 C4 头层后来引入了 FPN-MLP 头层。由于头层需要对每个 RoI 进行操作因此会带来显著的运行时间负担。虽然目标检测器较为轻量级但其运行速度仍难以超越主干网络或单层卷积操作。冻结视觉主干网络并预先缓存区域特征的做法仅在训练阶段有效对推理过程无实质帮助更可能对模型性能形成制约。**网格特征**除检测头外卷积神经网络如ResNet输出的特征网格也可作为视觉-语言预训练的视觉特征。网格特征的直接应用最早见于VQA专用模型主要目的是规避区域选择操作导致的严重效率损耗。X-LXMERT通过将区域建议固定为网格而非区域建议网络生成的方式重新探索了网格特征但其特征缓存策略限制了主干网络的进一步调优。Pixel-BERT作为唯一采用ImageNet分类预训练的ResNet变体替代VG预训练目标检测器的VLP模型其主干网络在视觉-语言预训练阶段可调参。尽管使用ResNet-50时下游任务表现不及基于区域特征的VLP模型但采用计算量更大的ResNeXt-152时仍能与其他竞争者持平。需要指出的是深度卷积神经网络仍较为耗时如图1所示其计算量占比显著因此网格特征并非理想选择。**补丁投影**为最大限度降低计算开销我们采用极简的视觉嵌入方案基于图像块的线性投影。该技术由ViT率先引入图像分类任务将视觉嵌入复杂度降至与文本嵌入仅需简单投影/查找操作相当的水平。我们采用32×32的补丁投影方案仅需240万参数这与复杂的ResNe(X)t主干网络和检测组件形成鲜明对比。如图1所示其运行时间亦可忽略不计。3. 视觉-语言Transformer3.1 模型概览ViLT作为一种视觉-语言预训练VLP模型采用极简架构设计其视觉嵌入流程高度精简并遵循单流交互模式视觉与语言输入共享统一处理流。与现有研究不同我们选择从预训练的ViTVision Transformer而非BERT中初始化交互式Transformer的权重。这种初始化策略充分利用交互层的视觉特征处理能力从而无需依赖独立的深度视觉嵌入器如传统方法中的CNN主干网络。ViT架构组成ViT由堆叠的Transformer块构成每个块包含多头自注意力MSA层和MLP层。其与BERT的唯一差异在于层归一化LN的位置BERT采用“后归一化”LN置于MSA和MLP之后而ViT采用“前归一化”LN置于MSA和MLP之前。文本嵌入 输入文本通过词嵌入矩阵和位置嵌入矩阵嵌入为。图像嵌入 输入图像被切分为图像块并展平为其中 (P, P) 为块分辨率N HW/(P^2)。随后通过线性投影矩阵和位置嵌入矩阵将 v 嵌入为。模态融合与处理 文本和图像嵌入分别与对应的**模态类型嵌入向量t_type, v_type∈ {R}^{H} 相加随后拼接为联合输入序列 z_0。该序列经过深度为 D的Transformer层迭代更新最终得到上下文序列 z_D。整个多模态输入的池化表征p通过线性投影矩阵W_pool ∈ {R}^{H} 作用于z_D的首个索引并应用双曲正切函数获得。实验配置 所有实验均采用ImageNet预训练的ViT-B/32权重故模型命名为ViLT-B/32。具体参数如下隐藏层维度H 768Transformer层深度 D 12图像块尺寸 P 32MLP维度 3,072注意力头数 123.2 预训练目标ViLT采用视觉-语言预训练模型中常见的两个目标进行训练图文匹配ITM与掩码语言建模MLM。**图文匹配ITM**以50%的概率随机将原图替换为无关图像通过线性分类层ITM Head将池化输出特征 P 映射为二分类logits并计算负对数似然损失作为ITM损失。此外受Chen等人2019词-区域对齐目标的启发我们设计词-块对齐WPA目标通过近似最优传输的IPOT方法计算最终上下文序列 z_D 的两个子集 z_D|t文本子集与 z_D|v视觉子集之间的对齐分数。IPOT超参数设置与Chen等人2019一致β0.5N50并将近似Wasserstein距离的0.1倍加权后加入ITM损失。掩码语言建模MLM 该目标通过上下文向量预测被掩码文本标记 t_masked 的真实标签。遵循Devlin等人2019的启发式策略以15%的概率随机掩码文本输入。我们采用与BERT的MLM目标相同的结构使用两层MLP组成的MLM头输入被掩码标记的上下文向量输出词汇表上的logits并通过计算被掩码标记的负对数似然损失得到MLM损失。3.3 全词掩码全词掩码是一种掩码技术其将组成完整单词的连续子词标记全部掩码。研究表明该技术对原始BERT及中文BERT的下游任务性能提升显著。我们假设全词掩码对视觉-语言预训练尤为重要因为它能迫使模型充分利用跨模态信息。例如单词“giraffe”通过预训练的bert-base-uncased分词器被拆分为三个子词标记[“gi”, “##raf”, “##fe”]。若未掩码全部子词如[“gi”, “[MASK]”, “##fe”]模型可能仅依赖相邻文本标记[“gi”, “##fe”]预测被掩码的##raf而忽略图像信息。在预训练中我们以15%的概率对完整单词进行全词掩码。。3.4 图像增强研究表明图像增强能提升视觉模型的泛化能力。基于ViT的DeiT通过实验验证了多种增强策略如随机裁剪、旋转等对ViT训练的益处。然而图像增强在VLP模型中的作用尚未被充分探索。基于区域特征的VLP模型因特征缓存限制无法应用图像增强而Pixel-BERT虽具备应用条件却未研究其效果。为此我们在微调阶段引入RandAugment策略。除以下两项外其余原始策略均被采用颜色反转因文本常包含颜色信息保留原色有助于跨模态对齐随机擦除可能掩盖图像中分散但重要的细小物体。超参数设置为N2每次增强操作数、 M9增强强度。4. 实验4.1 概览我们采用四个数据集进行预训练Microsoft COCO (MSCOCO)Lin等人2014Visual Genome (VG)Krishna等人2017SBU Captions (SBU)Ordonez等人2011Google Conceptual Captions (GCC)Sharma等人2018表1列出了各数据集的统计信息。下游任务评估我们在两类广泛研究的视觉-语言下游任务上评估ViLT分类任务VQAv2Goyal等人2017视觉问答任务NLVR2Suhr等人2018自然语言视觉推理任务检索任务MSCOCOFlickr30K (F30K)Plummer等人2015采用Karpathy Fei-Fei2015重新划分的版本训练细节分类任务采用不同初始化种子对头部模块及数据顺序进行三次微调汇报平均性能。具体标准差及消融实验结果见表5。检索任务仅进行一次微调。4.2 实现细节所有实验采用AdamW优化器Loshchilov Hutter2018基础学习率为 1e-4权重衰减系数为1e-2。学习率在总训练步数的前10%进行预热warm-up随后线性衰减至零。需注意若针对各任务定制超参数下游性能可能进一步提升。图像处理 输入图像的短边统一调整为384像素长边限制在640像素以内保持原始宽高比。该缩放策略与其他VLP模型的目标检测预处理一致但其他模型通常采用更大的短边尺寸如800像素。ViLT-B/32的补丁投影对384×640分辨率图像生成12×20240个图像块。由于实际输入分辨率很少达到此上限预训练阶段最多采样200个图像块。我们对ViT-B/32的位置嵌入 V_pos 进行插值以适应不同图像尺寸并对图像块进行填充以实现批量训练。值得注意的是ViLT的图像分辨率384×640仅为其他VLP模型输入尺寸800×1333的1/4。文本处理 使用bert-base-uncased分词器对文本输入进行分词。文本嵌入相关参数包括类别标记 t_text{class}、词嵌入矩阵 T 和位置嵌入矩阵 ( T_text{pos}均从头开始训练而非基于预训练BERT微调。尽管直觉上使用预训练文本模型可能有益但Tan Bansal2019的研究表明在视觉-语言任务中直接使用预训练BERT参数初始化可能导致性能弱于从头预训练。训练配置预训练在64块NVIDIA V100 GPU上进行批量大小为4,096训练10万或20万步。微调VQAv2/检索任务批量256训练10个epoch。NLVR2任务批量128训练10个epoch。4.3 分类任务评估我们在两个常用数据集VQAv2和NLVR2上评估ViLT-B/32模型。使用具有1,536隐藏单元大小的双层多层感知机MLP作为微调的下游任务头部。视觉问答任务VQAv2视觉问答任务VQAv2该任务要求根据图像与自然语言问题对给出答案。虽然标注答案原本是自由形式的自然语言但通常将该任务转换为包含3,129个答案类别的分类任务。遵循这一惯例我们在VQAv2的训练集和验证集上微调ViLT-B/32模型同时预留1,000张验证图像及其相关问题用于内部验证。通过向评估服务器提交获得的测试开发集得分结果显示ViLT在VQA指标上落后于使用重型视觉编码器的其他视觉语言预训练VLP模型。我们推测这是由于目标检测器生成的独立对象表征更便于VQA训练——因为VQA的问题通常围绕对象展开。自然语言视觉推理NLVR2该任务是基于三元组两张图像和一个自然语言问题的二分类任务。由于与预训练设置不同输入包含两张图像存在多种处理策略。我们遵循OSCARLi等人2020b和VinVLZhang等人2021的配对方法——将三元组输入重构为两个独立对问题图像1和问题图像2每个配对分别通过ViLT模型处理。最终头部网络将两个池化表示p的拼接结果作为输入输出二分类预测。如表2所示ViLT-B/32在保持显著推理速度优势的同时于两个数据集上均展现出竞争力。4.4 检索任务评估我们在MSCOCOKarpathy Fei-Fei 2015划分版和F30K数据集上对ViLT-B/32进行微调。针对图像到文本和文本到图像的双向检索任务我们同步评估了零样本检索与微调后检索的性能。具体实现上相似度评分头基于预训练图文匹配ITM头部初始化——重点继承其正样本对true-pair的logits计算模块。在训练过程中我们采用负采样策略每个正样本随机选取15个文本作为负样本通过交叉熵损失函数最大化正样本对的匹配得分。如表3和表4所示零样本检索方面ViLT-B/32整体表现优于ImageBERT模型尽管后者使用了更大规模1400万样本的预训练数据。在微调后检索任务中ViLT-B/32的召回率较第二快的模型Pixel-BERT-R50展现出显著优势——这一结果验证了ViLT架构在保持高效推理较基于目标检测器的VLP模型提速10倍以上的同时仍能实现具有竞争力的检索性能。4.5 消融研究如表5所示我们进行了多项消融实验。结果表明增加训练步数、使用全词掩码whole word masking以及图像增强策略均能提升模型性能而添加额外的训练目标则未见明显增益。已有研究指出训练迭代次数会影响自监督模型的性能表现Devlin等2019Chen等2020ab。由于视觉语言预训练VLP本质上也是一种自监督训练范式我们探究了训练时长的影响。实验结果显示随着训练步数增加第1-3行模型性能持续提升这符合预期。采用全词掩码策略实现MLM目标第3-4行以及微调阶段使用图像增强第6行也能显著提升性能。当训练步数增加至20万时模型在VQAv2、NLVR2和零样本检索任务上的表现均有改进。我们未继续增加训练步数因为文本检索任务的微调性能在此之后开始下降。在Chen等2019的研究中额外的掩码区域建模MRM目标是VLP模型性能提升的关键。我们尝试了与补丁投影兼容的掩码补丁预测MPP方法Dosovitskiy等2020该方法以15%的概率掩码图像补丁v并要求模型通过其上下文向量z_masked从D|v预测被掩码补丁的RGB均值。然而实验表明第4-5行MPP对下游任务性能并无贡献。这一结果与基于目标检测监督信号的MRM目标形成鲜明对比。4.6 VLP模型复杂度分析我们从多维度对视觉-语言预训练VLP模型的复杂度进行分析。表6展示了各模型的参数量、浮点运算次数FLOPs以及视觉嵌入模块与Transformer模块的推理延迟。由于所有VLP模型的文本嵌入模块共享相同结构此处未计入统计。延迟数据基于Xeon E5-2650 CPU和NVIDIA P40 GPU进行10,000次推理的平均值。输入尺寸图像分辨率及拼接后的多模态输入序列长度会影响FLOPs数量我们同时标注了序列长度。具体输入设定如下基于区域的VLP模型和Pixel-BERT-R50采用800×1333分辨率Pixel-BERT-X152采用600×1000分辨率ViLT-B/32采用384×640分辨率。在Pixel-BERT和ViLT中视觉标记在预训练阶段被采样并在微调阶段完整使用。表中列出视觉标记的最大数量。值得注意的是当输入序列长度小于300时类BERT-base结构的Transformer运行时间差异小于1毫秒。尽管ViLT-B/32需处理图像与文本标记的联合输入但由于其补丁投影最多生成240个图像标记模型仍能保持高效推理效率。4.7 可视化图4展示了跨模态对齐的示例。WPA词-块对齐的传输方案通过热力图呈现其中粉色高亮的文本标记与图像块的关联强度通过热力图表达。每个方形网格代表一个图像块其透明度反映了从高亮文本标记传输至该图像块的“质量”权重。增加IPOT迭代次数训练阶段通常超过50次有助于热力图收敛实验表明1000次迭代足以生成清晰可辨的热力图。我们对每个文本标记的传输方案进行z标准化处理并将数值截断至[1.0, 3.0]区间以增强可视化效果。5. 结论与未来工作本文提出了一种极简的视觉-语言预训练架构——视觉-语言TransformerViLT。ViLT能够与依赖复杂卷积视觉嵌入网络如Faster R-CNN和ResNets的模型竞争。我们呼吁未来视觉-语言预训练研究更关注Transformer模块内的多模态交互设计而非陷入仅提升单模态嵌入能力的“军备竞赛”。尽管ViLT-B/32已表现出色但它更多是验证一个概念无需卷积操作和区域监督的高效视觉-语言预训练模型仍可具备竞争力。最后我们提出几点可能推动ViLT系列模型发展的方向**可扩展性**如大规模Transformer相关研究所示在数据量充足的情况下预训练Transformer的性能扩展性表现优异。这一发现为开发性能更强的ViLT变体如ViLT-L大型和ViLT-H超大型提供了可能。由于当前对齐的视觉-语言数据集仍较稀缺训练更大规模模型的工作将留待未来探索。**视觉输入的掩码建模**鉴于掩码区域建模MRM的成功我们认为视觉模态的掩码建模目标有助于信息保留至Transformer的最后一层。然而如表5所示直接在图像块上应用掩码补丁预测MPP的简单变体效果不佳。Cho等人2020提出通过掩码目标分类MOC任务训练网格感兴趣区域RoIs但其视觉词汇聚类在视觉-语言联合预训练过程中与视觉主干网络一同被固定。对于可训练的视觉嵌入器一次性聚类并非可行方案。我们认为视觉无监督学习领域中的交替聚类或同步聚类方法可被借鉴应用。我们鼓励未来无需区域监督的研究为视觉模态设计更精细的掩码目标。**增强策略**先前对比视觉表征学习研究表明与简单增强策略相比RandAugment未采用的高斯模糊能为下游任务带来显著性能提升。针对文本和视觉输入探索更合适的增强策略将是未来有价值的研究方向。AI大模型从0到精通全套学习大礼包我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。只要你是真心想学AI大模型我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来我也真心希望帮助大家学好这门技术如果日后有什么学习上的问题欢迎找我交流有技术上面的问题我是很愿意去帮助大家的如果你也想通过学大模型技术去帮助就业和转行可以扫描下方链接大模型重磅福利入门进阶全套104G学习资源包免费分享01.从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点​02.AI大模型学习路线图还有视频解说全过程AI大模型学习路线​03.学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的04.大模型面试题目详解05.这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询