2026/1/10 11:17:47
网站建设
项目流程
南充网站设计,福永网站建设,上海建网站方案,android studio入门本文来源公众号“集智书童”#xff0c;仅用于学术分享#xff0c;侵权删#xff0c;干货满满。
原文链接#xff1a;https://mp.weixin.qq.com/s/NXLoBghCr2i_8Sjh--O8LQ #x1f4cb; 本文概要
DETR类目标检测器存在一个核心痛点#xff1a;多个可学习的目标Query在训…本文来源公众号“集智书童”仅用于学术分享侵权删干货满满。原文链接https://mp.weixin.qq.com/s/NXLoBghCr2i_8Sjh--O8LQ 本文概要DETR类目标检测器存在一个核心痛点多个可学习的目标Query在训练过程中会低效地“内卷”争相预测同一个物体造成计算资源浪费。本文提出的Route-DETR通过一种创新的自适应成对路由机制在解码器的自注意力层中动态区分并引导Query间的竞争与协作关系。该方法在多个主流DETR变体上实现了一致的性能提升例如在COCO数据集上基于ResNet-50的DINO模型mAP提升了1.7%基于Swin-L Backbone 的模型达到了57.6% mAP的SOTA水平。❓ 主要解决哪些问题在目标检测领域DETR及其变体以其优雅的端到端设计无需手工设计的NMS后处理而闻名。然而其训练过程存在一个固有的效率瓶颈Query竞争。现状分析与致命缺陷传统的DETR模型初始化一组可学习的Query它们通过解码器与图像特征交互逐步收敛到最终的检测框。理想情况下每个Query负责一个独特的物体。但现实是在训练初期多个Query的预测框常常会重叠在同一个前景物体上。由于DETR采用一对一标签分配一个GT框只分配给一个Query最终只有一个“幸运”的Query能成功匹配并学习到该物体其他定位同样良好的Query则被强制归类为背景。这就导致了严重的计算冗余——大量Query在反复优化一个它们最终“无权”检测的目标。场景举例与核心难点想象一个自动驾驶场景摄像头前方有多辆汽车。DETR解码器中的多个Query可能都被吸引到同一辆车上进行精细定位而忽略了其他车辆。这不仅浪费了计算力还可能因为“内耗”而延迟了对其他关键目标的发现在实时性要求极高的场景下是致命的。这个问题的核心难点在于标准的自注意力机制是对称且无差别的。它平等地处理所有Query对无法感知哪些Query正在“内卷”竞争同一目标哪些Query应该“分工合作”探索不同区域。以前的方法多着眼于提前选择或终止Query但并未从根本上改变Query间的交互逻辑。 本文的原理与方法Route-DETR的核心思想是在解码器的自注意力层中引入一个可学习的、非对称的注意力偏置矩阵 来动态地引导Query间的交互。这个偏置不是固定的而是根据Query对的实时状态相似度、置信度、几何信息计算出来的。图2图Route-DETR整体架构。它在标准DETR解码器的自注意力模块中引入了一个自适应路由模块根据Query描述符生成路由偏置B从而修改注意力图。 低秩成对路由表示 竞争感知成对门控 注意力偏置整合与修改的自注意力为了确保抑制和委托产生相反的效果作者对两种路由的强度进行了符号化参数化 双分支训练策略图DETR中Query竞争示意图与Route-DETR的双分支训练。训练时辅助分支引入路由偏置B来引导Query专业化推理时只使用干净的主分支零开销。为了稳定训练并保证推理零开销作者采用了巧妙的双分支训练策略。•主分支使用标准的、未修改的自注意力机制。它确保模型主干能稳定收敛。•辅助分支使用集成了路由偏置 B 的修改版自注意力。 实验结果与分析 SOTA对比表1表在COCO val2017上的目标检测结果。Route-DETR在多种Backbone和DETR变体上均带来稳定提升。如表1所示Route-DETR展现出强大的泛化能力•在Deformable-DETR上使用ResNet-50训练12个epochmAP从46.8%提升至48.1%1.3%。更显著的是其24个epoch的结果49.4%已接近甚至超过了原模型36个epoch的结果49.0%这意味着训练效率提升了约1/3。•在中大型目标上提升明显在ResNet-50上中等目标 提升1.4%大型目标 提升2.2%。这说明路由机制能有效缓解Query在显著目标上的“扎堆”现象。•架构无关性在DAB-Def-DETR和DINO等不同变体上mAP分别提升0.7%和1.1%证明了其作为通用增强模块的潜力。表2表与最先进方法的对比。Route-DETR结合DINO取得了新的SOTA性能。如表2所示当Route-DETR与强大的DINO基线结合并采用更先进的训练策略时产生了质的飞跃• 在ResNet-50上mAP从49.0%大幅提升至50.7%1.7%。• 在强大的Swin-L Backbone 上Route-DETR达到了57.6%的mAP超越了同期优秀工作如DAC-DETR57.3%和Salience-DETR56.5%确立了新的SOTA。 泛化到实例分割表4表在COCO和Cityscapes数据集上的实例分割结果。为了验证其泛化性作者将Route-DETR应用于实例分割任务在检测头基础上增加一个掩码预测头。表4结果显示• 在COCO数据集上12 epoch训练时掩码mAP提升1.4%32.4% → 33.8%24 epoch时提升1.9%35.1% → 37.0%。• 在Cityscapes数据集上同样有约1.4-1.6%的稳定提升。•边界框mAP也同步提升这表明路由机制优化的是Query的通用表征能力受益的是所有下游任务。⚖️ 局限性与未来展望尽管Route-DETR取得了显著成功但仍有一些值得探讨的局限性和未来方向1.计算开销与参数虽然推理零开销但训练时由于要计算路由表示、低秩矩阵和门控会增加一定的计算和内存负担。低秩设计缓解了这一问题但对于超大规模模型仍需评估其扩展性。2.门控机制的普适性当前的门控信号相似度、置信度、几何面积在目标检测任务中设计精巧但若迁移到其他任务如视频理解、3D检测可能需要设计新的、任务相关的门控描述符。3.失败案例分析论文未详细展示路由机制失效的情况。可以推测在物体极度密集、遮挡严重的场景下如人群Query间的竞争关系可能异常复杂当前的门控模型可能不足以做出最优路由决策。4.未来方向•自适应路由调度可以探索更动态的路由调度策略例如在训练不同阶段调整路由强度或类型。•扩展到其他Transformer架构将这种成对路由思想应用于视觉TransformerViT的编码器或其他多模态Transformer中以管理不同Token或模态间的交互。•可解释性研究可视化学习到的路由偏置矩阵 分析模型在何时何地做出了“抑制”或“委托”的决策能进一步增强我们对Transformer内部工作机制的理解。总之Route-DETR通过一种优雅且高效的方式首次在DETR框架内显式地建模并引导了Query间的竞争关系不仅提升了性能与效率也为理解与改进基于Query的视觉模型提供了新的思路。参考ROUTE-DETR: PAIRWISE QUERY ROUTING IN TRANSFORMERS FOR OBJECT DETECTIONTHE END !文章结束感谢阅读。您的点赞收藏评论是我继续更新的动力。大家有推荐的公众号可以评论区留言共同学习一起进步。