2026/1/28 18:04:02
网站建设
项目流程
上海做网站比较有名的公司有哪些,网站建设方案怎么写,医院招聘网站建设和维护,哈尔滨信息网58同城一、引言在自动驾驶领域#xff0c;高清地图#xff08;HD Map#xff09;扮演着至关重要的角色#xff0c;它为车辆提供了精确的道路几何结构和语义信息#xff0c;是实现车辆定位、路径规划和决策控制的核心基础。与离线地图不同#xff0c;在线高清地图能够实时动态更…一、引言在自动驾驶领域高清地图HD Map扮演着至关重要的角色它为车辆提供了精确的道路几何结构和语义信息是实现车辆定位、路径规划和决策控制的核心基础。与离线地图不同在线高清地图能够实时动态更新环境数据这对于应对复杂多变的驾驶场景、保障自动驾驶的安全性和高效性至关重要。传统的高清地图构建方法依赖于人工标注和基于 SLAM 的技术这些方法不仅成本高昂而且在快速变化的环境中难以维护。随着计算机视觉技术的发展基于深度学习的方法逐渐成为主流尤其是鸟瞰图BEV表示的出现推动了高清地图构建向端到端学习的方向发展。然而现有基于密集 BEV 特征的方法存在计算复杂度高的问题其计算成本会随着感知范围的扩大而显著增加这给在低功耗或资源受限设备上的部署带来了巨大挑战。稀疏表示方法通过避免密集 BEV 处理为解决计算效率问题提供了新的思路。但现有稀疏表示方法由于缺乏针对性的设计性能往往落后于密集表示方法难以在在线高清地图构建中形成竞争力。为此本文提出了 SparseMeXt一种专门优化的稀疏表示框架通过一系列架构和算法上的创新成功弥合了稀疏表示与密集表示之间的性能差距甚至实现了超越。1.1 核心贡献本文的核心贡献主要体现在以下三个方面提出了一种针对稀疏地图特征提取的专用网络架构优化了特征聚合和表示学习过程能够更好地捕捉地图任务所需的大面积覆盖特征。设计了一种稀疏 - 密集辅助分割监督方法通过融合实例级监督和场景级分割任务弥补了稀疏范式中缺乏明确 BEV 特征的不足有效提升了语义和几何信息的利用效率。引入了基于物理先验的查询去噪策略PPDN通过生成符合物理约束的噪声类型增强了预测结果的稳定性和鲁棒性解决了稀疏检测任务中的查询不一致问题。1.2 性能亮点在 nuScenes 数据集上的实验结果表明SparseMeXt 取得了当前最先进的性能SparseMeXt-TinyResNet-18 骨干网络在 32 帧 / 秒fps的速度下实现了 55.5% 的平均精度mAPSparseMeXt-BaseResNet-50 骨干网络达到 65.2% 的 mAP同时保持 25.4 fps 的推理速度进一步扩展骨干网络和解码器后SparseMeXt-LargeResNet-101在超过 20 fps 的速度下实现了 68.9% 的 mAP建立了稀疏表示在高清地图构建中的新基准。如图 1 所示SparseMeXt 在效率和准确性之间实现了卓越的平衡不仅显著优于 SparseDrive 等其他稀疏方法甚至超越了 MapTRv2 等密集表示方法充分证明了稀疏表示在高清地图构建中的巨大潜力。二、相关工作2.1 高清地图构建高清地图构建方法的发展可以分为三个阶段传统方法依赖人工标注和 SLAM 技术成本高且维护困难难以适应动态环境。基于线特征先验的方法通过前视图像直接检测车道线等地图元素提升了构建效率但受限于单视角信息精度和鲁棒性不足。基于 BEV 表示的学习方法这是当前的主流方向主要分为两类栅格化方法如 HDMapNet通过逐像素分割生成矢量化地图依赖密集 BEV 特征计算成本高矢量化方法如 VectorMapNet 和 MapTR 系列将地图元素表示为点序列或采用 DETR-like 范式直接预测矢量地图效率更高但仍需维护密集的 BEV 特征空间。近年来StreamMapNet 通过融合时间信息提升了矢量地图的时间一致性但上述方法均存在计算复杂度与感知范围正相关的问题限制了其在资源受限设备上的部署。2.2 3D 稀疏感知稀疏感知方法的发展为解决密集 BEV 的计算效率问题提供了关键思路DETR 引入了基于集合的损失和 Transformer 架构直接预测稀疏检测结果开创了稀疏检测范式DETR3D 作为稀疏方法的代表性工作基于稀疏参考点进行特征采样和融合Sparse4D 系列通过可变形 4D 聚合模块无需依赖密集视图转换和全局注意力实现了高效的 3D 检测更适合边缘设备部署SparseDrive 和 SparseAD 将检测、跟踪和在线地图构建统一到时间解码器框架中首次实现了基于全稀疏场景表示的高清地图构建但性能仍落后于密集表示方法。现有稀疏感知方法在 3D 目标检测中取得了显著进展但在在线高清地图构建任务中的系统性研究仍不足导致其性能难以与密集 BEV 方法竞争。本文正是针对这一研究空白通过对稀疏网络设计的系统性优化提升了稀疏表示在高清地图构建中的性能。三、方法详解SparseMeXt 采用稀疏编码器 - 解码器框架专门针对地图矢量化任务设计。其整体架构如图 2 所示主要包括图像编码器、查询存储库、去噪时间稀疏地图解码器和稀疏 - 密集辅助分割任务四个核心部分。3.1 架构优化现有稀疏方法如 SparseDrive的架构主要为 3D 目标检测设计未能充分适配高清地图构建任务的特点如地图元素空间覆盖范围大、时间不变性强等。为此本文从四个方面对架构进行了针对性优化3.1.1 现代图像骨干网络骨干网络的预训练数据集对下游任务性能有显著影响。现有方法通常使用 ImageNet 预训练权重但 ImageNet 的目标中心图像与驾驶场景存在较大领域差异且其优化目标分类与地图构建任务定位敏感不匹配。本文通过实验对比了不同预训练数据集的影响结果如表 1 所示使用 DD3D 深度数据集预训练时性能反而下降 1.2%这是因为深度估计任务与地图构建的特征需求差异较大使用 nuImages 数据集驾驶场景结合 Cascade R-CNN 进行预训练时mAP 提升了 1.5%这是因为该预训练任务与地图构建任务的特征需求更匹配。因此SparseMeXt 采用在 nuImages 上预训练的 ResNet-50 作为骨干网络最小化领域差异提升特征表示能力。3.1.2 重新思考高清地图构建任务中的图像编码器颈部结构传统的特征金字塔网络FPN采用多输入多输出MiMo结构通过多尺度特征融合和分而治之策略提升目标检测性能。但对于高清地图构建任务这种结构存在两个关键问题FPN 限制了每个骨干网络层级只能检测特定尺度范围的目标而地图元素如车道线、道路边界通常占据较大的图像区域更接近大目标检测任务多尺度融合的收益有限FPN 的主要优势在于解决密集目标检测中的优化挑战而非多尺度特征融合YOLOF 已验证这一点。为此SparseMeXt 借鉴 YOLOF 的单输入多输出SiMo结构仅使用 ResNet-50 的 C5 特征作为输入不进行多尺度特征融合简化了颈部结构。实验结果如表 2 所示SiMo 结构不仅将计算量Flops从 193.6 降至 96.0参数量从 85.8M 降至 39.7M还使 mAP 提升了 4.25%充分证明了该结构对地图构建任务的适配性。3.1.3 调整阶段计算比例SparseDrive 采用 1 个非时间感知阶段和 5 个时间融合阶段的结构这种设计适合 3D 目标检测任务目标多样性高需要更多时间融合。但地图任务具有以下特点地图元素类别少仅行人过街、车道分隔线、道路边界三类几何位置具有较好的时间不变性过多的时间融合阶段会导致参数冗余和过拟合。本文通过实验系统探索了非时间阶段和时间阶段的最佳组合结果如表 3 所示1 个非时间阶段 4 个时间阶段的配置效果最佳平均 mAP 提升 0.07%减少时间阶段数量如 13会导致性能显著下降-2.2%增加非时间阶段数量如 24也会降低性能-0.8%。这一结果验证了地图任务对时间融合的需求低于 3D 目标检测合理的阶段比例设计能够避免参数冗余提升模型效率和泛化能力。3.1.4 解耦解码器分类和回归任务在特征敏感性上存在本质冲突分类任务关注目标的语义信息而回归任务关注目标的几何边界信息。现有方法如 SparseDrive通过在实例特征级别引入解耦细化层缓解了这一问题但在图像特征点提取阶段仍不可避免地存在特征冲突。为解决这一问题本文提出了基于可变形特征聚合层的任务解耦方法Decouple-DFA如图 3 所示。该方法在特征提取阶段为分类和回归任务构建独立的特征采样点实现了特征空间的解耦分类分支的采样点聚焦于富含类别信息的区域回归分支的采样点聚焦于对边界定位至关重要的区域。这种空间分离的特征提取方式使每个任务分支能够独立优化互不干扰。实验结果如表 4 所示与基线相比Decouple-DFA 使 mAP 提升了 0.6%有效缓解了分类和回归的任务冲突。3.2 实例和场景辅助分割MapTRv2 等密集方法通过 BEV 上的辅助前景分割任务利用深度监督引导骨干网络学习 3D 几何信息提升了地图构建性能。但稀疏架构的设计理念与密集 BEV 空间相冲突直接构建并行的密集 BEV 空间会导致训练参数大幅增加且无法带来显著性能提升。为此本文设计了一种以查询为中心的稀疏 - 密集重建模块如图 4 所示其核心思路是在不引入推理阶段额外计算开销的前提下为稀疏架构提供全局前景监督以 SparseMeXt 的实例特征为输入通过上采样卷积层将其转换为 BEV 密集表示拼接多个实例特征整合空间和上下文信息输出分割图提供逐像素分类监督推理阶段禁用该模块不增加计算成本。实验结果如表 5 所示引入该辅助分割任务后模型的 mAP 提升了 0.9%证明了其在增强语义和几何信息利用方面的有效性。3.3 基于物理先验的查询去噪PPDNDN-DETR 通过向真实边界框添加噪声训练模型重建原始框提升了检测性能。但地图元素如车道线、道路边界通常为曲线结构直接向每个点添加随机噪声会破坏其几何一致性不利于模型收敛。针对这一问题本文基于地图元素的物理特性静态性、几何规律性设计了四种符合物理约束的噪声类型如图 2 所示确保噪声扰动不会违反现实世界的物理规律旋转噪声以线段所有点的平均点为锚点添加随机旋转角度 θ位置噪声基于上述锚点向线段所有点的 x 和 y 方向添加相同的噪声尺度噪声对线段所有点的 x 和 y 坐标施加随机缩放噪声曲率噪声通过计算连续点切线的差值与欧氏距离的比值二阶导数确定车道曲率基于曲率添加噪声并调整每个点的位移。需要注意的是道路静态元素的位置和类别关系具有强相对依赖性因此本文不采用类别噪声。实验结果如表 6 所示PPDN 使模型的 mAP 提升了 0.5%有效提升了预测的稳定性和鲁棒性。四、实验4.1 实验设置4.1.1 数据集实验基于 nuScenes 地图数据集包含三类地图元素线形状车道分隔线lane divider、道路边界road boundary多边形形状行人过街pedestrian crossing。数据集按照官方划分训练集 / 验证集 / 测试集分别包含 700/150/150 个场景。基础检测范围为 x 轴 30m、y 轴 60m为验证长距离感知性能本文还生成了长距离数据集将 x 轴和 y 轴范围分别扩展至 60m 和 90m。4.1.2 训练细节输入图像分辨率704×256框架PyTorch采用自动混合精度AMP训练硬件4 块 NVIDIA A100 GPU批量大小每块 GPU 16训练轮数100 个 epoch优化器AdamW权重衰减 0.01梯度 L2 范数裁剪至 35学习率初始学习率 0.006采用半余弦衰减策略骨干网络学习率乘以 1/10因已预训练感知范围基础范围x-15~15my-30~30m长距离范围x-30~30my-45~45m。4.1.3 推理细节推理过程直接预测 100 个地图元素及其置信度分数选择分数最高的预测结果无需额外后处理硬件单块 NVIDIA GeForce RTX 3090 GPU批量大小1。4.2 定量结果4.2.1 与现有方法的对比表 7 展示了 SparseMeXt 与当前最先进方法在 nuScenes 验证集上的性能对比。可以看出SparseMeXt-TinyResNet-18以 55.5% 的 mAP 显著优于 MapTR-Nano45.9%和 MapTRv2-Tiny52.3%且推理速度达到 32.9 fps远超同类方法SparseMeXt-BaseResNet-50的 mAP 达到 65.2%优于 MapTR-Tiny58.7%和 MapNeXt-Tiny63.0%速度为 25.4 fpsSparseMeXt-LargeResNet-101的 mAP 达到 68.9%超越了所有对比方法包括 MapTRv2-Base68.7%和 SparseDrive-B56.2%同时保持 20.2 fps 的实时推理速度。这一结果充分证明了 SparseMeXt 在性能和效率上的双重优势打破了稀疏表示性能落后于密集表示的固有认知。4.2.2 中心线检测任务中心线检测为下游运动预测和路径规划提供方向和连通性信息而 SparseDrive-map 未考虑该任务。表 8 展示了 SparseMeXt 在中心线任务上的性能SparseMeXt-Base 的平均 AP 达到 58.8%显著优于 MapTRv254.0%这一结果表明 SparseMeXt 不仅在地图元素检测上表现出色还能为端到端规划提供有力支持。4.2.3 长距离高清地图构建自动驾驶对长距离感知有迫切需求表 9 展示了 SparseMeXt 在 60×90m 感知范围下的性能SparseMeXt-Base 的 mAP 达到 47.6%比 MapTR (R50) 高出 7.4%这一结果证明 SparseMeXt 在长距离场景下仍能保持优异性能具有更强的实际应用价值。4.3 消融实验为验证各创新模块的有效性本文以 SparseDrive-Map 为基线mAP57.4%进行了逐步消融实验结果如表 10 所示调整阶段比例mAP 提升 0.07%验证了阶段比例设计的合理性引入 SiMo 颈部结构mAP 提升 4.25%是性能提升的关键因素之一加入 Decouple-DFA 解耦解码器mAP 提升 0.6%缓解了分类与回归的任务冲突使用 nuImages 预训练骨干网络mAP 提升 1.5%证明了任务相关预训练的重要性引入辅助分割损失mAP 提升 0.9%增强了语义和几何信息利用加入 PPDN 去噪模块mAP 提升 0.5%提升了预测稳定性。所有模块协同作用后SparseMeXt-Base 的 mAP 达到 65.2%比基线提升了 10.1%同时推理速度提升了 14 fps充分证明了各创新模块的有效性和协同性。4.4 定性结果图 5 展示了 SparseMeXt 与 SparseDrive 在不同场景下的定性对比在常规场景中SparseMeXt 能够更准确地检测出车道分隔线、道路边界和行人过街区域减少了漏检FN和误检在长距离场景中SparseMeXt 能够稳定检测远距离的道路元素而 SparseDrive 的检测效果明显下降在中心线检测任务中SparseMeXt 预测的中心线更贴合真实道路结构为下游规划任务提供了更可靠的输入。这些定性结果进一步验证了 SparseMeXt 在复杂驾驶场景、长距离感知和中心线检测中的优势。五、结论本文提出了 SparseMeXt一种基于稀疏表示的高效高清地图构建框架通过架构优化、辅助分割监督和物理先验去噪三大核心创新成功实现了稀疏表示对密集表示的超越。在 nuScenes 数据集上的实验表明SparseMeXt 在性能和效率之间取得了卓越的平衡为在线高清地图构建提供了一种更具部署价值的解决方案。SparseMeXt 的成功证明了稀疏表示在高清地图构建中的巨大潜力打破了密集 BEV 特征的垄断地位。未来的研究方向可以包括进一步优化长距离感知性能适应更复杂的驾驶场景融合多传感器信息如激光雷达、毫米波雷达提升模型的鲁棒性探索端到端自动驾驶框架将地图构建与运动预测、路径规划深度融合。我们相信SparseMeXt 的提出将为自动驾驶领域的高清地图构建技术带来新的发展方向推动更安全、更高效的自动驾驶系统的落地。