2026/1/7 14:25:19
网站建设
项目流程
秦皇岛网站制作方案,网页特效设计,建设网站要准备什么,宠物网站策划书点击下方卡片#xff0c;关注「3D视觉工坊」公众号选择星标#xff0c;干货第一时间送达来源#xff1a;3D视觉工坊「3D视觉从入门到精通」知识星球(点开有惊喜) #xff01;星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法…点击下方卡片关注「3D视觉工坊」公众号选择星标干货第一时间送达来源3D视觉工坊「3D视觉从入门到精通」知识星球(点开有惊喜) 星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研欢迎扫码加入0. 论文信息标题Generalized Geometry Encoding Volume for Real-time Stereo Matching作者Jiaxin Liu, Gangwei Xu, Xianqi Wang, Chengliang Zhang, Xin Yang机构Huazhong University of Science and Technology原文链接https://arxiv.org/abs/2512.06793代码链接https://github.com/JiaxinLiu-A/GGEV1. 导读实时立体匹配方法主要致力于提升在特定数据域内的性能但往往忽视了泛化能力在现实应用中的重要性。相比之下最近的立体匹配基础模型利用单目基础模型来提升泛化能力但这些模型通常会面临较大的推理延迟问题。为了解决这一矛盾我们提出了“广义几何编码体积”这一新型实时立体匹配框架该框架能够有效提升模型的泛化能力。首先我们提取出具有深度感知能力的特征这些特征能够编码出与数据域无关的结构先验信息为后续的成本聚合过程提供指导随后我们引入了“深度感知动态成本聚合”模块该模块能够将这些先验信息动态地融入到每个差异值假设中从而有效增强模型在未见过场景中的匹配能力。这两个步骤都设计得较为轻量级且相互补充共同构成了这个具有强大泛化能力的框架。实验结果证明我们的GGEV在零样本泛化能力方面超越了所有现有的实时立体匹配方法并在KITTI 2012、KITTI 2015以及ETH3D等基准测试中取得了顶尖的性能表现。2. 效果展示零样本泛化能力对比。所有模型均基于 Scene Flow 进行训练并在 KITTI、Middlebury和 ETH3D 上进行测试。GGEV的泛化能力可与 RT-IGEV 相媲美同时还能在未见过的场景中展现出更佳的泛化效果。3. 引言立体匹配旨在从一对校正后的立体图像中估计出密集的、逐像素的视差图。作为计算机视觉领域一项长期存在且颇具挑战性的任务它在众多应用中发挥着基础性作用这些应用包括三维重建、自动驾驶以及机器人导航。这些现实场景对泛化能力和推理延迟都提出了严格要求。现有的实时立体匹配方法采用了各种策略来实现快速推理。这些策略包括使用下采样或稀疏代价体表示、轻量级聚合网络以及用二维卷积替代计算成本高昂的三维卷积。然而大多数现有方法严重依赖清晰且明确的匹配线索并且在未见领域中难以有效地聚合信息特别是在遮挡区域、无纹理区域、重复模式区域以及细小结构区域等具有挑战性的区域。推荐课程从0到1手搓一套六轴机械臂理论仿真实践提供源码。近期的方法将单目基础模型Monocular Foundation ModelsMFMs引入立体匹配中取得了显著的零样本泛化性能。FoundationStereo设计了一个更高容量的聚合网络以更好地利用单目先验。MonSter采用了一种双分支架构该架构可迭代地优化单目和立体视差估计。这些方法通常依赖成本高昂的主干网络来提取丰富且详细的特征以构建代价体并采用复杂的迭代机制来解决单目和立体之间的尺度偏移问题。尽管这些方法能够提高泛化能力但它们往往忽视了推理延迟在现实应用中的关键重要性。为此一个引人思考的问题出现了如何设计一个实时立体匹配网络在保持高精度的同时实现强大的泛化能力为了回答这个问题我们分析了当前几何编码体的局限性并确定了两个关键问题1不同视差假设下的关键区域差异显著2由于未见纹理、遮挡、重复模式和细小结构的影响这些区域内的匹配关系极为脆弱见图 3。在本文中我们提出了广义几何编码体Generalized Geometry Encoding VolumeGGEV这是一种实时立体匹配网络它通过将单目基础模型高效地融入代价聚合过程以增强代价体表示。具体而言所提出的 GGEV 首先通过一个轻量级融合网络整合从 Depth Anything V2中提取的纹理特征和深度特征从而构建深度感知特征获得可靠的结构先验有助于稳定脆弱的匹配关系。与传统的沙漏型聚合网络对所有视差假设进行统一处理不同我们的方法自适应地将深度结构先验融入对应的视差假设中从而增强了代价体的结构表示和泛化能力。具体来说我们首先计算每个视差假设与深度特征图之间的亲和矩阵其中视差假设提供位置线索深度特征提供丰富的结构上下文。然后利用这些亲和矩阵生成动态卷积核这些卷积核自适应地过滤拼接后的视差假设和深度特征。此外我们结合了大卷积核和小卷积核以捕获互补的低频和高频信息。我们提出的 GGEV 在域内精度和零样本泛化能力方面均优于所有现有的实时立体匹配方法。它在 KITTI 2012、KITTI 2015 和 ETH3D 基准测试上取得了最先进的成果。值得注意的是即使仅在合成场景流Scene Flow数据集上进行训练GGEV 也能展现出对现实场景的强大跨域泛化能力如图 1 所示。4. 主要贡献总之我们的主要贡献如下• 我们提出了一种新颖的广义几何编码体该编码体以轻量级的方式高效地整合深度先验以增强泛化能力。• 我们提出了一个深度感知动态代价聚合Depth-aware Dynamic Cost AggregationDDCA模块该模块根据视差假设与深度特征之间的亲和性自适应地生成动态卷积核。• 我们的方法即使仅在合成数据集上进行训练也能展现出对现实场景的强大泛化能力。• 我们的方法在 KITTI 2012、KITTI 2015 和 ETH3D 等公共基准测试上优于现有的实时方法。5. 方法我们提出的 GGEV 概述。选择性通道融合Selective Channel FusionSCF模块将纹理特征与深度特征融合作为代价聚合的指导。然后深度感知动态代价聚合DDCA模块自适应地融入深度结构先验以增强初始代价体中脆弱的匹配关系从而生成广义几何编码体。6. 实验结果为了证明我们方法的卓越性能我们在三个广泛使用的立体基准测试上与先前的方法进行了全面比较KITTI 2012、KITTI 2015 和 ETH3D。微调设置见补充材料。KITTI。如表 2 在所有实时模型中我们的方法取得了第一名的性能。在 KITTI 2012 上我们提出的 GGEV 在 2-noc 和 3-noc 指标上分别比 RTIGEV 和 BANet-3D 提高了 13%。在 KITTI 2015 上我们提出的 GGEV 在 D1-bg 和 D1-all 指标上均取得了最佳性能。ETH3D。如表 3 我们的 GGEV 在所有评估指标上均显著优于所有现有的实时立体匹配方法每个指标上的误差减少了近 50%。值得注意的是我们的方法在 Bad 1.0 指标上超越了 GMStereo 和 Selective-IGEV同时推理时间不到它们的四分之一。7. 总结 未来工作我们提出了 GGEV这是一种实时立体匹配框架实现了令人印象深刻的零样本泛化能力。所提出的选择性通道融合和深度感知动态代价聚合模块提取深度感知特征作为广义结构指导并自适应地聚合特定视差的关键区域共同生成广义几何编码体。实验结果表明我们的方法始终优于所有现有的实时方法。未来的工作可以探索利用度量深度基础模型来提供更准确的深度指导或者将我们的方法扩展到实时视频立体匹配。对更多实验结果和文章细节感兴趣的读者可以阅读一下论文原文~本文仅做学术分享如有侵权请联系删文。3D视觉1V1论文辅导3D视觉硬件官网www.3dcver.com3D视觉学习圈子「3D视觉从入门到精通」知识星球(点开有惊喜) 星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研欢迎扫码加入3D视觉全栈学习课程www.3dcver.com3D视觉交流群成立啦扫码添加微信备注方向单位邀你入3D视觉交流群