2026/2/13 19:31:09
网站建设
项目流程
网站推广好不好,wordpress优化版源码,大连网站建,襄阳网站建设xytzg点击下方卡片#xff0c;关注“自动驾驶之心”公众号戳我- 领取自动驾驶近30个方向学习路线自动驾驶前沿信息获取→自动驾驶之心知识星球论文作者 | Peizheng Li等编辑 | 自动驾驶之心VLA凭借其强大的泛化能力和语义理解能力逐渐成为端到端自动驾驶新范式。然而关注“自动驾驶之心”公众号戳我-领取自动驾驶近30个方向学习路线自动驾驶前沿信息获取→自动驾驶之心知识星球论文作者 | Peizheng Li等编辑 | 自动驾驶之心VLA凭借其强大的泛化能力和语义理解能力逐渐成为端到端自动驾驶新范式。然而现有的基于2D VLM的驾驶系统在处理精细的3D空间关系时存在显著缺陷而这却是空间推理和轨迹规划的核心要求。为此奔驰与图宾根大学联合提出了一种名为SpaceDrive的具备空间意识的VLM自动驾驶框架。其核心在于摒弃了传统VLM将坐标数值视为文本token的处理方式转而引入3D位置编码Positional Encoding, PE作为通用的空间表征。具体来说SpaceDrive首先将视觉token与3D PE在特征空间进行显式融合同时沿用上述通用的3D PE来取代prompt中对应坐标的文本token作为foundation model输入输出的接口。此外SpaceDrive还采用回归解码器替代分类头预测规划的轨迹坐标避免了语言模型在数字处理上的天然缺陷。实验表明与现有VLM/VLA类方法相比SpaceDrive在nuScenes开环评估中取得了SOTA性能并在Bench2Drive闭环评估中以78.02的驾驶得分位列第二显著提升了规划的几何精度与安全性 。论文标题SpaceDrive: Infusing Spatial Awareness into VLM-based Autonomous Driving论文链接https://arxiv.org/abs/2512.10719项目主页https://zhenghao2519.github.io/SpaceDrive_Page/作者机构Mercedes-Benz AGUniversity of TübingenTübingen AI CenterTU MunichKarlsruhe Institute of TechnologyUniversity of StuttgartUCLA核心要点当前VLM在自动驾驶应用中面临两个根本性的系统缺陷这限制了其作为通用驾驶Agent的上限 2D语义与3D几何的割裂VLM主要在大规模2D图像-文本对上进行预训练极度缺乏3D空间先验导致场景描述模糊和空间推理能力存在缺陷。数字 token 化的缺陷语言模型中坐标通常被逐位拆解为字符或数字例如将坐标3.82拆解为3, ., 8, 2其本质是token联合分布的拟合而非数值计算。它既忽略了数值的连续邻近结构例如3.72比3.12接近3.82也会把不同位的 token 重要性平均化例如3.82中3和2的Loss权重相同从机制上拉低了连续数值预测精度与稳定性。而现有VLM-based planner常常忽略了上述问题或直接采用特定的 embedding/queries 针对某个任务进行训练来预测坐标难以被迁移到上游推理或者其他任务中。但是Transformer架构本身的位置编码已经具备了处理token间位置关系的能力这可以被视为语义特征之间的空间关系。受此启发SpaceDrive通过显式的、统一的3D位置编码替换文本数字token将坐标的语言描述转换成可计算、可对齐、可被注意力直接使用的统一表示从而提升了系统的空间推理和轨迹规划能力。方法SpaceDrive框架的核心在于统一的空间接口视觉侧用冻结深度估计器得到每个 patch 的绝对深度投影为 3D 坐标再经 PE 编码后加到对应视觉 token 上得到 spatial-aware visual tokens。文本侧在 tokenizer 后扫描文本中的坐标表达将其数值解析出来经同一个 PE 编码器得到空间 token替换原来的数字 token 序列并用特殊前缀指示符 ⟨IND⟩ 标记。输出侧语言头正常生成文本当生成 ⟨IND⟩ 时后续 hidden state 送入 PE decoder直接回归 3D/BEV 坐标取代生成数字的逐位生成。SpaceDrive框架图感知阶段视觉与深度的显式融合SpaceDrive在采用VLM预训练的视觉编码器提取视觉token的同时利用冻结的深度估计器如UniDepthV2获取绝对深度结合相机内外参将图像Patch中心投影至3D度量空间。这些3D坐标会被一个通用的PE编码器被映射为与token维度相同的PE向量。为了避免和原始VLM中的RoPE混淆SpaceDrive采用了正余弦Sine-cosine编码作为PE编码器上述3D PE按维分配通道。该3D PE随后被直接叠加到经过模态对齐的视觉Token上从而为VLM的视觉输入注入了绝对空间坐标信息考虑到Q-Former一类稀疏queries难以与具体 3D 位置密集对齐且需要额外对齐预训练在SpaceDrive中视觉token通过MLP projector 与语言空间对齐。公式中的α是一个可学习的归一化因子以避免 token norm 分布偏离预训练分布造成的训练不稳定。空间信息检索由于注意力是基于点积相似度的检索 3D PE与视觉 token的叠加相当于把空间位置变成可被注意力直接检索的键值结构。因此后续文本中的坐标 PE 就能用相似度去索引对应空间位置上的语义特征而非通过语言模型进行猜测。推理阶段统一坐标接口当 3D 坐标出现在输入提示中时对文本Prompt中的坐标子串其数值被提取并使用与上述相同的统一 PE 编码器进行编码。这些编码后的3D PE会替换原本的数字 token 序列并在前面插入特殊 token ⟨IND⟩ 避免语义混淆对于 BEV 坐标这种特殊情况例如轨迹航点PE中的轴分量会被置0避免影响注意力计算。除了基本的prompt输入外车辆的Ego Status也被证明对于轨迹规划非常有效。现有方法通常将所有状态变量例如姿态、速度、加速度简单地编码成一个单一的向量嵌入。得益于统一空间表示SpaceDrive同样可以通过之前使用的相同编码历史Ego waypoints并将其与一起作为显式的时空条件输入到语言模型中以实现精确的轨迹规划。逻辑一致性通过在视觉、文本Prompt、Ego waypoints中使用同一套PE模型被要求学习统一的空间语义索引而非针对不同模态学习割裂的映射。输出阶段回归优于分类在输出生成时当模型语言头预测得到特殊指示符token ⟨IND⟩ 时下一步的嵌入输出将会被一个专用的 PE 解码器解码为 3D 坐标考虑到 Sine-cosine PE 不可解析逆相位/频率混叠因此PE解码器被设为可学习的。该解码器既可以采用MLP以获得确定的坐标回归输出也可以选择VAE等生成式模块从而获得多模式的输出。SpaceDrive默认采用一个轻量化的MLP作为PE解码器。损失函数对于坐标预测SpaceDrive采用Huber Loss进行监督相比L2或L1更能平衡异常值与收敛精度文本部分SpaceDrive则保留了原有的交叉熵损失 实验及可视化论文分别在nuScenes数据集和Bench2Drive 基准测试上对SpaceDrive以及带有Ego Status输入的SpaceDrive进行了开环和闭环规划验证。实验中框架以Qwen2.5-VL-7B为基础VLM使用rank为16的LoRA对齐进行微调。冻结的预训练Unidepthv2-ViT-L被用作深度估计模块。开环规划中模型预测未来3秒内的6个点作为输出而闭环规划则是参照了SimLingo同时输出path和speed waypoints用于车辆PID控制。开环规划 (nuScenes)为了直接验证轨迹规划的准确性论文首先进行了一次开环评估。在nuScenes数据集上SpaceDrive 在所有指标上均超越了现有的OmniDrive/ORION 等 VLM-based 方法Avg. L2 0.32m、Avg. Collision 0.23%、Avg. Intersection 1.27%。开环规划性能对比值得注意的是SpaceDrive框架完全不依赖 BEV 特征。结果仍表明统一位置编码接口足以支撑 VLM 内部的 3D 空间建模从架构上减少对密集 BEV 表征的依赖。闭环规划 (Bench2Drive)考虑到基于相似度的开环规划评估极易受到数据集过拟合的影响难以全面反映模型实际驾驶能力。论文进一步在闭环Bench2Drive基准测试中进一步验证了其方法的有效性。闭环规划性能对比论文首先尝试了仅使用文本生成轨迹的方法实验证明该方法在闭环里容易退化为近线性轨迹且航向出现振荡极不稳定。这是由于文本生成本质是在拟合数据先验而非学习可控策略。相比之下引入显式的通用空间 token 后SpaceDrive 达到 78.02 Driving Score 与 55.11% Success Rate在 VLM-based 方法中排名第二。可视化论文对比了同一场景下变道避让骑行者纯文本和引入空间token方法的实际表现纯文本方法输出的轨迹规划退化为一条直线且行进方向不断震荡最终导致车辆向左大幅偏转直至撞上护栏纯文本方法在闭环仿真中退化失效引入空间token的SpaceDrive在观测到前方由缓慢的骑行者时先试探加速寻找超车机会发现邻车并未让行后减速创造安全插入间隙再果断变道并在变道完成前及时回正避免驶出道路。SpaceDrive可以胜任复杂的闭环驾驶场景消融实验为了进一步验证通用的3D PE如何在规划中发挥作用论文进行了诸多消融实验并得出了以下结论PE 注入位置很关键仅把 PE 用在文本坐标替换而不注入视觉 token提升有限因为此时PE无法对于对应位置视觉特征进行索引而把 3D PE 注入视觉 token 带来显著增益当统一的位置编码应用于视觉和文本坐标流时无论是否使用自我状态规划性能都会提高这强调了共享空间表示的价值。PE消融实验PE编码器/解码器选择十分重要Sine-cosine 编码天然具备更好的平移等变性有助于注意力机制理解 token 间空间关系优于可学习的MLP encoderRoPE 会与基座 VLM 的 RoPE 冲突导致输出出现语义不稳定输出端直接反解sine-cosine 不适定且 VLM 输出空间与输入嵌入空间不完全对齐因此用可学习、逐坐标 waypoint 的 MLP decoder 更优。PE编码器与解码器消融实验可学习的α十分重要固定尺度的PE容易造成语义不稳定或收敛困难而可学习α显著改善 L2误差、碰撞率和越界率。PE Norm消融实验PE表征作为接口具备可迁移性同一套PE空间接口在 Qwen-VL 与 LLaVA 上都能保持相近收益说明增益主要来自统一空间推理接口而非特定基座模型的特殊适配。不同VLM基础模型对比此外论文补充材料还展示了更多有关于VQA任务不同深度估计模型不同超参数的相关实验进一步证实了所提出方法的有效性。结论SpaceDrive 对当下自动驾驶和 VLM 研究做出了几项重要贡献通用空间表示引入统一的 3D 位置编码在感知、推理和规划模块中始终如一地工作代表了一项重要的架构创新。这种方法超越了特定任务的嵌入迈向了更具通用性的空间智能。显式 3D 理解将空间编码与视觉token进行加性整合在语义内容和 3D 位置之间创建了显式关联从而实现了更准确的场景理解和推理。回归坐标数值本质通过用基于回归的专用解码取代逐位坐标生成SpaceDrive 解决了语言模型在处理连续数值量方面的根本限制。框架通用性该方法展示了与不同 VLM 架构Qwen-VL、LLaVA的兼容性并证明适用于推理时增强功能如思维链推理表明其广泛适用性。综上SpaceDrive 提供了一个严谨的范式转换从“语言建模几何”转向“显式几何编码”。其核心贡献在于证实了在VLM中通过统一的、模态/任务无关的3D位置编码可以有效连接感知的视觉空间与规划的物理空间。这种方法不仅解决了VLM在大规模空间推理任务中的幻觉和精度问题还保留了VLM在长尾场景理解上的通用优势。SpaceDrive 代表了使 VLM 能够通过精确的空间理解有效与物理世界交互的重要一步为更可靠、更有能力的 AI 智能体提供了发展方向。更多可视化自动驾驶之心端到端与VLA自动驾驶小班课