点击“AladdinEdu你的AI学习实践工作坊”注册即送-H卡级别算力沉浸式云原生集成开发环境80G大显存多卡并行按量弹性计费教育用户更享超低价。——Transformer如何重构自动驾驶的环境理解坐标系摘要BEV感知Bird‘s-Eye-View Perception是近年来自动驾驶领域最具革命性的技术范式。它通过将多个视角的摄像头图像统一转换到鸟瞰空间实现了在车辆坐标系下的环境统一表征彻底改变了传统“分而治之”的感知架构。本文系统梳理BEV感知的技术演进从传统的IPM逆透视变换到开创性的LSS方案再到当前主流的Transformer方案深入剖析每一代技术的核心思想与实现原理。重点解读BEVFormer、PETR等代表性工作如何利用注意力机制实现隐式的视角转换以及如何通过时序融合提升感知稳定性。最后展望BEV的进阶形态——Occupancy Network揭示从“稀疏目标检测”到“稠密空间理解”的演进趋势。关键词BEV感知、鸟瞰视角、LSS方案、Transformer、时空融合、Occupancy Network引言在自动驾驶领域摄像头一直是感知系统的核心传感器。然而传统的基于前视图像的感知方法存在一个根本性问题每个摄像头只能看到自己视角下的局部世界。环视系统虽然能覆盖360度但这些视角下的检测结果仍然是碎片化的缺乏一个统一的坐标系来融合和推理。人类驾驶员理解环境的方式则完全不同——我们天然地在“鸟瞰空间”中思考。当我们说“左前方有一辆车”时这个位置是在以自我为中心的俯视坐标系中定义的。这种表征方式天然适合规划、决策和控制。BEV感知正是要将摄像头的感知结果统一到这个天然的坐标系中。它将多视角的2D图像信息通过几何变换或学习的方式映射到一个统一的3D鸟瞰空间。在这个空间中车辆、行人、车道线等所有要素都位于同一个坐标系下下游的预测、规划模块可以直接使用无需再处理复杂的视角转换。本文将从技术演进的角度系统解读BEV感知的发展历程、核心原理和未来趋势。第一章 为什么需要BEV感知1.1 传统感知架构的困境在BEV感知成为主流之前自动驾驶系统通常采用这样的架构单视角感知每个摄像头独立运行2D目标检测算法。后融合将各个视角的检测结果2D框通过几何投影融合到3D空间。这个架构存在三个致命问题1. 信息损失严重2D检测框已经丢失了大量原始信息如纹理、边缘、深度线索。当这些框被投影到3D空间时由于单目深度估计的不确定性会产生较大的位置误差。2. 跨视角一致性难以保证同一辆车可能同时被前视和侧视摄像头拍到但后融合时可能被识别为两个不同的目标需要复杂的关联逻辑。3. 时序信息利用困难不同帧的检测结果在2D空间难以对齐时序融合只能在3D空间进行但3D位置本身就有误差。1.2 BEV感知的核心优势BEV感知通过将整个感知过程统一到鸟瞰空间解决了上述问题维度传统感知BEV感知坐标系多个视角的2D图像坐标系统一的3D鸟瞰坐标系目标关联后融合需要跨视角匹配天然对齐同一目标只有一个表示信息流2D检测→3D投影信息损失直接在3D空间感知信息无损下游接口规划需处理视角转换规划在同一个BEV空间直接进行更重要的是BEV感知将整个环境理解过程变成了一个端到端可微的系统。从多视角图像输入到BEV特征输出再到最终的检测结果整个链条可以联合优化。1.3 从“看”到“理解”的转变BEV感知不仅仅是一种技术方案更是一种认知范式的转变。它让车辆从“看到像素”进化到“理解空间”。在这个空间里车辆可以回答“我在哪里”“周围有什么”“它们将去哪里”这些对规划决策至关重要的问题。第二章 前BEV时代IPM变换与早期探索2.1 逆透视变换IPM的基本原理在深度学习兴起之前BEV感知主要通过逆透视变换实现。IPM的基本假设是地面是平面。在这个假设下图像中的像素点可以通过已知的相机内参和外参投影到地面坐标系中。数学形式如下给定图像点 ((u, v)) 和地面高度 (z0)其对应的地面点 ((X, Y, 0)) 可以通过下式计算[\begin{bmatrix} X \ Y \ 1 \end{bmatrix} \propto H \cdot \begin{bmatrix} u \ v \ 1 \end{bmatrix}]其中 (H) 是从图像平面到地面平面的单应矩阵可以由相机参数唯一确定。2.2 IPM的致命缺陷IPM在理论上很优雅但在实际应用中存在严重问题地面平面假设实际道路不是理想平面有坡度、起伏。一旦地面不是平面投影就会出现严重误差。远处像素畸变离车辆越远的像素在BEV空间中拉伸得越厉害分辨率急剧下降。无法处理高度信息车辆、行人等有高度的物体在地面平面的投影会发生扭曲无法表达真实位置。2.3 IPM在车道线检测中的应用尽管有诸多局限IPM在车道线检测中仍然有广泛应用。因为车道线本身就位于地面平面上满足IPM的基本假设。许多早期工作都通过IPM将前视图像变换为BEV视图再在BEV空间中进行车道线拟合。这个时期的工作为后来的深度学习BEV感知积累了宝贵的经验但受限于IPM的固有限制始终无法突破到通用的3D目标检测。第三章 LSS方案基于深度估计的显式变换3.1 LSS的核心思想2018年NVIDIA提出的LSS方案Lift-Splat-Shoot是BEV感知的第一个突破性工作。它的核心思想可以概括为“先升维再拍平”。Lift升维为每个图像像素预测一个深度分布将2D图像特征“提升”到3D空间。Splat拍平将3D空间中的特征沿着高度轴压缩得到BEV平面上的特征图。Shoot规划在BEV特征图上进行规划原论文做的是轨迹预测。3.2 Lift如何预测深度LSS的关键创新在于深度分布的预测。对于图像中的每个像素网络不仅输出语义特征 (c)还输出一个离散的深度分布 (\alpha)。假设我们将深度空间离散化为 (D) 个区间 ({d_1, d_2, …, d_D})那么像素属于每个深度的概率为 (\alpha_d)。最终该像素贡献到3D空间的点云可以表示为[p \sum_{d1}^D \alpha_d \cdot [u, v, d]]其中 ([u, v, d]) 是对应于图像坐标 ((u, v)) 和深度 (d) 的3D点。3.3 Splat如何拍平到BEV得到每个像素的3D点云后需要将这些点聚合到BEV平面上的栅格中。具体做法将3D空间划分为 (H \times W \times Z) 的栅格通常 (Z) 取1或很小的值即压缩高度。对于每个点将其特征累加到所属栅格中。使用累积池化cumulative sum trick高效实现这一过程。最终得到一个 (C \times H \times W) 的BEV特征图其中每个位置对应车辆周围的一个小区域。3.4 LSS的优势与局限优势几何显式整个过程有明确的几何解释易于理解和调试。可解释性强深度分布可以直接可视化知道模型“认为”物体在什么位置。工程友好不需要复杂的注意力机制容易部署。局限深度预设有上限需要预先定义深度范围无法处理超出范围的物体。离散化误差深度离散化会带来量化误差影响远距离物体的定位精度。计算量大每个像素都要预测深度分布计算负担较重。3.5 LSS的遗产尽管LSS本身并非完美但它开创了BEV感知的基本范式后来的许多工作如BEVDet、BEVDepth都是在LSS基础上的改进和优化。第四章 Transformer方案隐式视角转换的革命4.1 Transformer的引入BEVFormer2022年BEVFormer的出现标志着BEV感知进入了Transformer时代。它的核心思想是用可学习的BEV查询向量通过注意力机制从多视角图像中聚合特征。BEVFormer的架构可以简化为初始化定义一组可学习的BEV查询 (Q \in \mathbb{R}^{H \times W \times C})每个查询对应BEV空间中的一个位置。空间交叉注意力每个BEV查询从多视角图像中采样特征聚合到自身。时序自注意力将前一帧的BEV特征与当前帧对齐融合时序信息。输出更新后的BEV查询作为当前帧的BEV特征用于后续检测任务。4.2 空间交叉注意力的巧妙设计BEVFormer的核心创新在于可变形注意力的应用。传统的全局注意力计算量太大无法在BEV的大尺度上应用。可变形注意力只让每个查询关注其投影在图像上的若干个采样点大幅降低了计算复杂度。对于BEV空间中的一个查询点 ((x, y))BEVFormer首先通过相机参数将其投影到每个视角的图像平面上得到参考点 ((u_i, v_i))。然后在参考点周围采样若干个偏移位置从图像特征中聚合信息。这个过程可以表示为[\text{BEV}(x, y) \text{DeformAttn}(Q_{x,y}, P(x, y), F_{\text{img}})]其中 (P(x, y)) 是投影参考点(F_{\text{img}}) 是多视角图像特征。4.3 时序融合让感知“连贯”起来自动驾驶是一个时间连续的过程单帧感知难免会有抖动和漏检。BEVFormer通过时序自注意力将历史信息融入当前帧。具体做法是将前一帧的BEV特征通过运动补偿基于自车运动对齐到当前帧坐标系。将对齐后的历史BEV特征与当前帧的BEV查询进行自注意力计算。这使得模型能够利用历史信息来“确认”当前帧的检测结果减少抖动。时序融合带来的提升非常显著尤其在遮挡场景和远距离小目标上。4.4 其他Transformer方案PETR与BEVFormer v2PETR采取了另一种思路它不将查询投影到图像而是将图像特征“位置编码”后直接输入Transformer。每个图像像素都有一个3D位置编码表示其在世界坐标系中的位置。然后通过全局注意力让BEV查询与这些位置编码后的图像特征交互。BEVFormer v2则结合了LSS和Transformer的优点先用LSS生成一个粗糙的BEV特征作为查询初始化再用Transformer进行精调取得了更好的性能。4.5 Transformer方案的核心优势维度LSS方案Transformer方案几何假设需要预先假设深度分布无需深度先验完全学习特征聚合硬性投影信息损失软性注意力自适应聚合时序融合需要单独设计天然支持统一建模远距离感知受深度范围限制可自适应处理远距离第五章 时空融合让感知更稳定、更智能5.1 为什么需要时空融合单帧感知存在几个固有问题遮挡当前帧被遮挡的物体可能在前后帧中暴露。抖动单帧检测的噪声会导致轨迹不连续。运动模糊快速运动时单帧图像可能模糊但时序信息可以辅助恢复。5.2 基于运动补偿的对齐最简单的时序融合方法是在BEV特征层面进行对齐。假设已知自车在两帧之间的运动变换矩阵 (T)可以将前一帧的BEV特征 (F_{t-1}) 变换到当前帧坐标系[F’{t-1} \text{Warp}(F{t-1}, T)]然后与当前帧特征 (F_t) 进行拼接或加权融合。5.3 隐式时序建模BEVFormer采用的方法更为高级它不显式地对齐特征而是通过自注意力让模型自动学习如何利用历史信息。查询向量同时与当前帧的空间特征和历史帧的时序特征进行交互模型可以自己决定“该关注哪里”。5.4 长期时序融合一些研究工作尝试将更长时间的历史信息如几十帧融入BEV感知。这需要解决两个问题计算量长序列会导致特征数量激增。运动累积误差长时间的运动补偿会累积误差。解决方案包括GRU式的时序融合、可学习的时序权重等。第六章 BEV的进阶形态Occupancy Network6.1 从目标检测到占用预测传统的3D目标检测将世界简化为一个个边界框。这种表征存在固有缺陷无法处理异形物体一只躺着的狗用3D框很难准确描述。无法处理可行驶区域哪里能走哪里不能走3D框无法表达。无法处理开放词汇遇到从未见过的物体检测器会“视而不见”。占用网络Occupancy Network正是为了解决这些问题而提出的。它不再输出稀疏的边界框而是输出稠密的占用网格——将空间划分为小立方体每个立方体预测是否被占用。6.2 BEV感知 → Occupancy的演进逻辑BEV感知在鸟瞰平面上的成功自然可以推广到三维空间中的占用预测。实际上占用网络可以看作是BEV感知在高度维度的扩展BEV感知输出 (H \times W) 的鸟瞰特征图。Occupancy输出 (H \times W \times Z) 的三维占用网格。在技术上占用网络可以直接复用BEV感知的架构只需将输出维度从2D扩展到3D即可。6.3 Tesla的Occupancy NetworkTesla在2022年AI Day上展示的Occupancy Network是这一方向的标杆。它的核心思想是用Transformer从多视角图像直接预测三维占用网格。关键创新点不需要深度监督完全通过自监督学习只需知道哪些区域是空的通过射线投射。连续时空不仅预测当前占用还预测未来几秒的占用变化Occupancy Flow。端到端规划直接在占用空间中进行轨迹优化。6.4 为什么Occupancy是BEV的自然演进从认知的角度来看人类理解环境的方式就是“占用”式的——我们知道某个区域是否可通行而不必知道那里具体是什么物体。占用网络将感知从“识别物体”提升到“理解空间”更贴近规划和控制的需求。从工程的角度来看占用网络输出的是稠密的、规则的网格天然适合用3D卷积或Transformer处理也容易与下游的规划模块对接。第七章 当前挑战与未来展望7.1 计算效率问题BEV感知尤其是Transformer方案计算量较大。一个BEVFormer模型可能需要上百GFLOPs对车载芯片的算力要求很高。解决方案轻量化BEV架构如BEVDet的优化稀疏注意力机制模型量化与剪枝7.2 远距离感知精度随着距离增加单目图像的深度不确定性呈指数级增长。BEV感知在50米内表现良好但100米以上误差较大。解决方案融合激光雷达或毫米波雷达时序融合增强引入高精地图先验7.3 恶劣天气下的鲁棒性雨、雪、雾天气对视觉感知影响巨大BEV感知也难以幸免。解决方案多模态融合雷达、激光雷达数据增强和域自适应物理模型与学习结合7.4 从BEV到通用场景表征未来BEV感知可能会进一步演进为通用的场景表征。这种表征不再仅仅是鸟瞰图而是包含高度信息、语义信息、运动信息的多维张量。它将成为连接感知、预测、规划的统一接口。7.5 端到端自动驾驶的接口在端到端自动驾驶架构中BEV感知可能不再是一个独立的模块而是与预测、规划融合在一起。UniAD等工作的出现已经展示了这一趋势。结语BEV感知的兴起是自动驾驶感知技术的一次范式革命。它让车辆从“看”进化到“理解”从多个碎片化的视角整合到一个统一的鸟瞰空间。这一革命背后是深度学习、Transformer、几何建模等多领域技术的深度融合。从IPM的朴素尝试到LSS的显式变换再到Transformer的隐式建模BEV感知的技术演进折射出整个自动驾驶领域的发展脉络。而占用网络的出现则预示着BEV感知的下一个进阶——从稀疏目标检测到稠密空间理解从“识别什么”到“理解哪里”。未来随着计算能力的提升和算法的持续演进BEV感知将成为自动驾驶系统的标准配置。在这个统一的鸟瞰空间中车辆将真正实现“眼观六路心想全局”。参考文献[1] Philion, J., Fidler, S. “Lift-Splat-Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D.” ECCV 2020.[2] Li, Z., et al. “BEVFormer: Learning Bird‘s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers.” ECCV 2022.[3] Liu, Y., et al. “PETR: Position Embedding Transformation for Multi-View 3D Object Detection.” ECCV 2022.[4] Huang, J., et al. “BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View.” arXiv 2022.[5] Tesla, “Tesla AI Day 2022 Presentation.”[6] Tong, W., et al. “BEVDepth: Acquisition of Reliable Depth for Multi-View 3D Object Detection.” AAAI 2023.点击“AladdinEdu你的AI学习实践工作坊”注册即送-H卡级别算力沉浸式云原生集成开发环境80G大显存多卡并行按量弹性计费教育用户更享超低价。