[TOC]

概述

文章参考：http://www.evinchina.com/newsshow-2618.html

文章参考：https://zhuanlan.zhihu.com/p/365543182

文章参考：https://www.zhihu.com/people/yuhuang2019/posts

在现代自动驾驶任务中，决策规划模块依赖于多个感知、预测任务模块以提供充足的环境信息，其中感知任务不仅需要检测场景中的动态物体，还需要识别道路边界、人行横道、车道线、路标等静态元素。而预测任务需要系统能够推理其它动态物体的运动趋势，为决策提供信息依据，规划出道路从而避免碰撞。

目前业界基于纯视觉的感知、预测算法研究通常仅针对上述流程中的单个子问题的image-view方案，如3D目标检测、语义地图识别或物体运动预测，通过前融合或后融合的方式将不同网络的感知结果进行融合。这导致了在搭建整体系统时只能以线性结构堆叠多个子模块。

尽管上述方式能够实现问题分解、便于独立的学术研究，但这种串行架构具有几个重要的缺陷：

BEV的发展历史

区别于image-view方案，BEV方案通过多摄像头或雷达将视觉信息转换至鸟瞰视角进行相关感知任务，这样的方案能够为自动驾驶感知提供更大的视野并且能够并行地完成多项感知任务，那么BEV感知能够成为下一代自动驾驶感知算法风向吗？

BEV空间下地图分割任务，截图自”UniFormer”(Qin et al., 2022)

在BEV空间中，传统的BEV变换算法通常是在图像空间中进行特征提取，并产生分割结果，再利用逆透视变换（IPM）将其转化为BEV空间。

两个输入图像(a)和(b)以及它们对应的IPM投影图像，分别是(c)和(d)，截图自”Multimodal inverse perspective mapping”(Oliveira et al., 2015)

IPM的功能是消除视觉上的影响，比如，在自动/辅助驾驶中，因为在前视的照相机拍摄的图像中，原本平行的物体会因为透视的原因而发生交叉。

IPM是把影像与BEV空间连接起来的一种简便、直接的方式，要得到一幅影像的IPM，就必须了解摄像机的内参（焦距、光心）和外参（俯仰角、偏航角和地面高度）。在这个过程中，摄像机必须保持俯仰角，但这种约束太严格，难以在实际应用中得到满足。同时，由于参数的变化，会引起系统对物体的感知能力的变化，从而降低视觉质量，造成平行车道之间的夹角。

为减小俯仰角对视觉的影响，在改进后的算法中，采用了摄像机的实时位姿，并将俯仰校正添加到相邻的帧中，这样可以获得较好的逆变换效果，但由于实时位姿难以精确地获得，因而无法获得最理想的结果。

这两年BEV相关算法的发展让深度学习应用于BEV空间转换的方式逐渐成为主流。与以往的算法相比，利用神经网络进行二维BEV空间变换可以获得更好的视觉效果。

该方法主要流程是：首先利用主干网对各个摄像机进行特征提取，再利用Transformer等技术将多摄像机数据从图象空间转化为BEV空间。在BEV空间中，由于利用同一坐标系统，可以很方便地将Lidar、Radar等传感器数据与其他传感器数据进行融合，还可以进行时序融合形成4D空间，这也是当下BEV技术的大趋势。

BEV的优势

1、跨摄像头融合和多模态融合更易实现

传统跨摄像头融合或者多模态融合时，由于数据空间的差异，需要用很多后处理规则去关联不同传感器的感知结果，操作非常复杂。而在BEV空间内进行多摄像头或多模态融合后，再做目标检测、实例分割等任务，可以使算法的实现更加简单，也能更直观地显示出BEV空间中的物体大小和方向。

2、时序融合更易实现

在BEV空间中，可以很容易地实现时序信息的融合，从而构建一个4D空间。在4D空间内，感知算法能够更好地完成诸如速度测量等感知任务，并能将运动预测的结果传递到下游的决策和控制模块。

以前介绍过特斯拉Autopilot总监的大会特邀报告：其中提到hydranet，一个多任务训练（multi task learning）框架，其中采用BEVNet，在BEV做视觉感知的三个任务目标检测、道路分割和车道线检测。