点击上方蓝字谈思实验室
获取更多汽车网络安全资讯
BEV感知是端到端自动驾驶的前一阶段的热点之一,实现感知计算的主要功能,但是在端到端自动驾驶的第二阶段,依旧需要对BEV的发展历程、原理实践、技术路线、工具链成果进行回顾和梳理。
本文梳理自动驾驶BEV技术的概念和原理、发展历程、主要方法、系统架构和结构定义、工程流程、应用案例。并梳理BEV与端到端自动驾驶在目标任务和工程技术链的关联。
01
BEV概念与原理
自动驾驶环境感知领域的发展大概分为三个阶段:1)2D图像空间检测障碍物,映射到鸟瞰空间做多相机和时序融合;2)直接在BEV空间中完成动态障碍物的3D检测和静态障碍物的识别建模;3)直接在3D空间中感知占用关系,输出可行驶空间,更可靠地支撑路径规划。
目前,BEV框架下的3D检测、3D Occupancy Network直接输出兴趣的目标,成为主流。传统的3D检测也有难解决的问题,比如截断目标、形状不规则、未有清晰语义的目标(比如挂车、树木、垃圾、以及石子等)。
(一)BEV概念
BEV(Bird's Eye View)即鸟瞰图,通过计算机视觉、深度学习、机器学习等数据处理技术,对影像、雷达、激光雷达等传感器观测数据进行处理,输出驾驶环境信息,如场景环境特征、障碍物(车辆行人)、路侧标识、车道线,主要应用于自动驾驶领域。
BEV感知是包含了多项输出,包括分类、检测、分割、跟踪、预测、规划等,通过使用鸟瞰图来进行各项计算机视觉相关任务。
BEV感知计算的输入包括:毫米波雷达(Radar)、激光雷达点云(LiDAR)、视觉图像(Image)等。依据输入的不同,BEV感知算法可以划分为:BEV Camera(图像),BEV LiDAR(点云),BEV Fusion(图像和点云融合)。
(二)BEV感知的计算原理
无人机集群任务模型的优化和求解,面临多方面的场景难题,包括:模型架构、路径规划任务类型、时间约束下的目标优化、规划与控制的耦合程度。
1.BEV Image
基于车载摄像头的影像进行提取特征,感知当前驾驶环境中的车辆、行人、车道线、路侧交通标识等任务,这就是典型的BEVCamera感知模型。BEVCamera的一个典型实例就是BEVFormer。
BEVFormer利用基于transformer的编码Encoder方法,通过网格形式的BEV Queries来利用空间和时间进行交互,从而设计可学习的BEV和注意力模块,在nuScenes测试集上对3D目标检测和地图分割任务中实现最优性能。
下图为BEVFormer的完整网络结构,输入多视角图像,经过backbone(一般为ResNet)之后,经过提取网络(前馈网络+时空注意力机制模块)得到BEV特征,最后接一个图像分割或检测的头组成完整的网络输出。
2.BEV LiDAR
LiDAR点云是对三维空间的3D表现方式,具有稀疏性、无序性。
考虑到点云数据的特征,包括稀疏、数量巨大,有两种处理方法(聚合方法),分别是Point-based和Voxel-based。Point-based处理点云数据,可以处理高密度的点云数据,更加灵活,但计算复杂度高,不规则性高。Voxel-based处理体素数据,使数据结构更加规则,更好的表示体积信息,但收到网格限制,会丢失部分信息。
3.BEV Fusion
大多数BEV Fusion融合的BEV Camera和BEV LiDAR的结果。尽管有不少数据级融合,即在Image特征提取和LiDAR特征提取前,进行统一编码,进行网络训练,输出感知特征,已经逐步转向当前的多模态融合感知网络模型的研究。
02
BEV感知计算的工程化
(一)BEV和3D检测
3D目标检测过程引入了对场景深度信息和物体航向角信息的测量,帮助无人车更准确地感知现实三维环境和目标障碍物,是对2D 检测能力的升级。随着激光雷达传感器的快速发展,以及以 CNN 和 Transformer 等为代表的深度学习技术在交通场景感知领域取得的巨大成功,使得自动驾驶 3D目标检测算法的研究成为一种趋势。
基于深度学习的 3D 目标检测算 法分为基于相机 RGB 图像、基于激光雷达点云、 基于 RGB 图像–激光雷达点云融合的 3D 目标检测 3 种类型。
为了直接在BEV空间进行操作,最直接的方法就是把图像特征从2D空间映射到3D空间,也就是常说的View Transform。这是BEV技术的核心步骤,可以通过Transformer或者深度估计来完成。当然,有些方法没有显式的做特征空间转换,而是利用Transformer,直接从图像特征中预测3D空间中的感知结果。但是不管采用哪种方式,基于BEV的方法都没有在2D图像上生成感知结果。
(二)BEV和Occupancy Network占据网络
Occupancy Network 是特斯拉自动驾驶提出的一种面向BEV图像感知的深度学习方法。这是一种轻语义重几何的网络模型,从汽车环视图像(多相机融合)中生成车辆驾驶环境的三维占用网格。它能够更好地辅助自动驾驶系统感知可行驶区域(free space),也是各大自动驾驶公司抢先量产的目标。在3D目标检测失效的范围内,能够进一步提升感知能力,形成闭环。
Occupancy Network 的工作基本步骤:
-
将汽车环视图像(多相机融合),转换为一个三维特征空间。
-
使用深度神经网络来学习这个特征空间中的占用概率;
-
将占用概率转换为一个三维占用网格。
从功能分析来看,Occupancy Network在自动驾驶系统中主要用于以下任务:
-
障碍物检测:检测车辆周围的障碍物,例如其他车辆、行人、骑自行车者等。
-
路径规划:生成车辆的路径,并避免障碍物。
-
车辆控制:控制车辆的速度和方向,以确保安全行驶。
Occupancy Network的先进之处在于:
从ADS可行驶区域的角度出发,只统计“空间体”的集合,但不判断“空间体”集合的类型。
-
将世界划分为微小(或超微小)的立方体或体素(Voxel);
-
预测每个体素是空闲还是被占用;
-
基于Voxel的扩散和退缩,对占用空间进行聚集,形成障碍物目标。
这个设计理念,能解决在目标对象在标注类型之外的新类型、结构增改(导致异形)等问题,如:悬垂的障碍物。无法预测悬垂的障碍物。
假设一个场景:一辆卡车,将在feature map上放置一个 7x3 的矩形;一个行人,则使用一个 1x1 的矩形。如果汽车顶部有梯子,卡车有侧拖车或手臂;那么这种固定的矩形可能无法检测到目标。
计算速度
Occupancy Network输出的并非是目标的Retangle和类型,而是目标物品外观轮廓的近似值,可以理解为牺牲细节而追求计算速率(以超过 100 FPS 的速度运行)。因为极致计算速率下的有限计算量(算力和内存有限),导致轮廓不够sharp,但足够汽车自动驾驶使用。另外还支持在静态和动态对象之间进行预测。
(三)BEV和端到端自动驾驶
自动驾驶在技术栈的发展上,与机器人技术越来越趋近。传统的自动驾驶架构多衍生于机器人架构,主要包含感知&定位(Perception & Localization)-决策与规划模块(Decision and Planning)-控制Control三大模块及其功能衍生。
端到端自动驾驶架主要划分为4个阶段:
第一阶段:感知“端到端”。基于多传感器融合的BEV(Bird Eye View,鸟瞰图视角融合)技术为主,通过基于通过引入transformer以及跨传感器的cross attention方案,感知输出检测结果的精度及稳定性都大幅提升,实现了模块级别的“端到端”。
第二阶段:决策规划模型化
预测决策规划模块,从之前的Rule-based主导,到决策规划一体化模型。
第三阶段:模块化端到端
感知定位、规划决策都不在输出面向人类直观理解的结果,而是输出特征向量。在训练方式上,模型必须支持跨模块的梯度传导。
第四阶段:One Model/单一模型端到端
不再划分感知定位、决策规划、控制等模块,从输入传感器观测信号到输出规划轨迹,仅采用一个深度学习模型,可以是基于强化学习(Reinforcement Learning, RL)或模仿学习(Imitation Learning, IL),或者世界模型。
(四)BEV感知计算工具链
工具链是所有开发团队都应该重视、却往往做不到的工作环节。
工具链是设计、开发、测试环节的重要辅助工具,大大提升工程技术的工作效率。
1.FoxgloveStudio
FoxgloveStudio是一种开源的自动驾驶可视化工具,通过 WebSocket 与 ROS 系统通信,Github步骤https://github.com/foxglove/studio。
FoxgloveStudio支持ROS原生的全部内容,同时它可以在浏览器中使用,也可作为Linux、Windows和macOS上的桌面应用程序使用。
2.Apollo Dreamview
DreamView 是一个web 应用程序,提供如下功能:
可视化显示当前自动驾驶车辆模块的输出信息。例如:规划路径、车辆定位、车架信息等。
为使用者提供人机交互接口以监测车辆硬件状态,对模块进行开关操作,启动自动驾驶车辆等。
提供调试工具。例如 PnC 监视器可以高效的跟踪模块输出的问题。
3.ROS RVIZ
RViz提供丰富的功能和可定制的界面,使用户能够以三维方式查看机器人模型、传感器数据和环境地图等。它支持多种类型的可视化对象,包括点云、网格模型、标记、路径、激光扫描和相机图像等。
RViz的主要特点包括:
1. 可视化机器人模型:RViz可以加载和显示机器人的三维模型,并根据实际的关节状态进行动态更新。这使得用户能够直观地了解机器人的外观和姿态。
2. 显示传感器数据:RViz可以接收和显示来自机器人传感器(如激光雷达、摄像头、IMU等)的数据。用户可以实时查看和分析传感器数据,帮助理解机器人周围的环境。
3. 生成导航地图:RViz可以通过接收来自SLAM(Simultaneous Localization and Mapping)或其他建图算法的数据,生成并显示机器人所在环境的二维或三维地图。
4. 调试运动规划:RViz可以显示机器人的路径规划结果,并提供交互式界面来调试和优化运动规划算法。用户可以可视化虚拟路径、障碍物和碰撞检测等信息。
5. 可定制性:RViz提供了丰富的配置选项,允许用户按照自己的需求自定义界面布局、可视化对象和颜色风格等。用户可以根据实际情况进行个性化设置,以满足特定的可视化需求。
4.定制的脚本工具
单指标统计计算脚本,往往需要根据GroundTruth和计算结果的数据结构,进行定制开发,形成共团队内部使用的开发工具。
03
BEV感知的数据集
(一)nuScenes数据集
nuScenes数据集(https://www.nuscenes.org/)是第一个提供自动汽车全套传感器数据的大型数据集,包含不同城市中的1000个场景,传感器系统包括6个摄像机、5个毫米波雷达、1个激光雷达、六轴传感器IMU和GPS,空间布局如下图。
nuScenes数据包含140万个相机图像、39万个激光雷达扫描结果、140万个毫米波雷达扫描结果,标注了32类共计140万个标注对象。
(二)KITTI数据集
KITTI数据集通过车载相机、激光雷达进行采集,地点主要在德国卡尔斯鲁厄市。数据规模为14999张图像及其对应点云,其中7481张训练集,7518张测试集,KITTI数据集标注了车、行人、骑车的人三类,共计80256个标注对象,下图为标注平台。
Youtube上有一段关于KITTI数据采集的场景,展示了德国城市交通的日常,非常有趣。链接如下。
https://www.youtube.com/watch?v=KXpZ6B1YB_k&t=47s
(三) Waymo Open数据集
Waymo数据集是由Waymo公司发布的自动驾驶数据集.数据集使用5个激光雷达传感器和5个高分辨率针孔摄像机进行数据收集, 选取了一天中不同时间段以及不同天气的郊区和城市地区的场景, 包含798个用于训练的场景和202个用于验证的场景, 以及150个用于测试的场景, 每个场景的时间跨度为20s.数据集对车辆、行人、标志和自行车4类目标一共标注了约1200万个3D标签和1000万个2D标签.
数据集包含三类数据场景:
motion:用于轨迹预测之类的任务;
perception:用于目标检测跟踪之类的任务,含有相机和雷达信息,并且在github上有公开的读取数据方法;
End-to-End: 用于端到端自动驾驶大模型的测试任务。
04
端到端自动驾驶的发展现状题
面向端到端自动驾驶的视觉-语言-动作 (VLA) 模型,往往发端于基于开源预训练的视觉-语言模型 (VLM),输入 3D 环境感知、自身车辆状态和驾驶员指令,生成可靠的驾驶动作。
语言模型用于AD的特征对齐方法:为弥合驾驶视觉表征与语言特征的模态差异,提出一种分层视觉语言对齐流程,将结构化的 2D 和 3D视觉标记投影到统一的语义空间中,促进语言特征向AD轨迹的特征生成。
面向大模型的多模态融合:对车辆自身状态、周围智能体和静态道路元素之间的动态关系进行建模,通过自回归的智能体-环境-自身交互过程,确保在空间和行为层面均有指导意义的轨迹规划。
来源:智猩猩Auto
end
精品活动推荐
AutoSec中国行系列沙龙
专业社群
部分入群专家来自:
新势力车企:
特斯拉、合众新能源-哪吒、理想、极氪、小米、宾理汽车、极越、零跑汽车、阿维塔汽车、智己汽车、小鹏、岚图汽车、蔚来汽车、吉祥汽车、赛力斯......
外资传统主流车企代表:
大众中国、大众酷翼、奥迪汽车、宝马、福特、戴姆勒-奔驰、通用、保时捷、沃尔沃、现代汽车、日产汽车、捷豹路虎、斯堪尼亚......
内资传统主流车企:
吉利汽车、上汽乘用车、长城汽车、上汽大众、长安汽车、北京汽车、东风汽车、广汽、比亚迪、一汽集团、一汽解放、东风商用、上汽商用......
全球领先一级供应商:
博世、大陆集团、联合汽车电子、安波福、采埃孚、科世达、舍弗勒、霍尼韦尔、大疆、日立、哈曼、华为、百度、联想、联发科、普瑞均胜、德赛西威、蜂巢转向、均联智行、武汉光庭、星纪魅族、中车集团、赢彻科技、潍柴集团、地平线、紫光同芯、字节跳动、......
二级供应商(500+以上):
Upstream、ETAS、Synopsys、NXP、TUV、上海软件中心、Deloitte、中科数测固源科技、奇安信、为辰信安、云驰未来、信大捷安、信长城、泽鹿安全、纽创信安、复旦微电子、天融信、奇虎360、中汽中心、中国汽研、上海汽检、软安科技、浙江大学......
人员占比
公司类型占比
原文始发于微信公众号(谈思实验室):从BEV感知到端到端自动驾驶
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论