从BEV感知到端到端自动驾驶

admin 2025年5月26日09:23:57评论37 views字数 5978阅读19分55秒阅读模式

点击上方蓝字谈思实验室

获取更多汽车网络安全资讯

从BEV感知到端到端自动驾驶

BEV感知是端到端自动驾驶的前一阶段的热点之一,实现感知计算的主要功能,但是在端到端自动驾驶的第二阶段,依旧需要对BEV的发展历程、原理实践、技术路线、工具链成果进行回顾和梳理。

本文梳理自动驾驶BEV技术的概念和原理、发展历程、主要方法、系统架构和结构定义、工程流程、应用案例。并梳理BEV与端到端自动驾驶在目标任务和工程技术链的关联。

01

BEV概念与原理

自动驾驶环境感知领域的发展大概分为三个阶段:1)2D图像空间检测障碍物,映射到鸟瞰空间做多相机和时序融合;2)直接在BEV空间中完成动态障碍物的3D检测和静态障碍物的识别建模;3)直接在3D空间中感知占用关系,输出可行驶空间,更可靠地支撑路径规划。

从BEV感知到端到端自动驾驶

目前,BEV框架下的3D检测、3D Occupancy Network直接输出兴趣的目标,成为主流。传统的3D检测也有难解决的问题,比如截断目标、形状不规则、未有清晰语义的目标(比如挂车、树木、垃圾、以及石子等)。

(一)BEV概念

BEV(Bird's Eye View)即鸟瞰图,通过计算机视觉、深度学习、机器学习等数据处理技术,对影像、雷达、激光雷达等传感器观测数据进行处理,输出驾驶环境信息,如场景环境特征、障碍物(车辆行人)、路侧标识、车道线,主要应用于自动驾驶领域。

从BEV感知到端到端自动驾驶

BEV感知是包含了多项输出,包括分类、检测、分割、跟踪、预测、规划等,通过使用鸟瞰图来进行各项计算机视觉相关任务。

BEV感知计算的输入包括:毫米波雷达(Radar)、激光雷达点云(LiDAR)、视觉图像(Image)等。依据输入的不同,BEV感知算法可以划分为:BEV Camera(图像),BEV LiDAR(点云),BEV Fusion(图像和点云融合)。

(二)BEV感知的计算原理

无人机集群任务模型的优化和求解,面临多方面的场景难题,包括:模型架构、路径规划任务类型、时间约束下的目标优化、规划与控制的耦合程度。

1.BEV Image

基于车载摄像头的影像进行提取特征,感知当前驾驶环境中的车辆、行人、车道线、路侧交通标识等任务,这就是典型的BEVCamera感知模型。BEVCamera的一个典型实例就是BEVFormer。

BEVFormer利用基于transformer的编码Encoder方法,通过网格形式的BEV Queries来利用空间和时间进行交互,从而设计可学习的BEV和注意力模块,在nuScenes测试集上对3D目标检测和地图分割任务中实现最优性能。

下图为BEVFormer的完整网络结构,输入多视角图像,经过backbone(一般为ResNet)之后,经过提取网络(前馈网络+时空注意力机制模块)得到BEV特征,最后接一个图像分割或检测的头组成完整的网络输出。

从BEV感知到端到端自动驾驶

2.BEV LiDAR

LiDAR点云是对三维空间的3D表现方式,具有稀疏性、无序性。

从BEV感知到端到端自动驾驶
从BEV感知到端到端自动驾驶

考虑到点云数据的特征,包括稀疏、数量巨大,有两种处理方法(聚合方法),分别是Point-based和Voxel-based。Point-based处理点云数据,可以处理高密度的点云数据,更加灵活,但计算复杂度高,不规则性高。Voxel-based处理体素数据,使数据结构更加规则,更好的表示体积信息,但收到网格限制,会丢失部分信息。

3.BEV Fusion

大多数BEV Fusion融合的BEV Camera和BEV LiDAR的结果。尽管有不少数据级融合,即在Image特征提取和LiDAR特征提取前,进行统一编码,进行网络训练,输出感知特征,已经逐步转向当前的多模态融合感知网络模型的研究。

从BEV感知到端到端自动驾驶
从BEV感知到端到端自动驾驶

02

BEV感知计算的工程化

(一)BEV和3D检测

3D目标检测过程引入了对场景深度信息和物体航向角信息的测量,帮助无人车更准确地感知现实三维环境和目标障碍物,是对2D 检测能力的升级。随着激光雷达传感器的快速发展,以及以 CNN 和 Transformer 等为代表的深度学习技术在交通场景感知领域取得的巨大成功,使得自动驾驶 3D目标检测算法的研究成为一种趋势。

从BEV感知到端到端自动驾驶
从BEV感知到端到端自动驾驶

基于深度学习的 3D 目标检测算 法分为基于相机 RGB 图像、基于激光雷达点云、 基于 RGB 图像–激光雷达点云融合的 3D 目标检测 3 种类型。

为了直接在BEV空间进行操作,最直接的方法就是把图像特征从2D空间映射到3D空间,也就是常说的View Transform。这是BEV技术的核心步骤,可以通过Transformer或者深度估计来完成。当然,有些方法没有显式的做特征空间转换,而是利用Transformer,直接从图像特征中预测3D空间中的感知结果。但是不管采用哪种方式,基于BEV的方法都没有在2D图像上生成感知结果。

从BEV感知到端到端自动驾驶

(二)BEV和Occupancy Network占据网络

Occupancy Network 是特斯拉自动驾驶提出的一种面向BEV图像感知的深度学习方法。这是一种轻语义重几何的网络模型,从汽车环视图像(多相机融合)中生成车辆驾驶环境的三维占用网格。它能够更好地辅助自动驾驶系统感知可行驶区域(free space),也是各大自动驾驶公司抢先量产的目标。在3D目标检测失效的范围内,能够进一步提升感知能力,形成闭环。

Occupancy Network 的工作基本步骤:

  1. 将汽车环视图像(多相机融合),转换为一个三维特征空间。

  2. 使用深度神经网络来学习这个特征空间中的占用概率;

  3. 将占用概率转换为一个三维占用网格。

从功能分析来看,Occupancy Network在自动驾驶系统中主要用于以下任务:

  • 障碍物检测:检测车辆周围的障碍物,例如其他车辆、行人、骑自行车者等。

  • 路径规划:生成车辆的路径,并避免障碍物。

  • 车辆控制:控制车辆的速度和方向,以确保安全行驶。

Occupancy Network的先进之处在于:

从ADS可行驶区域的角度出发,只统计“空间体”的集合,但不判断“空间体”集合的类型。

  1. 将世界划分为微小(或超微小)的立方体或体素(Voxel);

  2. 预测每个体素是空闲还是被占用;

  3. 基于Voxel的扩散和退缩,对占用空间进行聚集,形成障碍物目标。

这个设计理念,能解决在目标对象在标注类型之外的新类型、结构增改(导致异形)等问题,如:悬垂的障碍物。无法预测悬垂的障碍物。

从BEV感知到端到端自动驾驶

假设一个场景:一辆卡车,将在feature map上放置一个 7x3 的矩形;一个行人,则使用一个 1x1 的矩形。如果汽车顶部有梯子,卡车有侧拖车或手臂;那么这种固定的矩形可能无法检测到目标。

计算速度

Occupancy Network输出的并非是目标的Retangle和类型,而是目标物品外观轮廓的近似值,可以理解为牺牲细节而追求计算速率(以超过 100 FPS 的速度运行)。因为极致计算速率下的有限计算量(算力和内存有限),导致轮廓不够sharp,但足够汽车自动驾驶使用。另外还支持在静态和动态对象之间进行预测。

(三)BEV和端到端自动驾驶

自动驾驶在技术栈的发展上,与机器人技术越来越趋近。传统的自动驾驶架构多衍生于机器人架构,主要包含感知&定位(Perception & Localization)-决策与规划模块(Decision and Planning)-控制Control三大模块及其功能衍生。

端到端自动驾驶架主要划分为4个阶段:

从BEV感知到端到端自动驾驶

第一阶段:感知“端到端”。基于多传感器融合的BEV(Bird Eye View,鸟瞰图视角融合)技术为主,通过基于通过引入transformer以及跨传感器的cross attention方案,感知输出检测结果的精度及稳定性都大幅提升,实现了模块级别的“端到端”。

第二阶段:决策规划模型化
预测决策规划模块,从之前的Rule-based主导,到决策规划一体化模型。

从BEV感知到端到端自动驾驶

第三阶段:模块化端到端
感知定位、规划决策都不在输出面向人类直观理解的结果,而是输出特征向量。在训练方式上,模型必须支持跨模块的梯度传导。

第四阶段:One Model/单一模型端到端

不再划分感知定位、决策规划、控制等模块,从输入传感器观测信号到输出规划轨迹,仅采用一个深度学习模型,可以是基于强化学习(Reinforcement Learning, RL)或模仿学习(Imitation Learning, IL),或者世界模型。

从BEV感知到端到端自动驾驶

(四)BEV感知计算工具链

工具链是所有开发团队都应该重视、却往往做不到的工作环节。

工具链是设计、开发、测试环节的重要辅助工具,大大提升工程技术的工作效率。

1.FoxgloveStudio

FoxgloveStudio是一种开源的自动驾驶可视化工具,通过 WebSocket 与 ROS 系统通信,Github步骤https://github.com/foxglove/studio。

FoxgloveStudio支持ROS原生的全部内容,同时它可以在浏览器中使用,也可作为Linux、Windows和macOS上的桌面应用程序使用。

从BEV感知到端到端自动驾驶

2.Apollo Dreamview

DreamView 是一个web 应用程序,提供如下功能:

可视化显示当前自动驾驶车辆模块的输出信息。例如:规划路径、车辆定位、车架信息等。

为使用者提供人机交互接口以监测车辆硬件状态,对模块进行开关操作,启动自动驾驶车辆等。

提供调试工具。例如 PnC 监视器可以高效的跟踪模块输出的问题。

从BEV感知到端到端自动驾驶

3.ROS RVIZ

RViz提供丰富的功能和可定制的界面,使用户能够以三维方式查看机器人模型、传感器数据和环境地图等。它支持多种类型的可视化对象,包括点云、网格模型、标记、路径、激光扫描和相机图像等。

RViz的主要特点包括:

1. 可视化机器人模型:RViz可以加载和显示机器人的三维模型,并根据实际的关节状态进行动态更新。这使得用户能够直观地了解机器人的外观和姿态。

2. 显示传感器数据:RViz可以接收和显示来自机器人传感器(如激光雷达、摄像头、IMU等)的数据。用户可以实时查看和分析传感器数据,帮助理解机器人周围的环境。

3. 生成导航地图:RViz可以通过接收来自SLAM(Simultaneous Localization and Mapping)或其他建图算法的数据,生成并显示机器人所在环境的二维或三维地图。

4. 调试运动规划:RViz可以显示机器人的路径规划结果,并提供交互式界面来调试和优化运动规划算法。用户可以可视化虚拟路径、障碍物和碰撞检测等信息。

5. 可定制性:RViz提供了丰富的配置选项,允许用户按照自己的需求自定义界面布局、可视化对象和颜色风格等。用户可以根据实际情况进行个性化设置,以满足特定的可视化需求。

4.定制的脚本工具

单指标统计计算脚本,往往需要根据GroundTruth和计算结果的数据结构,进行定制开发,形成共团队内部使用的开发工具。

03

BEV感知的数据集

(一)nuScenes数据集

nuScenes数据集(https://www.nuscenes.org/)是第一个提供自动汽车全套传感器数据的大型数据集,包含不同城市中的1000个场景,传感器系统包括6个摄像机、5个毫米波雷达、1个激光雷达、六轴传感器IMU和GPS,空间布局如下图。

从BEV感知到端到端自动驾驶
从BEV感知到端到端自动驾驶

nuScenes数据包含140万个相机图像、39万个激光雷达扫描结果、140万个毫米波雷达扫描结果,标注了32类共计140万个标注对象。

从BEV感知到端到端自动驾驶

(二)KITTI数据集

KITTI数据集通过车载相机、激光雷达进行采集,地点主要在德国卡尔斯鲁厄市。数据规模为14999张图像及其对应点云,其中7481张训练集,7518张测试集,KITTI数据集标注了车、行人、骑车的人三类,共计80256个标注对象,下图为标注平台。

从BEV感知到端到端自动驾驶

Youtube上有一段关于KITTI数据采集的场景,展示了德国城市交通的日常,非常有趣。链接如下。

https://www.youtube.com/watch?v=KXpZ6B1YB_k&t=47s

从BEV感知到端到端自动驾驶
从BEV感知到端到端自动驾驶

(三) Waymo Open数据集

Waymo数据集是由Waymo公司发布的自动驾驶数据集.数据集使用5个激光雷达传感器和5个高分辨率针孔摄像机进行数据收集, 选取了一天中不同时间段以及不同天气的郊区和城市地区的场景, 包含798个用于训练的场景和202个用于验证的场景, 以及150个用于测试的场景, 每个场景的时间跨度为20s.数据集对车辆、行人、标志和自行车4类目标一共标注了约1200万个3D标签和1000万个2D标签.

从BEV感知到端到端自动驾驶
从BEV感知到端到端自动驾驶
从BEV感知到端到端自动驾驶

数据集包含三类数据场景:

motion:用于轨迹预测之类的任务;

perception:用于目标检测跟踪之类的任务,含有相机和雷达信息,并且在github上有公开的读取数据方法;

End-to-End: 用于端到端自动驾驶大模型的测试任务。

04

端到端自动驾驶的发展现状题

面向端到端自动驾驶的视觉-语言-动作 (VLA) 模型,往往发端于基于开源预训练的视觉-语言模型 (VLM),输入 3D 环境感知、自身车辆状态和驾驶员指令,生成可靠的驾驶动作。

语言模型用于AD的特征对齐方法:为弥合驾驶视觉表征与语言特征的模态差异,提出一种分层视觉语言对齐流程,将结构化的 2D 和 3D视觉标记投影到统一的语义空间中,促进语言特征向AD轨迹的特征生成。

面向大模型的多模态融合:对车辆自身状态、周围智能体和静态道路元素之间的动态关系进行建模,通过自回归的智能体-环境-自身交互过程,确保在空间和行为层面均有指导意义的轨迹规划。

来源:智猩猩Auto

 end 

从BEV感知到端到端自动驾驶

 精品活动推荐 

从BEV感知到端到端自动驾驶
从BEV感知到端到端自动驾驶

 AutoSec中国行系列沙龙 

从BEV感知到端到端自动驾驶

从BEV感知到端到端自动驾驶

 专业社群 

从BEV感知到端到端自动驾驶

部分入群专家来自:

新势力车企:

特斯拉、合众新能源-哪吒、理想、极氪、小米、宾理汽车、极越、零跑汽车、阿维塔汽车、智己汽车、小鹏、岚图汽车、蔚来汽车、吉祥汽车、赛力斯......

外资传统主流车企代表:

大众中国、大众酷翼、奥迪汽车、宝马、福特、戴姆勒-奔驰、通用、保时捷、沃尔沃、现代汽车、日产汽车、捷豹路虎、斯堪尼亚......

内资传统主流车企:

吉利汽车、上汽乘用车、长城汽车、上汽大众、长安汽车、北京汽车、东风汽车、广汽、比亚迪、一汽集团、一汽解放、东风商用、上汽商用......

全球领先一级供应商:

博世、大陆集团、联合汽车电子、安波福、采埃孚、科世达、舍弗勒、霍尼韦尔、大疆、日立、哈曼、华为、百度、联想、联发科、普瑞均胜、德赛西威、蜂巢转向、均联智行、武汉光庭、星纪魅族、中车集团、赢彻科技、潍柴集团、地平线、紫光同芯、字节跳动、......

二级供应商(500+以上):

Upstream、ETAS、Synopsys、NXP、TUV、上海软件中心、Deloitte、中科数测固源科技、奇安信、为辰信安、云驰未来、信大捷安、信长城、泽鹿安全、纽创信安、复旦微电子、天融信、奇虎360、中汽中心、中国汽研、上海汽检、软安科技、浙江大学......

人员占比

从BEV感知到端到端自动驾驶

公司类型占比

从BEV感知到端到端自动驾驶

原文始发于微信公众号(谈思实验室):从BEV感知到端到端自动驾驶

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2025年5月26日09:23:57
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   从BEV感知到端到端自动驾驶https://cn-sec.com/archives/4097051.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息