从BEV感知到端到端自动驾驶

admin

144122
文章

118
评论

2025年5月26日09:23:57评论37 views字数 5978阅读19分55秒阅读模式

点击上方蓝字谈思实验室

获取更多汽车网络安全资讯

BEV感知是端到端自动驾驶的前一阶段的热点之一，实现感知计算的主要功能，但是在端到端自动驾驶的第二阶段，依旧需要对BEV的发展历程、原理实践、技术路线、工具链成果进行回顾和梳理。

本文梳理自动驾驶BEV技术的概念和原理、发展历程、主要方法、系统架构和结构定义、工程流程、应用案例。并梳理BEV与端到端自动驾驶在目标任务和工程技术链的关联。

BEV概念与原理

自动驾驶环境感知领域的发展大概分为三个阶段：1）2D图像空间检测障碍物，映射到鸟瞰空间做多相机和时序融合；2）直接在BEV空间中完成动态障碍物的3D检测和静态障碍物的识别建模；3）直接在3D空间中感知占用关系，输出可行驶空间，更可靠地支撑路径规划。

目前，BEV框架下的3D检测、3D Occupancy Network直接输出兴趣的目标，成为主流。传统的3D检测也有难解决的问题，比如截断目标、形状不规则、未有清晰语义的目标（比如挂车、树木、垃圾、以及石子等）。

（一）BEV概念

BEV（Bird's Eye View）即鸟瞰图，通过计算机视觉、深度学习、机器学习等数据处理技术，对影像、雷达、激光雷达等传感器观测数据进行处理，输出驾驶环境信息，如场景环境特征、障碍物（车辆行人）、路侧标识、车道线，主要应用于自动驾驶领域。

BEV感知是包含了多项输出，包括分类、检测、分割、跟踪、预测、规划等，通过使用鸟瞰图来进行各项计算机视觉相关任务。

BEV感知计算的输入包括：毫米波雷达（Radar）、激光雷达点云（LiDAR）、视觉图像（Image）等。依据输入的不同，BEV感知算法可以划分为：BEV Camera（图像），BEV LiDAR（点云），BEV Fusion（图像和点云融合）。

（二）BEV感知的计算原理

无人机集群任务模型的优化和求解，面临多方面的场景难题，包括：模型架构、路径规划任务类型、时间约束下的目标优化、规划与控制的耦合程度。

1．BEV Image

基于车载摄像头的影像进行提取特征，感知当前驾驶环境中的车辆、行人、车道线、路侧交通标识等任务，这就是典型的BEVCamera感知模型。BEVCamera的一个典型实例就是BEVFormer。

BEVFormer利用基于transformer的编码Encoder方法，通过网格形式的BEV Queries来利用空间和时间进行交互，从而设计可学习的BEV和注意力模块，在nuScenes测试集上对3D目标检测和地图分割任务中实现最优性能。

下图为BEVFormer的完整网络结构，输入多视角图像，经过backbone（一般为ResNet）之后，经过提取网络（前馈网络+时空注意力机制模块）得到BEV特征，最后接一个图像分割或检测的头组成完整的网络输出。

2．BEV LiDAR

LiDAR点云是对三维空间的3D表现方式，具有稀疏性、无序性。

考虑到点云数据的特征，包括稀疏、数量巨大，有两种处理方法（聚合方法），分别是Point-based和Voxel-based。Point-based处理点云数据，可以处理高密度的点云数据，更加灵活，但计算复杂度高，不规则性高。Voxel-based处理体素数据，使数据结构更加规则，更好的表示体积信息，但收到网格限制，会丢失部分信息。

3．BEV Fusion

大多数BEV Fusion融合的BEV Camera和BEV LiDAR的结果。尽管有不少数据级融合，即在Image特征提取和LiDAR特征提取前，进行统一编码，进行网络训练，输出感知特征，已经逐步转向当前的多模态融合感知网络模型的研究。

BEV感知计算的工程化

（一）BEV和3D检测

3D目标检测过程引入了对场景深度信息和物体航向角信息的测量，帮助无人车更准确地感知现实三维环境和目标障碍物，是对2D 检测能力的升级。随着激光雷达传感器的快速发展，以及以 CNN 和 Transformer 等为代表的深度学习技术在交通场景感知领域取得的巨大成功，使得自动驾驶 3D目标检测算法的研究成为一种趋势。

基于深度学习的 3D 目标检测算法分为基于相机 RGB 图像、基于激光雷达点云、基于 RGB 图像–激光雷达点云融合的 3D 目标检测 3 种类型。

为了直接在BEV空间进行操作，最直接的方法就是把图像特征从2D空间映射到3D空间，也就是常说的View Transform。这是BEV技术的核心步骤，可以通过Transformer或者深度估计来完成。当然，有些方法没有显式的做特征空间转换，而是利用Transformer，直接从图像特征中预测3D空间中的感知结果。但是不管采用哪种方式，基于BEV的方法都没有在2D图像上生成感知结果。

（二）BEV和Occupancy Network占据网络

Occupancy Network 是特斯拉自动驾驶提出的一种面向BEV图像感知的深度学习方法。这是一种轻语义重几何的网络模型，从汽车环视图像（多相机融合）中生成车辆驾驶环境的三维占用网格。它能够更好地辅助自动驾驶系统感知可行驶区域（free space），也是各大自动驾驶公司抢先量产的目标。在3D目标检测失效的范围内，能够进一步提升感知能力，形成闭环。

Occupancy Network 的工作基本步骤：

将汽车环视图像（多相机融合），转换为一个三维特征空间。
使用深度神经网络来学习这个特征空间中的占用概率；
将占用概率转换为一个三维占用网格。

从功能分析来看，Occupancy Network在自动驾驶系统中主要用于以下任务：

障碍物检测：检测车辆周围的障碍物，例如其他车辆、行人、骑自行车者等。
路径规划：生成车辆的路径，并避免障碍物。
车辆控制：控制车辆的速度和方向，以确保安全行驶。

Occupancy Network的先进之处在于：

从ADS可行驶区域的角度出发，只统计“空间体”的集合，但不判断“空间体”集合的类型。

将世界划分为微小（或超微小）的立方体或体素（Voxel）；
预测每个体素是空闲还是被占用；
基于Voxel的扩散和退缩，对占用空间进行聚集，形成障碍物目标。

这个设计理念，能解决在目标对象在标注类型之外的新类型、结构增改(导致异形)等问题，如：悬垂的障碍物。无法预测悬垂的障碍物。

假设一个场景：一辆卡车，将在feature map上放置一个 7x3 的矩形；一个行人，则使用一个 1x1 的矩形。如果汽车顶部有梯子，卡车有侧拖车或手臂；那么这种固定的矩形可能无法检测到目标。

计算速度

Occupancy Network输出的并非是目标的Retangle和类型，而是目标物品外观轮廓的近似值，可以理解为牺牲细节而追求计算速率（以超过 100 FPS 的速度运行）。因为极致计算速率下的有限计算量（算力和内存有限），导致轮廓不够sharp，但足够汽车自动驾驶使用。另外还支持在静态和动态对象之间进行预测。

（三）BEV和端到端自动驾驶

自动驾驶在技术栈的发展上，与机器人技术越来越趋近。传统的自动驾驶架构多衍生于机器人架构，主要包含感知&定位（Perception & Localization）-决策与规划模块（Decision and Planning）-控制Control三大模块及其功能衍生。

端到端自动驾驶架主要划分为4个阶段：

第一阶段：感知“端到端”。基于多传感器融合的BEV（Bird Eye View，鸟瞰图视角融合）技术为主，通过基于通过引入transformer以及跨传感器的cross attention方案，感知输出检测结果的精度及稳定性都大幅提升，实现了模块级别的“端到端”。

第二阶段：决策规划模型化
预测决策规划模块，从之前的Rule-based主导，到决策规划一体化模型。

第三阶段：模块化端到端
感知定位、规划决策都不在输出面向人类直观理解的结果，而是输出特征向量。在训练方式上，模型必须支持跨模块的梯度传导。

第四阶段：One Model/单一模型端到端

不再划分感知定位、决策规划、控制等模块，从输入传感器观测信号到输出规划轨迹，仅采用一个深度学习模型，可以是基于强化学习（Reinforcement Learning, RL）或模仿学习（Imitation Learning, IL），或者世界模型。

（四）BEV感知计算工具链

工具链是所有开发团队都应该重视、却往往做不到的工作环节。

工具链是设计、开发、测试环节的重要辅助工具，大大提升工程技术的工作效率。

1．FoxgloveStudio

FoxgloveStudio是一种开源的自动驾驶可视化工具，通过 WebSocket 与 ROS 系统通信，Github步骤https://github.com/foxglove/studio。

FoxgloveStudio支持ROS原生的全部内容，同时它可以在浏览器中使用，也可作为Linux、Windows和macOS上的桌面应用程序使用。

2．Apollo Dreamview

DreamView 是一个web 应用程序，提供如下功能：

可视化显示当前自动驾驶车辆模块的输出信息。例如：规划路径、车辆定位、车架信息等。

为使用者提供人机交互接口以监测车辆硬件状态，对模块进行开关操作，启动自动驾驶车辆等。

提供调试工具。例如 PnC 监视器可以高效的跟踪模块输出的问题。

3．ROS RVIZ

RViz提供丰富的功能和可定制的界面，使用户能够以三维方式查看机器人模型、传感器数据和环境地图等。它支持多种类型的可视化对象，包括点云、网格模型、标记、路径、激光扫描和相机图像等。

RViz的主要特点包括：

1. 可视化机器人模型：RViz可以加载和显示机器人的三维模型，并根据实际的关节状态进行动态更新。这使得用户能够直观地了解机器人的外观和姿态。

2. 显示传感器数据：RViz可以接收和显示来自机器人传感器（如激光雷达、摄像头、IMU等）的数据。用户可以实时查看和分析传感器数据，帮助理解机器人周围的环境。

3. 生成导航地图：RViz可以通过接收来自SLAM（Simultaneous Localization and Mapping）或其他建图算法的数据，生成并显示机器人所在环境的二维或三维地图。

4. 调试运动规划：RViz可以显示机器人的路径规划结果，并提供交互式界面来调试和优化运动规划算法。用户可以可视化虚拟路径、障碍物和碰撞检测等信息。

5. 可定制性：RViz提供了丰富的配置选项，允许用户按照自己的需求自定义界面布局、可视化对象和颜色风格等。用户可以根据实际情况进行个性化设置，以满足特定的可视化需求。

4．定制的脚本工具

单指标统计计算脚本，往往需要根据GroundTruth和计算结果的数据结构，进行定制开发，形成共团队内部使用的开发工具。

BEV感知的数据集

（一）nuScenes数据集

nuScenes数据集（https://www.nuscenes.org/）是第一个提供自动汽车全套传感器数据的大型数据集，包含不同城市中的1000个场景，传感器系统包括6个摄像机、5个毫米波雷达、1个激光雷达、六轴传感器IMU和GPS，空间布局如下图。

nuScenes数据包含140万个相机图像、39万个激光雷达扫描结果、140万个毫米波雷达扫描结果，标注了32类共计140万个标注对象。

（二）KITTI数据集

KITTI数据集通过车载相机、激光雷达进行采集，地点主要在德国卡尔斯鲁厄市。数据规模为14999张图像及其对应点云，其中7481张训练集，7518张测试集，KITTI数据集标注了车、行人、骑车的人三类，共计80256个标注对象，下图为标注平台。

Youtube上有一段关于KITTI数据采集的场景，展示了德国城市交通的日常，非常有趣。链接如下。

https://www.youtube.com/watch?v=KXpZ6B1YB_k&t=47s

（三） Waymo Open数据集

Waymo数据集是由Waymo公司发布的自动驾驶数据集.数据集使用5个激光雷达传感器和5个高分辨率针孔摄像机进行数据收集, 选取了一天中不同时间段以及不同天气的郊区和城市地区的场景, 包含798个用于训练的场景和202个用于验证的场景, 以及150个用于测试的场景, 每个场景的时间跨度为20s.数据集对车辆、行人、标志和自行车4类目标一共标注了约1200万个3D标签和1000万个2D标签.

数据集包含三类数据场景：

motion：用于轨迹预测之类的任务；

perception：用于目标检测跟踪之类的任务，含有相机和雷达信息，并且在github上有公开的读取数据方法；

End-to-End: 用于端到端自动驾驶大模型的测试任务。

端到端自动驾驶的发展现状题

面向端到端自动驾驶的视觉-语言-动作 (VLA) 模型，往往发端于基于开源预训练的视觉-语言模型 (VLM)，输入 3D 环境感知、自身车辆状态和驾驶员指令，生成可靠的驾驶动作。

语言模型用于AD的特征对齐方法：为弥合驾驶视觉表征与语言特征的模态差异，提出一种分层视觉语言对齐流程，将结构化的 2D 和 3D视觉标记投影到统一的语义空间中，促进语言特征向AD轨迹的特征生成。

面向大模型的多模态融合：对车辆自身状态、周围智能体和静态道路元素之间的动态关系进行建模，通过自回归的智能体-环境-自身交互过程，确保在空间和行为层面均有指导意义的轨迹规划。

来源：智猩猩Auto

end

精品活动推荐

AutoSec中国行系列沙龙

专业社群

部分入群专家来自：

新势力车企：

特斯拉、合众新能源-哪吒、理想、极氪、小米、宾理汽车、极越、零跑汽车、阿维塔汽车、智己汽车、小鹏、岚图汽车、蔚来汽车、吉祥汽车、赛力斯......

外资传统主流车企代表:

大众中国、大众酷翼、奥迪汽车、宝马、福特、戴姆勒-奔驰、通用、保时捷、沃尔沃、现代汽车、日产汽车、捷豹路虎、斯堪尼亚......

内资传统主流车企：

吉利汽车、上汽乘用车、长城汽车、上汽大众、长安汽车、北京汽车、东风汽车、广汽、比亚迪、一汽集团、一汽解放、东风商用、上汽商用......

全球领先一级供应商：

博世、大陆集团、联合汽车电子、安波福、采埃孚、科世达、舍弗勒、霍尼韦尔、大疆、日立、哈曼、华为、百度、联想、联发科、普瑞均胜、德赛西威、蜂巢转向、均联智行、武汉光庭、星纪魅族、中车集团、赢彻科技、潍柴集团、地平线、紫光同芯、字节跳动、......

二级供应商(500+以上)：

Upstream、ETAS、Synopsys、NXP、TUV、上海软件中心、Deloitte、中科数测固源科技、奇安信、为辰信安、云驰未来、信大捷安、信长城、泽鹿安全、纽创信安、复旦微电子、天融信、奇虎360、中汽中心、中国汽研、上海汽检、软安科技、浙江大学......

人员占比

公司类型占比

原文始发于微信公众号（谈思实验室）：从BEV感知到端到端自动驾驶

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

从BEV感知到端到端自动驾驶

从代码到汽车的盲区 —— 探寻汽车软件供应链中的隐藏风险

Application跳转Bootloader，如何处理外狗？

一天搞懂CANXL学习笔记

AUTOSAR架构下ECU休眠后连续发送NM报文3S后ECU网络才被唤醒问题分析

里程停止器拆解分析

重型车辆网络安全研究注意事项

汽车以太网物理层调试实用技巧

黑客的钥匙：无线门禁攻防实战

面向软件定义车辆的E/E架构技术&市场分析报告2025

发表评论

在线咨询

微信