03. 占用网络,纯视觉驾驶方案强势反击
当各大厂商通过 BEV 更好的识别周围车辆和行人之后,新的问题也随之出现了。
我们知道,汽车如果想要感知周围环境除了要“看得见”还要“认得清”,这就需要开发阶段对交通参与者进行标注,帮助汽车逐渐认识什么是轿车、卡车、行人、自行车,也就是所谓的白名单机制。但是,实际的道路环境非常复杂,掉落的石块、狂风折断的树木、违规占道停放的车辆等等,厂家不可能提前标注好所有可能出现在路上的物体,当车辆遇到白名单中不存在的物体时,大概率会直接忽略从而无法做出反应,早些年自动巡航状态下的车辆撞上高速公路施工设施就是这个原因。
为了解决“一般障碍物感知与规控”问题,国内厂商的做法就是加装激光雷达,通过激光点云判断未知障碍物的体积,再结合高精地图数据选择制动或者变道绕行;而高精地图数据的及时性和准确性又直接决定了整套系统的可用程度,当前市面上所有已交付的高速导航辅助驾驶系统,在遇到高精地图与实际道路不符的情况时都会直接降级退出,如果车辆不能摆脱对高精地图的依赖,那城市道路导航辅助驾驶就几乎不可能实现。
对于面向全球市场发售的 Tesla 来说,获取发售国家所有城市的高精地图是不现实的,即便是国内厂商,高精地图覆盖范围也小的可怜。为此,马斯克破釜沉舟的选择了完全使用摄像头感知标注道路标线,完全使用摄像头生成虚拟点云取代激光雷达的方案,统称“Tesla Vision”。在 2022 年的 AI Day 上,他们介绍了 BEV 进化后的算法网络——Occupancy Network 占用网络。
搞清楚啥是占用网络之前,先来看看效果吧。
Occupancy Network 视角模拟
它能在 10 毫秒内向车载计算机输出车辆周围每个 3D 位置的占用概率,并能够预测被瞬时遮挡的障碍物。同时它还会标注画面中出现的物体语义并用颜色区分,例如:路边的汽车、永久性障碍物或低小碎片等并划分当前“可安全行驶区域”,也就是上图中蓝紫色框线的部分,由下游决策系统在框线范围内自由选择行进路线。
由于占用网络将现实世界分割成了一个个小方块,从而跳出了物体识别的固有思维,所以不管画面中出现的是什么、体型多么怪异又是否处在运动过程中,车辆都可以快速准确的做出判断。
Occupancy Network 对起步中的公交车预测示意图
这是一辆正在起步出站的加长公交车,可以看到在占用网络的视角中精准预测了其前半段车厢为运动状态(蓝色标识),后半段车厢为静止状态(红色标识),随着公交车速度的增加后半段车厢会逐步变蓝直到整节车辆都被标识为运动物体。在其他的演示案例中,这套模型对于卡车和拖挂房车等特殊车辆判断都有良好的适应性。
车辆行驶中进行 3D 环境重建
全自动 4D 标注车道线
可以看到,在多种深度学习模型的加持下,仅有 144 TOPS 算力和 8 颗环视摄像头的 Model 3 拥有了比肩激光雷达的探测能力,配合全自动 4D 标注技术 Model 3 可以在车机端完成当前道路高精地图的实时绘制,如果说 BEV 感知让汽车迈过了自动驾驶的门槛的话,那么占用网络显然直接把自动驾驶的大门砸开了,当然,如此恐怖的态势感知能力也使得 FSD 引进国内市场变得愈加艰难。
04. 激光雷达未老先衰?
既然纯视觉方案完全可以满足车辆对于自动驾驶的需求,那么激光雷达的市场会不会逐步萎缩呢?
还在纠结这个问题的人显然没搞清楚激光雷达的对手到底是谁,摄像头从来都不是,甚至任何其他的传感器之间也完全没有竞争关系,真正决定硬件去留的,是软件的能力边界;而软件的能力边界背后是数据、算力和资金持续不断地投入。
李想本人在春季媒体沟通会上非常坦诚的表示,要做基于 BEV 的城市 NOA,基本上要 20 亿美金起步。必须保证可以持续创造健康的收入、健康的毛利来供给模型的迭代,很多公司做着做着就投不起了。
显然并不是所有玩家都可以玩转城市 NOA 的,随着供应链的成熟,激光雷达采购价格肯定会进进一步走低,对于一些中低端车型来说,搭配较为基础的算法仅实现高可用度的高速 NOA也是一个不错的选择。而一线的头部品牌在精进软件能力后,也可以选择放弃车顶的主激光雷达,仅使用小型激光雷达用作补充,进一步优化凸出的雷达对车辆外观的影响。
总之,是否采用激光雷达完全取决于企业的软件研发与成本控制策略,未来如果遇到摄像头无法解决的问题,那么不管 Tesla 把什么类型的传感器再加回来我都不会奇怪。
原文标题 : 硬件决定下限,软件决定上限