投稿|特斯拉自动驾驶的底层逻辑( 三 )


不过,这仅仅是学习一个静态的信号,在汽车驾驶过程中会涌现无数静态和动态的信号,静态如路边大树、路障、电线杆等,动态的有行人、车辆等,而这些信号由摄像机捕捉到后交由神经网络训练、学习 。目前特斯拉的自动驾驶神经网络已发展出九大主干神经 (HydraNet) 和48个神经网络,识别超过1000种目标 。 
然而,仅仅让自动驾驶AI学会开车还不够,还得让它开得像人类老司机一般驾轻就熟、安全又平稳 。 
02 摆脱拐杖,Autopilot初长成任何一位经验老道的司机,都能在不同路况下,轻易判断出前方车辆与我们的距离,从而为保障行车安全而留出一定车距 。 
但对传感器而言,要想判断物体远近必须要理解物体的深度,不然在他们眼中,距离我们10米和5米的两辆完全一样的车,就会被认为是一大一小的关系 。 
对此,有些车厂选择激光雷达路线来探测深度,而特斯拉则选择了纯视觉算法,模仿人类视觉来感知深度,不过特斯拉先是打造了毫米波雷达+视觉传感融合路线,直到今年5月,才正式官宣,拿掉毫米波雷达,上线纯视觉版本Autopilot 。 
此事一出,社会各界一片哗然,很多人不能理解特斯拉为何要拿掉单价才300元、又能为行车安全增添保障的高性价比雷达 。殊不知,在特斯拉早期多传感器融合路线中,毫米波雷达的存在就犹如小孩的学步车,只是帮助神经网络来学习训练深度标注 (annotate)。 
在2019年自动驾驶发布会上,卡帕西是这样介绍毫米波雷达的,他说:“要想让神经网络学会预测深度,最好的方式还是通过深度标注的数据集进行训练,不过相对于人工标注深度,毫米波雷达反馈的深度数据精准度更高”,因此,引入毫米波雷达,实质是用以训练和提高神经网络对深度的预测 。 
值得一提的是,在他讲解时的背景幻灯片右下角上,清晰地注明了带有毫米波雷达的自动驾驶算法是“Semi-Automonous Self Driving”,翻译过来是,半自动驾驶,明显彼时的特斯拉Autopilot只是个半成品 。 
投稿|特斯拉自动驾驶的底层逻辑
文章图片

直到特斯拉视觉算法在预测物体的深度、速度、加速度的表现,达到可替代毫米波雷达的水平,特斯拉的视觉算法才算真正独立 。 
在2021年6月CVPR大会上,卡帕西曾表示毫米波雷达收集数据中曾出现“间歇性翻车”、甚至误判等情况 。他举了三个具体例子,前方车辆急刹车、大桥下前车行驶速度以及对路边静止卡车的判断 。 
情况一:前方车辆出现急刹,毫米波雷达短时间内出现6次跟丢目标车的情况,跟丢状态下前车的位置、速度和加速度都归于零 。 
情况二:在行驶的汽车从大桥下通过时,雷达把一静一动的物体都当作静止物体;此时视觉传感却计算出行驶车辆的速度和位移,导致数据融合后的曲线传递出“前车在减速并且刹车”的错误信息 。 
情况三:在高速路旁停着一辆白色大卡车,纯视觉算法在距目标车180m处就发现白色卡车,并作出预报,但融合算法直到110m处才作出反馈,足足延迟5秒 。 
上述案例里,纯视觉算法均输出稳定且大幅优于雷达+视觉融合算法,精准地跟踪到前车行驶状况并作出深度、速度、加速度等数据 。 
不仅如此,纯视觉算法还可以在雾、烟、尘等环境里保持对前方车辆的测速、测距工作,如此一来拿掉毫米波雷达也不奇怪了 。根据特斯拉AI Day上最新发布的信息,目前特斯拉每周能够获得一万个人们恶劣环境下驾车的短视频,包括大雨、大雪、大雾、黑夜、强光等等情况,神经网络通过学习训练这些已经标注好的材料,实现在没有毫米波雷达的情况下,也可以精准感知前方车辆距离 。 

推荐阅读