首页 > 
新闻中心 > 
资讯聚焦 > >
正文

Tesla AI Day的那些突破和创新

发布日期: 2021-08-24来源: Astroys

上周五我们在特斯拉的AI Day上看到的可能是人类至今为止最叹为观止的AI和工程上的能力,还有努力(试着以平淡的口吻说,但内心深深被折服)。当然不是因为Tesla Bot,是因为自动驾驶和一般现实世界的机器人感知或规划任务,比人们普遍认为的要难得多。而且解决这些问题所需的算法、数据标注、仿真、推理计算和训练计算等方面的投入程度是短期内没人能做到的。但特斯拉让人们看到可能是有机会解决这个问题的。

包括神经网络架构和pipeline、自动驾驶计算硬件、用于训练的Dojo计算硬件、数据和数据标注、罕见边缘场景的仿真,上述所有内容的普遍应用超出了车辆自动驾驶的范围,达到了类人的形式。

如果不是AI领域从业者,AI Day大部分内容理解起来难度极大。读了很多科技媒体文章,还是一知半解。其中Lex Fridman的解读稍有些帮助。Lex Fridman是油管知名博主,也是AI领域的专家。也曾多次专访过Elon Musk和特斯拉团队的人,对特斯拉正在做的事有着深入的理解。以下是Lex Fridman对AI Day的一些亮点的总结。

神经网络

首先是神经网络,每一个环节都是非常困难的。但特斯拉出色的设计理念是机器学习技术领域的一次飞跃。

首先是在矢量空间预测,而不是图像空间。仅这一点就比计算机视觉的常规做法有很大的飞跃。计算机视觉通常在二维图像的图像空间中操作,但现实是三维的,在二维图像的投影上进行所有的机器学习是没有意义的。这似乎是理所当然的想法,但实现起来却极其困难。

其次是摄像头数据在探测前的融合,探测由多任务神经网络的不同头执行。目前来说,融合是在多尺度特征层面上进行的。同样,回过头来看,在所有的传感器上进行探测和机器学习是一个明显但非常困难的工程步骤,而不是单独进行并只结合决策。

第三是使用视频数据对矢量空间且对时间进行建模。在每一帧连接位置编码、多摄像头特征和自我运动学,使用一个特别酷的空间RNN(recurrent nueral network)架构,在车辆周围形成一个二维网格,其中网格的每个单元作为一个RNN。

另一个很酷的地方是,你可以在RNN特征空间里建图,也许还可以这个空间里做规划,这是一个迷人的概念。Andrej Karpathy好像也提到了一些未来的改进计划,在神经网络的早期进行融合。目前空间和时间的融合是在神经网络的后期,将融合提前可以进一步走向完整的端到端多模态驾驶,无缝融合整合多种来源的感知数据。

最后,根据AI Day的内容,目前神经网络用的最少的地方可能是规划。执行空间的最优规划是很难实现的,所以你必须想出一堆启发式的方法。你可以手动做,或者可以通过学习来做。因此,特斯拉提出的想法是使用神经网络作为启发式方法。以类似于在MonteCarlo树形搜索中使用神经网络作为启发式方法,让μ0和σ0玩不同的游戏,下围棋、下象棋。这可以让你在行动空间中大幅修剪搜索,获得一个不会卡在局部最优的计划,相当接近全局最优。