当前位置: 首页 -> 头条焦点

大模型上车,特斯拉带了个好头吗?

责任编辑:叶知秋    来源:投资界   发布时间:2023-10-11 15:44阅读量:7984      

1989年,卡内基梅隆大学接到了美国军方的一个研究课题,内容是当时看起来不可思议的自动驾驶。

为此,研究人员给一辆翻新的军用急救车,装上了一个看起来像探照灯的硕大摄像头,还配备了一台冰箱大小的处理器和一部5000W的发电机。

尽管设备简陋、数据粗糙,比如据媒体报道当时车顶的摄像头只能输入30×32像素网格,但借助开创性的神经网络,这辆名为ALVINN的自动驾驶汽车最高速度能达到88km/h。

ALVINN被誉为自动驾驶领域一个里程碑项目。其最深刻的影响,正是用神经网络替代人工代码,成为后来自动驾驶技术发展的一座灯塔。

此后数十年,自动驾驶技术沿着ALVINN的方向飞速发展,直到chatGPT问世,大模型走上舞台,成为改变自动驾驶*的一个变量。

在车端,大模型已经作用于自动驾驶的感知和预测环节,正在向决策层渗透;在云端,大模型为L3及以上自动驾驶落地铺平了道路;甚至,大模型还将加速城市NOA落地。

而全球的下游企业中,特斯拉毫无疑问是跑在最前面的少数。

今年8月特斯拉端到端AI自动驾驶系统FSD Beta V12版本的公开亮相,据称可以完全依靠车载摄像头和神经网络,识别道路和交通情况并做出相应的决策。

这种端到端模型的感知决策一体化,让自动驾驶直接从一端输入图像数据,一端输出操作控制,更接近人类的真实驾驶。

但车企们努力接近端到端模型时才发现,想要超越必须先跟随。

01 算法优先

让大模型上车,特斯拉*是最激进的一个。

早在2015年,特斯拉就开始布局自动驾驶软硬件自研,2016-2019年陆续实现了算法和芯片自研。随后在2020年,特斯拉自动驾驶又迎来大规模升级:

不仅用FSD Beta替换了Mobileye的Autopilot 3.0,还将算法由原来的2D+CNN升级为BEV+Transform。

Transformer就是GPT中的T,是一种深度学习神经网络,优势是可实现全局理解的特征提取,增强模型稳定性和泛化能力。

BEV全称是Bird’s Eye View,是一种将三维环境信息投影到二维平面的方法,以俯视视角展示环境当中的物体和地形。

与传统小模型相比,BEV+Transformer对智能驾驶的感知和泛化能力进行了提升,有助于缓解智能驾驶的长尾问题:

1)感知能力:BEV统一视角,将激光雷达、雷达和相机等多模态数据融合至同一平面上,可以提供全局视角并消除数据之间的遮挡和重叠问题,提高物体检测和跟踪的精度 ;

2)泛化能力:Transformer模型通过自注意力机制,可实现全局理解的特征提取,有利于寻找事物本身的内在关系,使智能驾驶学会总结归纳而不是机械式学习。

2022年特斯拉又在算法中引入时序网络,并将BEV升级为占用网络,有效解决了从三维到二维过程中的信息损失问题。

从感知算法的推进来看,行业总体2022年及之前的的商业化应用主要为2D+CNN算法。随着ChatGPT等AI大模型的兴起,算法已经升级至BEV+Transformer。

时间上特斯拉有*优势,国内小鹏、华为、理想等均是今年才切换至BEV+Transformer。

但不论是特斯拉还是国内主机厂,BEV+Transformer都仍只应用于感知端。

虽然学术界以最终规划为目标,提出感知决策一体化的智能驾驶通用大模型UniAD+全栈Transformer模型,不过受限于算法复杂性+大算力要求,目标落地尚无准确时间表。

02 算力竞赛

2016年,因辅助驾驶致死事故和Mobileye分道扬镳的特斯拉,找到英伟达定制了算力为24TOPS的计算平台 Drive PX2,由此开启了车企疯狂追求算力的神奇序幕。

继Drive PX2之后,英伟达在6年时间内发布了三代智能驾驶芯片,从Xavier、Orin再到Thor,算力从30TOPS一跃升到2000TOPS,足足增长了83倍,比摩尔定律还要快。

上游如此“丧心病狂”的堆算力,归根结底还是因为下游有人买单。

一方面,随着智能汽车上的传感器规格和数量提升,带来数据层面的暴涨。

以特斯拉Model Y和小鹏 G6 Max为例,后者因配置了更多传感器,所需算力达到了前者的3.5倍。

当一辆自动驾驶车辆每天可以产生数TB,甚至数十TB数据,数据处理能力即为自动驾驶技术验证的关键点之一。

另一方面,“大模型化”也让智能驾驶算法的芯片算力愈发吃紧。

上汽人工智能实验室曾测试,实现L2级自动驾驶只需10Tops以下的算力,即便是实现L4级自动驾驶也只需100Tops左右的算力。而下游企业暴涨的算力需求,实际也另有原因。

一个是云端算力。

自动驾驶系统前期和后期开发依赖大量环境数据输入,对算法进行训练与验证,同时仿真测试中场景搭建与渲染也需要高算力支持。

而且特斯拉引领的神经网络Transformer又是一个资源消耗大户,毫末智行数据显示,Transformer在训练端所需算力是CNN的100倍。

如此一来,下游企业想要获得算力要么自建智算中心,要么与云服务商合作,最不济的全部外采,包括算法、计算资源、应用服务等。

国内主流主机厂/自动驾驶厂商的智算中心虽然都已上线,但因自建成本较高,国内主流自动驾驶厂商大多采取合作模式/采购模式,比如吉利星睿、小鹏扶摇都是阿里云,毫末和理想则是火山引擎。但从长期成本优势来看,仍具备较高的自建倾向。

还有一个则是NOA。

现实中主机厂具备城市NOA高阶智能驾驶功能的车型,算力大多在200-500TOPS左右。

但NOA从高速道路向城市道路拓展的过程中,人流越密集(每天仅25%的人出行途径高速,而城市道路则是100%)的道路环境复杂度更高,物体识别、感知融合和系统决策的算力需求就越高。

沐曦首席产品官孙国梁就指出,在车端部署大模型并能实现既定任务,算力至少要达到300~500TOPS。模型优化或可降低算力要求,但考虑到未来场景复杂度和数据量增加,以及视觉感知占比增加,车端算力或将翻倍达800TOPS以上。

03 感知升级

光大证券有一个判断,认为L2/L2+级向L3级高阶智能驾驶迈进的三大要素重要性排序分别是数据gt;算法gt;硬件,而后阶段向更高阶智能驾驶迈进的排序或为硬件gt;=算法gt;数据。

理论依据在于,实现L3级智能驾驶的关键在于全面感知,主要依赖海量+长尾场景数据驱动算法升级优化;其中,无图场景覆盖还需低线城市数据。

而当前阶段,海量+长尾场景数据的获取就要依靠车载传感器的大幅升级。

根据Yole报告,自动驾驶L1-L3所需的摄像头数量翻倍增长,比如L1-L2级仅需前后两颗摄像头,到L3就要20颗。

而实际上,主机厂为后续OTA升级预留冗余,单车摄像头配置远超本级所需的摄像头数量,如特斯拉Model 3搭载9颗,蔚来、小鹏、理想车型达到10-13颗。

此外,因大模型对感知数据的精细化要求,高分辨率图像数据可以作为深度学习模型中更新和优化其架构的参数的数据源,尤其是前视摄像头,需要解决的场景最多,目标识别任务最复杂,比如远距离小目标识别、近距离目标切入识别。

为了对更远距离的目标进行识别和监测,车载摄像头就要向800万像素或更高升级。典型如百度Apollo,就已联合索尼、联创与黑芝麻智能,全球首创了超1500万高像素车载摄像头模组。

而在提高感知能力这件事上,还有两个所有车企都想绕开的坎,高精地图和激光雷达。

高精度地图作为先验信息,可以给自动驾驶提供大量的安全冗余,在数据和算法尚未成熟之前,主机厂依赖程度较高。而脱图的原因也比较好理解:

1)高精地图存在更新周期长、成本高、图商资格收紧等弊端,限制了高阶自动驾驶大规模商业化的可能性。

2)构建数据闭环,形成对算法模型的迭代升级反哺车端。

至于如何脱图,特斯拉的办法是引入车道线网络及新的数据标注方法,国内自动驾驶头部公司则采取车端实时建图方案,通过安装在车辆上的相机等传感器来构建车辆行驶过程中周围的环境地图。

目前小鹏、华为等头部主机厂发布无高精地图的高阶智能驾驶方案,并定下量产时间表,华为、毫末、元戎启行等自动驾驶公司也加入其中,自动驾驶算法“重感知,轻地图”趋势明确。

激光雷达则是因为成本问题。

激光雷达在距离和空间信息方面具有精度优势,搭载激光雷达的多传感器融合感知方案可通过互补达到全环境感知能力,为高级别自动驾驶提供安全冗余。

但激光雷达也的确是成本大户,早些年除了特斯拉,几乎所有成熟的无人驾驶技术方案都采用了64位激光雷达,它的成本约人民币70万元,一个小雷达抵得上一辆车甚至几辆车。

特斯拉利用占用网络来实现类似激光雷达的感知效果,国内主机厂由于机器视觉算法的缺失,预计仍将激光雷达作为重要的补充传感器,由此可减少在视觉领域所需积累的数据量。

另外4D成像毫米波雷达或将完全替代3D毫米波雷达,有望对低线激光雷达形成替代。

与激光雷达相比,4D成像毫米波雷达部分指标近似达到16线激光雷达性能,但成本仅为激光雷达十分之一。

特斯拉基于全新的自动驾驶硬件HW4.0,首次在S/X的车型上搭载了4D毫米波雷达。除特斯拉外,价格在40万元以下的理想车型和价格在70万以上的宝马车型、以及通用收购的Cruise自动驾驶服务车均于近两年完成了4D毫米波雷达布局。同时大陆、采埃孚等汽车Tier-1巨头基本完成对该领域的布局。

04 尾声

8月,马斯克亲自上线开启了一场FSD Beta V12的试驾直播,45分钟内FSD Beta V12系统在行驶全程进展非常顺利,能够轻松绕过障碍物,识别道路各种标志。

马斯克激动地表示:

V12系统从头到尾都是通过AI实现。我们没有编程,没有程序员写一行代码来识别道路、行人等,全部交给了神经网络。

而这一切是建立在巨量的「视频数据」和1万个H100之上。

遗憾的是,这两个战略性资源都不是国内主机厂能够轻易追赶上的。

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

热词:    

相关阅读