汽车的机器人化从大模型上车开始-新浪汽车

　　要问现在哪个行业最火，那一定是AI了。3月25日极越在北京举办了AI Day 2024，正式发布V1.4.0更新，此次OTA升级200余项功能。在AI Day上，三名来自百度的负责人介绍了百度AI在地图导航、自动驾驶、人机交互等领域对极越的支持。

　　自从2022年底OpenAI推出了基于GPT-3大语言模型的聊天机器人ChatGPT，种种AIGC的功能开始影响到各行各业。国内互联网企业先行一步，百度推出文心一言、阿里推出通义千问、科大讯飞有星火、腾讯混元、360智脑、华为盘古、京东言犀、抖音云雀、清华智谱……琳琅满目，百“模”大战一触即发。

　　本身就处在风口浪尖的车企们也没有错过大模型这个热点，理想推出了MindGPT，蔚来有NOMI GPT，小鹏有XGPT灵犀大模型。你说这些用于语音助手的大模型没用吧，它让用户跟语音助手之间的对话更自然了。但是你要说有用吧，可能尝鲜玩两天就没什么意思了。

　　那么大模型上车就是个蹭流量的噱头吗？

　　极越CEO夏一平表示，“只有以AI来驱动，才算是真正的智能车”。这个大模型有没有用，得看你用在哪儿了。

　　大模型让地图快速覆盖、一天开一城

　　“过去一年很多客户都在提自动驾驶全国覆盖。有些是全国真都覆盖了，但每个城市就三五十公里，有的LCC做点加工加个通勤，号称就几百城甚至号称全球。有的吹得很大，有的可能还是期货”，百度副总裁尚国斌在发布百度车道级导航（LD）地图时表示，“百度LD地图目前覆盖了360城，覆盖360万公里”，目标是年内实现全国覆盖，让极越PPA做到有百度车道级导航的地方就能开。

　　在宣传上，目前头部城市领航辅助车企的进度是：余承东宣布问界更新无图城市NCA，实现有路就能开；小鹏宣布无限xngp，有导航的地方就能用；蔚来NOP覆盖726城，基本覆盖全国；理想NOA覆盖110城，全场景辅助驾驶全国都可用。极越目前则是覆盖了40万公里道路，开了北上广深杭五城，目标是在今年年内实现PPA全国都可开。希望各位网友可以与我们分享一下你们所在地的使用和覆盖情况。

　　在辅助驾驶的技术路线上，高精地图其实挺尴尬，它非常好用而且有图更安全但最大的问题就是贵。而且这份贵还不是一次性的，为了保证地图足够新，还要持续不停地高频率去更新。一个城的成本就要上亿，开几个城可以承受，要覆盖全国的高精地图，谁能用得起呢？

　　百度LD地图则解决了这个问题。它是通过自动驾驶视觉感知大模型生成的地图，天然满足纯视觉辅助驾驶所必需的地图要素、精度要求，同时它摆脱了对高精地图采集车的依赖，又增加了多个图层配合百度地图用户的参与可以保证地图道路信息和路况信息的及时更新，在成本和效率上有着质的提升。

　　据尚国斌介绍，LD地图仅需1/20的成本，实现了100倍的制图效率，速度快到可以一天开一城。

　　大模型让自动驾驶更老道

　　用自动驾驶的纯视觉实时建图是极越最新推出的VTA感知基础大模型所实现的一项能力，这项功能在使用时以每秒10次的频率在车端运行，开直接生产出道路结构。每一辆极越都可以成为实时更新百度地图路况信息的小助手。

　　VTA是vision takes all的缩写，从名字可以看出百度AI人对纯视觉方案有多么的期待纯视觉方案技术关键是OCC占用网络，它将摄像头画面进行语义分割精准识别，在鸟瞰图的基础上重建成3D立体的网格世界，完成三维感知和环境建模。激光雷达的方案也只是前端环境可以精确感知，所以蔚小理都曾在技术介绍中提及过准备使用OCC技术用于感知周围环境。

　　大模型最擅长的就是语义理解，所以它读OCC有很大的促进作用。纯视觉方案的极越更要依靠OCC来实现体验上对激光雷达的超越。所以百度针对远距离高速高架道路、中远距离复杂城市道路和近距离博弈停车场景分别推出了各自的目标检测大模型，并给模型取了非常贴切有趣的名字‘狙击步枪’、‘手枪’和‘匕首’。

　　准确的三维感知和环境建模是车辆行驶中进行决策的基础，VTA在提升了目标检测能力的基础上加入对时间序列的学习，这让它拥有更长时间的记忆能力。这就让它拥有了更强的持续跟踪能力，对目标的位置和速度有着持续的估计，就避免了远距离识别一辆车靠近过程中它被遮挡，近距离突然出现后辅助驾驶显得‘一惊一乍’的情况。

　　这种时序感知能力配合更长更敏捷的决策树，就带来了对其他交通参与者意图更准确的判断，是临时停车还是拥堵排队。72%的早鸟用户在访谈中表示感受到避障能力的显性提升，这也很直观地反映出百度AI加持下极越PPA的能力升级。

　　除了直接用于辅助驾驶系统，大模型在开发过程中的其他环节也有很强的加持作用。比如海量数据的标注上，通过7个平均参数数 3 个的亿大模型，百度做出了精度最高的数据产线，大模型的数据标注不仅更快而且质量更好。在数据管理上，百度AI也使用文心一言等大模型辅助管理，可以非常方便地用自然语言筛选场景，比如‘夜间连续锥桶’。甚至更进一步，可以通过大模型人工编辑出罕见的 corner case，提升了整个系统的开发效率。

　　大模型让断网时多路语音助手更好用

　　体现一辆车智能化的地方，除了辅助驾驶就是智能座舱了。智能座舱的语音助手是一个用习惯了就回不去的功能，能动嘴完成的事为什么要伸手呢。好用的语音助手要做到两点，快和稳定。

　　极越的语音助手SIMO从一开始主打的就是全端侧，完全运行在本地让它非常的稳定，由于不需要访问网络所以即使在断网的环境下它都可以拥有700毫秒以内的响应速度。

　　要做到这一点，即使是8295芯片都是不够用的。百度将整个语音交互系统运行在NPU上，并解决了自相关建模的内存爆炸和计算爆炸问题，才让SIMO的离线运行成为可能。

　　在多音区的识别方面，百度利用使用多合一技术，将车内外的语音合并成一路，然后通过大模型进行识别。而现有的处理模式是在四个位置产生四路信号进行四路语音识别。相比之下合成一路不仅处理上更高效，资源占用更少，而且未来更方便适配更多座位的车型。

　　百度语音正在利用大模型探索车内视觉和语音的融合交互。他们对乘客的嘴唇动作进行采集，然后通过大模型对动作序列提取特征，然后和语音一起建模，同时通过判断用户的位置来提升定向拾音的效果。在一系列的优化下，最终把语音识别在开窗、多人、轻声或高噪音的复杂场景下的表现，从错误率90%一转成为正确率90%。

　　AI不是噱头，但也不是魔法

　　百度AI为极越各项功能的提升起到了很大的作用，从这一点来说，大模型上车当然不是噱头。但同样，大模型并不是万试万灵的银弹，它只是一个工具，在选择对的领域时，才能成为效率的倍增器。

　　最近几年AI的发展过程，是从机器学习到深度学习，深度学习到神经网络，神经网络中又找到Transformer架构，在用Transformer架构处理自然语言的过程中，生成式预训练模型（GPT）最终脱颖而出。所以各种GPT其实最擅长处理的还是自然语言的理解问题，这也是大模型上车最开始用来语音助手回答提问的原因。

　　百度原生AI的支持就是极越这款汽车机器人与其他智能汽车在底层的能力区别。真正想玩转大模型，首先需要的就是成千上万张显卡的算力，而百度目前为极越自动驾驶相关提供的整个资源池大概拥有 2.2EFlops（1E是一百万T）的GPU算力，并且上不封顶。

　　而且从AI大模型的使用上可以看出，百度AI对于极越的加持是全方位的，在多个环节用大模型加强对自然语言的理解。即便同样是用于加强语音助手，其他车企可能是做个语音对话的插件来对接上GPT。而百度语音除了在内容上对接了文心一言，在车内视觉采集和语音采集这种底层功能上也利用大模型进行了优化。显然百度在AI领域的多年技术积累，对AI的理解比普通车企要深入得多。

　　相信这次AI Day中所展示的百度AI在各个方面对极越汽车的加持，会对其他车企在对AI的使用上有所启发。相信中国的企业对于好的技术的接受和普及速度，也非常期待中国汽车能利用AI技术加速智能化的进程。

　　或许在将来不远的一天，极越真的开启了汽车机器人时代。

(责编：朱奕玮)