端到端,还在卷什么?
近日,特斯拉发布了其“完全自动驾驶”软件的最新版本FSDV13.2并完成首批交付,此次更新新增停车启动、自动换挡、目的地自动泊车等功能,特斯拉自动驾驶工程师Arek Sredzki指出,该系统的端到端网络现在允许车辆将乘客从一个停车位运送到另一个停车位 (P2P)。
特斯拉FSD的每一次重大更新,都引得各大智驾玩家第一时间的关注,一如2024年年初,特斯拉推送FSD V12的测试版本,将城市街道驾驶的软件栈升级为单一的端到端神经网络。这一变化带来的“风暴”,在远隔重洋的中国,同样掀起一股端到端的技术热潮。
目前,一些致力于在自动驾驶领域取得领先地位的车企和智驾供应商,已经开始将端到端技术放在其宣传的C位。
不出意外的是,对于“智驾第一梯队”这一名头,各大玩家抱有极大的兴趣。就在2024年,涌现了一批号称进入第一梯队的车企或智驾供应商,无论其技术和产品能力有多花哨,端到端都成为其中必不可少的一个关键词。
端到端究竟有怎样的“魔力”,而又有怎样的猫腻呢?
端到端的路径差异
端到端与传统自动驾驶算法的主要差别在于系统架构和数据处理方式。传统自动驾驶算法通常采用模块化部署策略,将感知、预测、规划和控制等功能划分为独立的模块,每个模块独立处理特定任务,信息逐级传递并可能被过滤或抽象,这种方式虽然结构清晰但存在误差累积和信息丢失的问题。
而端到端架构则将整个驾驶过程视为一个整体,通过一个统一的神经网络模型直接从输入的传感器数据(如图像、雷达信号等)映射到输出的车辆控制指令,简化了系统结构,减少了信息传递过程中的误差,提高了系统的整体性和稳定性。
相较而言,端到端算法更侧重于数据驱动,通过大规模数据集的训练来优化模型性能,而传统算法则更依赖于规则和有限的场景数据。
用一种比较通俗的说法,传统的自动驾驶算法就像是分步骤做蛋糕,每一步都有专门的厨师负责,比如一个人负责打蛋,一个人负责加糖,另一个人负责搅拌,最后再由一个人来烤制。
在这种模式下,每个厨师都要把自己的工作做到最好,但过程僵化,他们之间可能不太知道其他人在做什么,信息传递可能出现偏差,有时候前面的厨师出了点小错,后面的厨师可能没法及时发现和调整,也浪费了时间。
而端到端则像是有一个特级大厨,他能够从准备原料开始,一直到蛋糕出炉,都亲自掌控。这个大厨不需要别人告诉他每一步该怎么做,他自己就能根据整个蛋糕的最终样子来决定现在应该做什么。这样一来,他就能更好地协调整个过程,减少错误,并且能快速学习升级调整,做出更符合要求的“食物”。
按照朴素的想法来看,既然已经切换到端到端的技术竞争,那就从感知到决策规划一步到位,而在实践的过程中,行业已经出现了所谓的one model一体化端到端和分段式端到端的路径选择差异。
一段式方案从感知到预测规划无缝衔接,确保信息的完整传递,避免了多段式方案中可能出现的信息丢失问题。并且由于所有处理步骤集成在一个模型中,系统的整体响应速度可能会更快,这对于实时性要求极高的自动驾驶场景尤为重要。但一旦中间出现问题,整个系统就像一个“黑匣子”,难以进行精确调试。所有的处理步骤都紧密耦合在一起,使得问题的定位和解决变得更加复杂。
而“分段式端到端”,或叫“模块化端到端”,通常将自动驾驶系统的感知和决策规划两个模块分开,并在中间嵌入人工接口,以实现更灵活和可扩展的系统设计,但仍然保持端到端的整体性。值得注意的是,无论是分段式端到端还是一体式端到端方案,都实现了从基于规则的优化向数据驱动的拟合的转变。这一转变使自动驾驶系统从依赖机械规则开发代码的模式,进化到了基于神经网络的经验直觉模式。
但在一些观点看来,分段式端到端的上限会更低。商汤绝影CEO、商汤科技联合创始人、首席科学家王晓刚更曾直言:“‘两段式’方案就算再做10年,也成不了自动驾驶的‘ChatGPT’。”
前不久,黑芝麻智能公布其端到端算法参考模型,黑芝麻智能也指出:“现阶段量产的端到端系统,相当一部分采用了分段式架构,即将端到端系统分成几个不同的模块级联而成。虽然这些模块也使用AI模型进行工作,但各模块之间仍存在人为定义的接口来传输数据,这就必然导致有一定的信息损失,加上不同模块经常采用独立训练的模式,其效果并非全局最优。”
黑芝麻智能的端到端智驾系统,采用了One Model的架构。一端可输入摄像头、激光雷达、4D毫米波雷达、导航地图等信息,另一端直接输出驾驶决策所需要的信息,即本车的预期轨迹。
目前,大部分行业人士认为,一段式端到端开发难度较大,但一旦模型训练完成,能力会非常强大,能够全面理解和应对复杂场景。而分段式端到端,技术复杂度相对较低,更容易逐步推进和实现,也有可能适合当前技术水平和资源条件。
就实际部署状况来看,声称已部署或即将部署一段式端到端的车企和供应商包括Momenta、智己、广汽丰田、理想、商汤科技、元戎启行等,两段式的代表则有小鹏、极氪,以及华为鸿蒙系等玩家。
今年10月,智己宣布携手Momenta,联合打造“一段式端到端直觉智驾大模型”,此“一段式端到端直觉式智驾大模型”,基于“长短期记忆模式”独特架构打造,据介绍其能将模型训练成本节省10-100倍,同时大幅提升迭代速度。
据Momenta CEO曹旭东透露,Momenta在去年已经实现了两段式端到端,感知的端到端和规控的端到端,今年上半年又实现了一段式端到端。
博世智能驾控中国区总裁吴永桥告诉盖世汽车,从两段式端到端逐步过渡到一段式端到端,最终实现世界模型的应用,这一路线图逐渐成为业内共识。能够按照这一路线顺利发展下去的关键在于资金支持和长期战略定力。
据吴永桥判断,到明年,在国内应该只有1-2家企业能够实现一段式端到端。
从VLM到VLA
为进一步提升端到端系统决策的准确性和灵活性,目前,行业里流行的做法是端到端+VLM架构。
因为驾驶时需要多模态的感知交互系统,用户的视觉、听觉以及周围环境的变化,甚至个人情感的波动,都与驾驶行为密切相关,所以端到端+VLM的技术架构中,端到端系统负责处理感知、决策和执行的全过程,而VLM则作为辅助系统,提供对复杂交通场景的理解和语义解析。
这种架构下,两个模型相对独立工作,VLM主要在特定情况下为端到端系统提供建议或补充信息。
以理想端到端与VLM相结合的双系统架构方案为例,其基于丹尼尔·卡尼曼(Daniel Kahneman)在《思考,快与慢》中提出的人类两套思维系统理论,将端到端系统(相当于系统1)与VLM视觉语言模型(相当于系统2)融合应用于自动驾驶技术方案中,旨在赋予车端模型更高的性能上限和发展潜力。
其中,系统1,即端到端模型,是一种直觉式、快速反应的机制,它直接从传感器输入(如摄像头和激光雷达数据)映射到行驶轨迹输出,无需中间过程,是One Model一体化的模型。系统2,则是由一个22亿参数的VLM视觉语言大模型实现,它的输出给到系统1综合形成最终的驾驶决策。
理想方面表示,VLM整体的算法架构由一个统一的Transformel模型组成,将提示词(Prompt)文本进行Tokenizer编码,然后将前视120度和30度相机的图像以及导航地图信息进行视觉信息编码,通过图文对齐模块进行模态对齐,统一交给Transformer模型进行自回归推理。
与此同时,许多观点认为端到端+VLA是端到端+VLM的下一个阶段。端到端+VLA的技术架构将端到端系统与多模态大模型更彻底地结合,形成一个统一的模型框架。在这种架构下,多模态大模型不仅包含视觉和语言处理能力,还融入了动作控制,使得整个系统能够更全面地理解和响应复杂的驾驶环境。
元戎启行CEO周光告诉盖世汽车,VLM可以想象成一个新手司机在开车,旁边有个教练通过语言不断指导他如何驾驶,比如“左转”、“减速”等。这就像当前的端到端1.0版本,虽然比完全由新手独自驾驶更安全一些,但并不是最佳方案。
而VLA则相当于让教练亲自来开车,显然这种方式比学员跟着教练学要更加高效和安全。简而言之,从VLM到VLA的进步就像是从有人指导的初学者变成了经验丰富的老手直接操作,后者相对更为先进且可靠。
“VLM到VLA最大的不同可能在于推理能力,尤其是在时间层面的推理。例如,基于规则的系统可能只有1秒的推理能力,端到端1.0可能有7秒,而VLA则能达到几十秒的推理能力。”周光说到。据悉,元戎启行将基于英伟达Thor芯片进行VLA模型的研发,模型预计将于2025年正式推出。
不过,开发端到端+VLA模型显然更需要大量的资源投入,包括算法研发、数据收集与处理、模型训练等,这会增加企业的研发成本。现在许多企业采取逐步推进的策略,先在现有技术上进行优化和完善,再决定是否逐步引入新的技术元素。
理想汽车智能驾驶技术规划高级总监文治宇透露:“目前我们的研发团队和数据团队在做相关的尝试,是不是有可能帮助解决一些智能驾驶的问题。关于这个方向我们后续也会持续跟进,也期待未来几年行业能够一起取得的进展。”
数据发生器:世界模型
尽管切换到端到端带来的好处行业是普遍认可的,但是由此带来的挑战也是显而易见的。其中首要的是对数据要求的高涨。商汤绝影指出,端到端智驾模型对于高质量数据的需求呈指数级的增长。然而,受限于高阶智驾的量产规模、算力资源,目前大多数车企和智驾公司都面临相同的问题,即高质量驾驶数据的获取难度大、效率低、成本高。
王晓刚说到:“智驾高端局的竞争不止是车端模型的比拼,端到端的决战,战场在云端。”为此,商汤绝影在前不久升级发布了“开悟”世界模型。
据介绍,“开悟”世界模型,可以满足端到端模型训练和仿真对于数据质量的高要求。可以支持多样化的自动驾驶场景及Corner case的可控生成。在真实的基础上,开悟生成的场景视频,时间最长为150秒、分辨率可达1080P、视角可以实现11V。
在这种情况下,世界模型在自动驾驶算法的开发体系中更多以数据生成器的角色存在。
今年的NIO IN 2024蔚来创新科技日上,蔚来也发布了其智能驾驶世界模型——NWM。该模型是一个具有全量理解数据、长时序推演和决策能力的智能驾驶世界模型。它能够在100毫秒内推演出216种可能发生的场景,并寻找到最优决策。
理想也在运用云端世界模型对其快慢双系统进行能力的训练和考试,从而使这套系统能够快速迭代。
而在去年的计算机领域的国际顶级会议 CVPR 上,特斯拉 AI负责人Ashok Elluswamy早已明确提到,特斯拉正在试图构建一个更加通用的世界模型,它能够预测未来,能够帮助神经网络自主学习,能够像一个神经网络模拟器发挥作用,甚至能够以AI的方式生成3D空间。
Ashok Elluswamy强调,特斯拉之所以能够构建上述基础大模型,主要得益于特斯拉拥有庞大的数据体量和强大的算力基础。
值得注意的是,端到端对算力的要求可能并没有想象的那般庞大,周光指出,端到端跟VLA的算力要求没有语言大模型那么大,因为它们本身是要部署到端侧的AI。“今天我们讲的车端的端到端+VLA跟真正的大语言模型比起来,只是个小网络。”周光说到。
尽管并非所有企业都有特斯拉一般的数据和算力规模,但并没有打消诸多玩家的竞争积极性,周光坦言:“算力、车队数量、数据等对系统能力的提升很关键,但前提是算法足够优秀,关键点还是企业的模型能力。”
端到端的研发推进固然困难重重,诸多企业也正在拿出自家的拿手好戏寻求解决方案,至于对于大模型可解释性方面的顾虑,似乎已经愈发消减。与能够显著提升的性能相比,可解释性成为一个次要考量因素,而且,目前各家实行的端到端方案,基本上都有兜底规则进行安全冗余。
奇瑞汽车副总经理&大卓智能CEO谷俊丽表示:“我们面临的是越来越大的AI模型,它需要庞大的数据和算力支持,所有核心研发的能力将变成三大要素:数据、云计算以及顶级AI科学家。其他则是围绕量产体系的构建,更重要的是产品定义的能力。”
今年奇瑞全球创新大会上推出的智驾大模型,也是通过云端世界模型生成丰富场景,形成感知大模型加规划大模型模拟人脑行为决策,预计将实现两段式端到端方案量产上车:2025年进一步整合感知大模型和规划大模型实现一段式端到端大模型量产上车;到2027年实现基于VLA多模态大模型量产。
可以预见的是,端到端的落地或将促进其依赖的上游工具链和芯片等技术的加速发展,以及进一步提升了数据和AI人才的重要性,可能会催生新的产业分工和商业模式。
至于端到端是否就是自动驾驶的终极方案,行业众说纷纭。王晓刚也曾对盖世汽车说到:“端到端技术并非终点,未来还有通用人工智能、多模态等新技术不断涌现和突破。”
这一轮端到端的技术竞争,无论是卷数据、卷算法、卷人才,或许只是为了在愈发猛烈的淘汰赛中,卷出一个未来。
(本文来自于盖世汽车Gasgoo)
更多汽车资讯,涨知识赢好礼扫描二维码关注(auto_sina)