为智驾系统注入“直觉”，智己汽车智驾技术后来居上

10-31 18:29

包括特斯拉老板埃隆•马斯克等在内的自动驾驶技术鼓吹者一直在向大众灌输一种观点：机器驾驶比人类驾驶更安全，效率也更高。但以自动驾驶目前所具备的能力和它的前一阶段辅助驾驶的体验来看，很多驾驶者并不能认同这种观点。实际上，很多辅助驾驶的表现恰好相反：比人类驾驶更不安全，效率也更低。

汽车行业的专业人士普遍相信，所谓的“类人”或者“拟人”阶段是自动驾驶技术进入无人驾驶之前的必经阶段，也是当前的辅助驾驶系统是否足够成熟且好用的重要标志。但如何快速跨越这个阶段？并且不断改善这个阶段的用户体验，从而建立用户对自动驾驶技术的信任并愿意期待一个真正无人驾驶时代的到来呢？

此外，自动驾驶已经成为车企竞争的最新领域，为了让用户理解和接受自动驾驶技术，同时，更好的传播自身技术比竞争对手的领先之处，车企要被迫想出各种办法。

10月28日，智己汽车为它的智驾技术创造了一个新概念“直觉智驾”。该公司与它的智驾合作伙伴Momenta公司在上海宣布其IM AD 3.0智驾系统率先完成从“最像人”到“有直觉”的进化，将人工智能生成的“直觉”注入智驾系统，从而迈入“直觉”智驾时代。智己汽车同时宣布，基于双方联合打造的“一段式端到端直觉式智驾大模型”，它成为行业内首个同时具备L2、L3、L4级智能驾驶量产能力的品牌。

在智驾领域，智己汽车发力比较晚，但进展很快。2023年4月智己的高速NOA开始落地，一年半之后已在全国范围内开通全系车型“无图城市NOA”。而且，它的智驾系统采用了最新的端到端大模型，这些都是行业内智驾第一梯队车企能够达到的最新能力和采用的最新技术。因此，可以说智己汽车在智驾领域是后来居上。在消费者对高阶智驾的接受度越来越高的背景下，这有助于促进智己汽车的销量增长。

何谓“直觉智驾”？

智己汽车发明的“直觉智驾”是个新名词，对于一个充斥着各种专业术语的领域，比较形象的说法有助于用户理解其智能驾驶技术的特点和与其他竞争对手相比的差异性，但这种形象的说法是否能够非常准确的反映它背后的技术以及两者之间的相关性至关重要，否则就不能达到想要的效果，反而会增加用户的困惑。

那么，所谓“直觉智驾”？首先要看什么是“直觉”。智己汽车联席CEO刘涛援引诺贝尔奖得主、心理学家丹尼尔•卡尼曼的研究指出，人类大脑有两个系统，系统一是“直觉推理”，系统二是“逻辑分析”。其中，“直觉”是一种快速自发响应，也是非线性的，而且要依赖丰富的经验积累。

虽然人类大脑有这两个系统，但通常依赖系统一进行快速、直觉的判断，这种思维方式在我们的生活中占据了大约95%的时间，而逻辑分析只覆盖了其余5%的场景。

由于目前的智能驾驶对“直觉”的使用接近于0，基本上都依靠逻辑分析，因此在有些方面无法做到“类人”的体验。

按照智己汽车和它的智驾合作伙伴Momenta公司的解释，所谓的“直觉智驾”就是要让汽车的智能驾驶辅助系统能够像人脑一样思考，尤其在应对突发状况时，能够“脑补”出看不见、看不全的路况信息，像人类高级思维一样可以做出瞬间预判，既人们通常所说的“直觉”或“下意识反应”；即使在最复杂的交通环境中，都做到真正老司机般“看路开车”的驾驶方式。

例如，在中心城区无图NOA驾驶中，智己的IM AD3.0智驾系统可以丝滑礼让盲区横穿、轻松绕行水坑等障碍物；在面对人车混流的无保护左转场景时，能够像老司机一样老练博弈不傻等；在错综复杂的路口，即使面对无中线、超宽车等看不清的路况，也能从容应对、流畅通行……

再具体一点，比如应对行人横穿马路的场景，“直觉智驾”能够更早的发现横穿的行人，从而更早的制动减速，当横穿行人通过后，车辆也能更早的起步。从而既保证安全，又兼顾效率。而且这个应对过程，更加像人类老司机，也就是说更加“类人”或者“拟人”。

又比如，当车辆即将通过一个路口时，交通灯是绿灯，前方也没有其他车辆，这时候应该是可以正常通过路口的，但右前方的有一辆车突然在斑马线前刹停。如果借助逻辑分析，绿灯并且前方没有障碍物，车辆可能会正常直行通过路口。但“直觉智驾”观察到右前方车辆突然刹停之后，会像经验丰富的人类老司机一样，会先刹车减速，观察一下周围环境，进而再决定是否继续通过路口。在这过程中，系统的反应速度和处理方式都与人类遇到突发状况时的“直觉”反应非常接近。

“直觉”从何而来？

按照智己汽车联席CEO刘涛与Momenta CEO曹旭东的描述，所谓的直觉，由一段式端到端大模型生成。

不同于将感知和规控作为两个独立模块的两段式大模型，智己汽车采用的是一段式端到端大模型，感知和规控是通过一个完整的神经网络来实现的，也就是说输入传感器数据，输出车辆路径规划信息。当遇到未定义或未训练的物体时，一段式端到端大模型可以更好地识别并做出应对，并能够成功绕开障碍物。

特斯拉最先在汽车行业内将端到端大模型应用在智能驾驶领域，并且采用的是一段式的架构，国内很多车企普遍采用的还是将感知和规控分开的两段式架构。行业内一般认为，一段式架构比两段式更先进。刘涛表示，一段式端到端智驾大模型，具备综合分析全局信息的能力，就算是看不清、看不到复杂路口的车道线，也能综合车流、人流轨迹等全局信息，输出行驶轨迹，能像老司机那样“边看边开”。

曹旭东表示，一段式架构把感知、规划两个模型整合成一个大模型，输入传感器原始数据，输出规划路径，如同人类大脑高级思维中的快速直觉般的反应，能让自驾体验更加人性化。

根据智己汽车和Momenta的描述，笔者认为，所谓的“直觉”本质上依然是基于海量数据，对端到端大模型进行训练之后得来的。实际上，即使是人类的“直觉”或者“下意识”也不是凭空产生的，本质上也是长期大脑思维的产物。智己汽车将之命名为“直觉智驾”是一种更加形象、更容易理解的说法。

需要指出的是，与国内很多车企的做法一样，智己的“直觉智驾”也不是只依赖端到端大模型，其系统中也有人工的算法规则作为安全兜底，以解决所谓的端到端大模型的能力上限很高但下限很低的问题。目前尚不清楚为什么端到端大模型的下限特别低，实际上，它本身就是一个黑盒，科学家和工程师并不完全清楚从输入数据到输出指令的中间过程发生了什么，以及是如何发生的。目前也不清楚，如果增加更多数据和训练最终是否能解决下限低的问题。

在此之前，为了安全起见，中国车企普遍在采用端到端大模型的同时，也通过加入一些人工算法，作为兜底的安全规则。

通过以上的介绍，我们可以得出结论，智己汽车和Momenta推出的“直觉智驾”是用一段式端到端大模型的“直觉能力”来突破智驾体验的上限，同时用“安全逻辑网络”作为兜底措施，来实现安全增强。

对于训练端到端大模型需要的海量数据以及对数据的收集和处理能力，据曹旭东介绍，智己汽车和Momenta目前已拥有数亿公里的数据，并且正以指数级的速度在快速增长，到2027年数据积累将超过1000亿公里，从而最大限度解决长尾场景问题。在数据处理的工具链“闭环自动化”能力上，已实现100%数据驱动，算法自动化迭代。

此外，他们也采取“长短期记忆”相结合的模式来训练大模型。“短期记忆D.L.P”提纯“黄金数据”，平均一天迭代一个版本；“长期记忆端到端大模型”周级迭代，形成更可靠的专家级直觉。这也符合人类记忆的形成过程，“外界大量信息数据首先进入短期记忆，经过筛选验证后再进入长期记忆，从而形成习得的能力和经验”。

同时具备L2、L3、L4量产能力

随着“直觉智驾”的推出，智己汽车的智驾能力进一步提升。刘涛表示，智己汽车已经成为行业内率先同时具备L2+、L3和L4级智能驾驶量产能力的品牌。这让它迅速跻身行业第一梯队，也让智驾成为智己品牌一个鲜明的标签。

其中，L2+级高阶辅助驾驶已于本月在全国范围内开通全系车型“无图城市NOA”，使用场景覆盖城市狭窄街道，环岛以及乡村小路等各种道路，做到“全国都好开、全场景都敢开”。而且，智己已经在法国和德国启动针对欧洲市场的L2+道路测试，服务智驾的出海战略，目标是要打造首个“全球都能开”的无图NOA。

L3级自动驾驶已进入量产倒计时。今年6月份，智己入选全国首批“L3准入及路试联合体名单”，预计将于2026年具备L3级自动驾驶方案的量产条件。

L4级无人驾驶方面，预计智己汽车将在今年内获得首批“L4级无驾驶人道路测试牌照”，实现无人驾驶车上路测试。随着L3、L4级自动驾驶相关法律法规的逐步出台，用户将最快享受到全行业最领先的自动驾驶体验。

在当前竞争异常激烈的新能源汽车市场，用户的注意力正在迅速从续航里程、动力性能、充电补能等方面向智能驾驶和智能座舱转移。尤其是智能驾驶，将成为决定胜负成败的差异化用户价值。智己汽车通过与Momenta的合作，快速提升其智驾能力，对于锐化品牌形象、增加产品卖点，以及扩大销量规模都具有积极意义。提高针对普通用户的L2+级高阶智驾的体验解决的是当下的问题，而加速形成L3和L4级自动驾驶能力则对于在未来的竞争中处于领先地位至关重要。