理想VLA大模型上线，听懂人话，司机体验大升级-有驾

最近，理想汽车的新车i8上市后又调整了配置和价格，这番操作在网上引起了不少讨论，大家对它的外形、定价还有那个小桌板的设计，看法五花八门，说什么的都有。

不过，在这些热闹的争论背后，很多人可能忽略了一件更重要的事情，那就是理想汽车同步推出的一个新技术——VLA司机大模型。

这可不是什么选装配置，而是会陆续更新到所有装备了AD Max智能驾驶系统的理想汽车上，不管是新平台还是老平台，也就是说，一大批理想车主都能体验到这个新东西。

那么，这个听起来有点复杂的VLA到底是什么？

它真的能让汽车变得更聪明，甚至能听懂我们平时说话的弦外之音吗？

要说清楚VLA，我们得先回头看看理想这几年在智能驾驶上走过的路。

很多人觉得，理想一年一个新概念，前年叫BEV，去年是端到端加VLM，今年又来了个VLA，这些英文缩写搞得人头都大了，感觉像是在准备一场科技领域的考试。

但实际上，这并不是东一榔头西一棒子地乱换方向，而是一条清晰的、一步一个脚印的升级路线。

咱们用大白话来解释一下。

最早的BEV技术，你可以把它想象成给汽车装上了一双“天眼”。

在它出现之前，车上的摄像头各看各的，就像人有好几只眼睛，但大脑没法把它们看到的画面拼成一幅完整的图像。

BEV技术就是把所有摄像头采集到的信息，整合处理成一个从天上往下看的、完整的鸟瞰图。

这样一来，车子对自己周围的环境就有了一个全局的、无死角的认知，这是智能驾驶能变得好用的第一步，解决了“看全”的问题。

到了去年，技术升级到了“端到端加VLM”。

这个阶段，理想的创始人李想自己打过一个很形象的比方，叫“猴子开车”。

这是什么意思呢？

“端到端”指的是，人工智能通过观看海量的人类司机开车视频来学习，它看到某种路况，就模仿人类司机的操作。

它能直接从“看见”跳到“行动”，驾驶能力确实提升了一大截。

而VLM是视觉语言模型，让车子能认识你指给它看的东西。

这两套系统结合，车子变得更聪明了，但它的本质还是模仿，它并不知道为什么要这么开，缺乏深层次的逻辑思考。

就像一只聪明的猴子，它能学会开车的动作，但它理解不了交通规则背后的逻辑，也无法应对千变万化的突发状况。

现在，今年的VLA就登场了。

它的全称是Vision-Language-Action，也就是视觉、语言、行动三个词的结合。

如果说之前的技术是给汽车配齐了眼睛和手脚，那么VLA就是给它装上了一个真正会思考的“大脑”，把看、说、做这三件事彻底打通了。

它不再是靠模仿来开车，而是进入了“强化学习”的阶段，这意味着它不仅会模仿，更重要的是会思考、会推理。

它解决了过去那种模仿学习没有深度逻辑思维能力的短板，让车子的智能驾驶水平，从模仿秀的冠军，开始朝着人类顶尖职业司机的水平去努力。

这个会思考的“大脑”具体体现在哪些方面呢？

首先，它在开车的时候会把自己的“想法”告诉你。

在使用VLA智能驾驶时，你会发现中控屏幕上会显示出它的决策过程，这在技术上被称为“思维链”。

比如在一个复杂的十字路口，它可能会显示：“检测到前方路口有行人和车辆混行，左侧有电动车，我将先减速观察，等电动车通过后再进行左转。”理想的工程师说，其实就算不显示这些，模型也能做出正确的决策，但他们选择把这个思考过程展示出来，目的就是为了和驾驶者建立一种沟通和信任。

这样一来，你就不再是面对一个冷冰冰的机器，而是一个能和你交流、让你了解它意图的伙伴。

其次，它对我们说话的理解能力确实有了质的飞跃。

以前我们对车下达语音指令，大多是“打开空调”、“播放某首歌”这样格式化的命令。

现在，你可以用更生活化的语言和它交流。

在实际体验中，有一个场景让人印象深刻：当车辆自动靠边停好后，如果你觉得位置不太理想，可以直接说：“再往前开个二十米。” VLA不仅能准确理解“二十米”这个距离概念，还能平稳地执行操作。

更有意思的是，有时候人眼对距离的判断反而不如机器精准。

当时就有人想让车往前挪三十米，结果VLA判断出那个位置其实已经被别的车占了，这就体现了它的精准感知和判断能力。

还有一个更典型的例子，你可以直接说：“在前面那辆蓝色车的前面停一下。”这个指令听起来简单，但对机器来说却很复杂。

它需要先通过摄像头找到“蓝色车”，然后理解“前面”这个空间方位，最后再执行“停车”这个动作。

这个过程完美地体现了视觉、语言和行动的结合。

再者，它还具备了记忆能力。

你可以告诉它：“以后走这条路的时候，就按每小时70公里的速度开。”系统就会记住你的这个驾驶偏好。

当然，马上就有人会问，如果这条路很长，中间有不同的限速路段怎么办？

这一点不用担心，VLA的首要原则永远是安全和合规。

它会在遵守交通规则的前提下，尽量满足你的个性化需求，就像一个既贴心又守规矩的私人司机。

为了防止车里其他人，比如后排的乘客乱下指令干扰驾驶，理想还通过声音定位技术，让车子只听主驾驶位发出的驾驶相关命令，这个细节考虑得非常周全。

那么，理想为什么能率先做出这样的技术呢？

这背后离不开四样东西：海量的数据、先进的算法、强大的算力和高效的工程能力。

截至上个月，理想车主们的实际行驶数据已经累计超过了12亿公里，这些来自中国复杂多变路况的真实数据，是训练人工智能模型最宝贵的养料。

除了真实数据，理想还建立了一个庞大的虚拟仿真世界，可以在里面模拟出成千上万种极端和罕见的驾驶场景，让AI在虚拟世界里不断练习、快速成长。

这一切都需要巨大的计算能力来支撑，而理想恰好具备了这样的算力基础。

更值得一提的是他们的效率。

数据显示，在2023年，理想做自动驾驶测试的成本是每公里18.4元；到了去年，这个成本就降到了4.84元；而今年上半年，更是进一步压缩到了每公里0.53元。

成本大幅下降的同时，测试效率却在飞速提升，仅今年上半年，仿真测试的里程就超过了4000万公里，是去年全年的八倍。

这种惊人的效率，是中国汽车工业在智能化领域强大实力的一个缩影。

当然，现在的VLA司机大模型还远没有达到能让你在后排安心睡觉的完美程度，但它已经初步具备了思考的能力，这标志着智能驾驶正在进入一个由人工智能驱动的全新时代。

虽然通往终点的路还很长，但VLA的出现，无疑让那个科幻电影里的未来，变得更加清晰和触手可及了。

理想VLA大模型上线，听懂人话，司机体验大升级

全部评论（0）

热门推荐

理想VLA大模型上线，听懂人话，司机体验大升级

全部评论 （0）

热门推荐

全部评论（0）