理想VLA大模型上线,听懂人话,司机体验大升级

最近,理想汽车的新车i8上市后又调整了配置和价格,这番操作在网上引起了不少讨论,大家对它的外形、定价还有那个小桌板的设计,看法五花八门,说什么的都有。

不过,在这些热闹的争论背后,很多人可能忽略了一件更重要的事情,那就是理想汽车同步推出的一个新技术——VLA司机大模型。

这可不是什么选装配置,而是会陆续更新到所有装备了AD Max智能驾驶系统的理想汽车上,不管是新平台还是老平台,也就是说,一大批理想车主都能体验到这个新东西。

理想VLA大模型上线,听懂人话,司机体验大升级-有驾

那么,这个听起来有点复杂的VLA到底是什么?

它真的能让汽车变得更聪明,甚至能听懂我们平时说话的弦外之音吗?

要说清楚VLA,我们得先回头看看理想这几年在智能驾驶上走过的路。

很多人觉得,理想一年一个新概念,前年叫BEV,去年是端到端加VLM,今年又来了个VLA,这些英文缩写搞得人头都大了,感觉像是在准备一场科技领域的考试。

但实际上,这并不是东一榔头西一棒子地乱换方向,而是一条清晰的、一步一个脚印的升级路线。

咱们用大白话来解释一下。

最早的BEV技术,你可以把它想象成给汽车装上了一双“天眼”。

理想VLA大模型上线,听懂人话,司机体验大升级-有驾

在它出现之前,车上的摄像头各看各的,就像人有好几只眼睛,但大脑没法把它们看到的画面拼成一幅完整的图像。

BEV技术就是把所有摄像头采集到的信息,整合处理成一个从天上往下看的、完整的鸟瞰图。

这样一来,车子对自己周围的环境就有了一个全局的、无死角的认知,这是智能驾驶能变得好用的第一步,解决了“看全”的问题。

到了去年,技术升级到了“端到端加VLM”。

这个阶段,理想的创始人李想自己打过一个很形象的比方,叫“猴子开车”。

这是什么意思呢?

“端到端”指的是,人工智能通过观看海量的人类司机开车视频来学习,它看到某种路况,就模仿人类司机的操作。

理想VLA大模型上线,听懂人话,司机体验大升级-有驾

它能直接从“看见”跳到“行动”,驾驶能力确实提升了一大截。

而VLM是视觉语言模型,让车子能认识你指给它看的东西。

这两套系统结合,车子变得更聪明了,但它的本质还是模仿,它并不知道为什么要这么开,缺乏深层次的逻辑思考。

就像一只聪明的猴子,它能学会开车的动作,但它理解不了交通规则背后的逻辑,也无法应对千变万化的突发状况。

现在,今年的VLA就登场了。

它的全称是Vision-Language-Action,也就是视觉、语言、行动三个词的结合。

如果说之前的技术是给汽车配齐了眼睛和手脚,那么VLA就是给它装上了一个真正会思考的“大脑”,把看、说、做这三件事彻底打通了。

它不再是靠模仿来开车,而是进入了“强化学习”的阶段,这意味着它不仅会模仿,更重要的是会思考、会推理。

理想VLA大模型上线,听懂人话,司机体验大升级-有驾

它解决了过去那种模仿学习没有深度逻辑思维能力的短板,让车子的智能驾驶水平,从模仿秀的冠军,开始朝着人类顶尖职业司机的水平去努力。

这个会思考的“大脑”具体体现在哪些方面呢?

首先,它在开车的时候会把自己的“想法”告诉你。

在使用VLA智能驾驶时,你会发现中控屏幕上会显示出它的决策过程,这在技术上被称为“思维链”。

比如在一个复杂的十字路口,它可能会显示:“检测到前方路口有行人和车辆混行,左侧有电动车,我将先减速观察,等电动车通过后再进行左转。”理想的工程师说,其实就算不显示这些,模型也能做出正确的决策,但他们选择把这个思考过程展示出来,目的就是为了和驾驶者建立一种沟通和信任。

这样一来,你就不再是面对一个冷冰冰的机器,而是一个能和你交流、让你了解它意图的伙伴。

其次,它对我们说话的理解能力确实有了质的飞跃。

理想VLA大模型上线,听懂人话,司机体验大升级-有驾

以前我们对车下达语音指令,大多是“打开空调”、“播放某首歌”这样格式化的命令。

现在,你可以用更生活化的语言和它交流。

在实际体验中,有一个场景让人印象深刻:当车辆自动靠边停好后,如果你觉得位置不太理想,可以直接说:“再往前开个二十米。” VLA不仅能准确理解“二十米”这个距离概念,还能平稳地执行操作。

更有意思的是,有时候人眼对距离的判断反而不如机器精准。

当时就有人想让车往前挪三十米,结果VLA判断出那个位置其实已经被别的车占了,这就体现了它的精准感知和判断能力。

还有一个更典型的例子,你可以直接说:“在前面那辆蓝色车的前面停一下。”这个指令听起来简单,但对机器来说却很复杂。

它需要先通过摄像头找到“蓝色车”,然后理解“前面”这个空间方位,最后再执行“停车”这个动作。

这个过程完美地体现了视觉、语言和行动的结合。

理想VLA大模型上线,听懂人话,司机体验大升级-有驾

再者,它还具备了记忆能力。

你可以告诉它:“以后走这条路的时候,就按每小时70公里的速度开。”系统就会记住你的这个驾驶偏好。

当然,马上就有人会问,如果这条路很长,中间有不同的限速路段怎么办?

这一点不用担心,VLA的首要原则永远是安全和合规。

它会在遵守交通规则的前提下,尽量满足你的个性化需求,就像一个既贴心又守规矩的私人司机。

为了防止车里其他人,比如后排的乘客乱下指令干扰驾驶,理想还通过声音定位技术,让车子只听主驾驶位发出的驾驶相关命令,这个细节考虑得非常周全。

那么,理想为什么能率先做出这样的技术呢?

理想VLA大模型上线,听懂人话,司机体验大升级-有驾

这背后离不开四样东西:海量的数据、先进的算法、强大的算力和高效的工程能力。

截至上个月,理想车主们的实际行驶数据已经累计超过了12亿公里,这些来自中国复杂多变路况的真实数据,是训练人工智能模型最宝贵的养料。

除了真实数据,理想还建立了一个庞大的虚拟仿真世界,可以在里面模拟出成千上万种极端和罕见的驾驶场景,让AI在虚拟世界里不断练习、快速成长。

这一切都需要巨大的计算能力来支撑,而理想恰好具备了这样的算力基础。

更值得一提的是他们的效率。

数据显示,在2023年,理想做自动驾驶测试的成本是每公里18.4元;到了去年,这个成本就降到了4.84元;而今年上半年,更是进一步压缩到了每公里0.53元。

成本大幅下降的同时,测试效率却在飞速提升,仅今年上半年,仿真测试的里程就超过了4000万公里,是去年全年的八倍。

这种惊人的效率,是中国汽车工业在智能化领域强大实力的一个缩影。

当然,现在的VLA司机大模型还远没有达到能让你在后排安心睡觉的完美程度,但它已经初步具备了思考的能力,这标志着智能驾驶正在进入一个由人工智能驱动的全新时代。

虽然通往终点的路还很长,但VLA的出现,无疑让那个科幻电影里的未来,变得更加清晰和触手可及了。

0

全部评论 (0)

暂无评论