特斯拉与谷歌智能对抗:自动驾驶四派争雄,未来发展存重大分歧

前言

这几年,自动驾驶的发展步伐明显加快。谷歌旗下的Waymo在美国的几个城市扩展了无人出租车的规模,走得越来越踏实;而百度的Apollo在国内市场也交出了一份相当优秀的成绩。

别以为无人车多了上路,行业里的技术争论可一点没减。

从车“怎么看世界”的传感器选用,到“怎么思考”的算法架构,再到关键的AI决策模型,特斯拉和谷歌带头的几大流派各有自己的坚持,这些不同的观点,直接关系到自动驾驶未来要朝哪个方向发展。

特斯拉与谷歌智能对抗:自动驾驶四派争雄,未来发展存重大分歧-有驾

无人车上路了,技术就成熟了?

这几年,街上无人车越来越多,挺热闹的,许多人都觉得自动驾驶技术已经没啥问题了。实际上,里面的学问大得很,各家企业争得面红耳赤,很多关键问题还没统一看法呢。

跟大家说个硬核的数据吧,到2025年5月,谷歌的Waymo在美国的旧金山、洛杉矶这些大城市,已经运营着1500辆自动驾驶出租车了,每周的付费行程就超过25万次呢。

咱们国内的百度Apollo也挺牛,全球范围内布置了超过1000辆无人驾驶车,已经接到超过1100万次的出行订单,安全行驶的里程数也超过了1.7亿公里。

这些数据确实挺抢眼的,不过也不能就以为技术就那么完美啦。

特斯拉与谷歌智能对抗:自动驾驶四派争雄,未来发展存重大分歧-有驾

就拿“怎样让车能看到这个世界”这一话题来说,现如今已经演变成两大阵营不停争辩的局面。

有一派人觉得特斯拉带头的“纯视觉”方案挺不错,认为像人一样用几台摄像头就能搞定,挺简单。而另一派则偏爱以Waymo为代表的“多传感器融合”,坚持非得加上激光雷达这些玩意不可,觉得那样更靠谱。

早在2004年,美国就在沙漠里举办了一场自动驾驶比赛,那会儿卡内基梅隆、斯坦福这些知名高校的团队,靠激光雷达赢了比赛。之后,Waymo也就沿着这条路走了下去。

特斯拉与谷歌智能对抗:自动驾驶四派争雄,未来发展存重大分歧-有驾

激光雷达确实太昂贵了,早期一套要价7.5万美元,比整辆车还贵,根本没法大范围推广。

直到2014年,特斯拉推出Autopilot系统时,选择了全靠视觉的方法,到了2016年,马斯克更是直接喊话:“激光雷达没啥用。”

他们装了8个摄像头,模仿人眼的视野,用算法把平面的2D图像拼出立体的3D环境,这样做成本实惠,还能大规模量产,还能通过卖车收集数据,反过来用来改进算法。

特斯拉与谷歌智能对抗:自动驾驶四派争雄,未来发展存重大分歧-有驾

不过呢,这玩意儿也有明显的短板,一到逆光、下雨或者大雾天,摄像头就“看不啥”了,远远比不上激光雷达可靠。

在保障安全这条生命线方面,Waymo、小鹏、蔚来等主要厂商都达成了共识:依靠激光雷达、摄像头等多种传感器组成的融合感知系统,可以为安全提供“双重保障”。

不过呢,这两条路也不是完全对立着走,纯粹靠视觉的开始加入传感器,而多传感器那边也越来越重视视觉算法,慢慢地,两者正朝着融合的方向发展。

特斯拉与谷歌智能对抗:自动驾驶四派争雄,未来发展存重大分歧-有驾

即使是在多传感器融合这块儿,也有人在争论:毫米波雷达才几百块钱,激光雷达之前都得几万,究竟为啥还非得装激光雷达呢?

激光雷达厉在它的3D建模能力,能把周围环境的细节描绘得清楚明了,从行人的动作到路面上的微小障碍都逃不过它的“眼睛”,这也是高级别自动驾驶(L4L5)离不开它的主要原因。

不过,数据显示也有另外一面:出色的准确度,往往是以对天气变化特别敏感为代价。遇到雨雪天的时候,激光束就容易受到严重影响,感应能力也会大大下降。

而4D毫米波雷达不怕天气,能穿透障碍物,但分辨率不高,只能起到辅助作用。所以,现在的豪华车和无人出租车通常会装配激光雷达,而普通经济车则少装几台,搭配着用罢了。

特斯拉与谷歌智能对抗:自动驾驶四派争雄,未来发展存重大分歧-有驾

车的“大脑”和“灵魂”咋选?

把传感器比作车辆的“眼睛”,而算法就像是它的“大脑”。在这个圈子里,支持不同观点的人可是吵得挺激烈的。

以前大家习惯把设计稿成“模块化”,把开车的任务分成感知、预测、规划、控制几环节,每个环节各干各的事,就像流水线一样整齐划一。

这样的做法虽然好理解、调试也方便,但也有弊端,每个环节传递信息的时候都会有所遗失,最后出来的效果反而不佳。

两年前,端到端模型开始火起来,得益于特斯拉的FSDV12,这个思路跟学开车挺像的,新手不用先搞清楚原理,只要看教练怎么操作就跟着学。

特斯拉与谷歌智能对抗:自动驾驶四派争雄,未来发展存重大分歧-有驾

这类模型就像新手司机学开车时模仿教练一样,不会拆解每个操作步骤,而是通过反复看大量真实行车录像,直接建立起路况画面和驾驶动作(比如打方向、踩油门)之间的直觉联系。

因为没有经过中间的信息抽象和传递环节,所以避免了每个模块可能出现的误差逐步堆积,理论上可以达到甚至超过人类驾驶的顺畅程度。这样一来,它的性能极限自然也会更高。

可惜的是,它就像个“黑箱”似的,一出事,根本搞不清哪里出错了,也就没办法去改正。

特斯拉与谷歌智能对抗:自动驾驶四派争雄,未来发展存重大分歧-有驾

现如今业内又想出了个折中的招儿,叫“显示端到端”,就是留点中间数据,试图在高兴能和高透明度之间找个平衡点。

比起“大脑”来说,更重要的,其实是车子的“灵魂”。到底应该让AI担任“思考者”还是“执行者”,就分出了VLM和VLA两派。

VLM,也就是视觉语言模型,像Waymo这些大公司都偏爱它。大家觉得AI虽然强大,但不能让它乱搞决策,要让它专注于理解和推理,最后的决策权还是交给那些经过多年验证的传统模块。这样一来,整个流程更可控,出错时也能更容易查明原因。

特斯拉与谷歌智能对抗:自动驾驶四派争雄,未来发展存重大分歧-有驾

比方说看到个东西,VLM识别出是“被风吹的塑料袋”,接着规划模块就会决定“不用急踩刹车,慢慢走就行”,责任明确得很。

VLA是个视觉、语言和动作结合的模型,像特斯拉、吉利、理想都在试探。它们觉得只要模型足够大,数据丰富,AI就能自己掌握所有的驾驶技术,最终比人还牛。

不过,它的“黑箱”问题更闹心,比如会突然紧急刹车,搞不清楚到底是把影子当成坑了,还是模仿了个别坏司机的习惯,这样不太符合汽车的安全规范。

而且,它所需的训练资料特别贵,要把8个摄像头拍的视频和同步的驾驶操作一一对应,这样的数据又少又难找。相比之下,VLM不一样,它先利用互联网上的“图像-文本”资料进行预训练,然后再用驾驶数据进行微调,花费少得多。

特斯拉与谷歌智能对抗:自动驾驶四派争雄,未来发展存重大分歧-有驾

结语

归根结底,自动驾驶这些年各种流派之间的争论,从来都不是谁把谁彻底击败了,而是在不断争吵中,慢慢地融合转变成一起的。

激光雷达配合视觉,实现了多模态感知,模块化设计也借鉴了端到端的优势,而大模型依然在为各个系统注入“智慧”。

过去让咱们犯难的那些难题,表面看似没有固定答案,其实都在推动技术不断向前发展。

不管是哪条路走到头,最终还是得让“安全又实惠”成定局,否则再牛的技术,老百姓用不了、敢不敢用,那也就没啥用。

0

全部评论 (0)

暂无评论