如果你把自己放在一个腾着热气的测试车后排,窗外一阵小雨刚过,路口支起了施工围栏。驾驶席的工程师手指在屏幕上飞快地划动,“WEWA,准备跑一组难例。”你盯着中控屏,前方模拟了一地井盖、两名路人和一只落单的小狗。车子没有迟疑,避障、减速,步步生花——仿佛是个对“稀有事件”了然于心的老司机。
工程师关掉自动驾驶,笑着问你:“如果坐在这车里,面对突如其来的复杂场景,你更信仰‘原生行为’的机器,还是更相信以‘语言逻辑’推断的算法?”现实里,没有绝对的答案,但谁都不想被当成一块布片,被显卡分拆到百万份之后,渲染得连毛边都认不清。
WEWA与VLA——这两套自动驾驶哲学的暗战,像极了你在案件分析里遇到的“行为直觉派”和“逻辑解释派”。理想、小鹏这些厂商搭上VLA,华为选择WEWA,都有自己的根据。证据链是这样的:一方重在仿真与生成,一方可靠真实路测数据。谁都无法一锤定音地指认哪种更适合中国复杂道路,但都在用自己的方式,紧张地逼近“智驾难例”这个临界线。以我职业惯常的旁观姿态来看,这像是不同侦查方法之间的较量——有人信仰案件复现与模拟,有人坚持用实地勘查走遍每根毛发。
再把视线拉回华为的WEWA架构。有意思的是,它两只脚都踏在技术与幻想之间。一头是云端的World Engine,用扩散生成模型制造各种稀有难例。前车急刹,行人横穿,淹水、隧道失效——有点像犯罪现场还原工具,能把罕见“意外”事情数据结构化地呈现给机器。6亿公里的高速L3仿真联测,这种量级让我想到一些老前辈手中的卷宗,不看完三天三夜都不敢在案情会议上开口。
另一端则是车内的World Action Model,面对全模态数据,直接给出“反应”。摄像头、雷达、激光、麦克风——多模态比喻成法医手里的证据盒,各种维度都要搜集到位。配合MoE(多专家能力)机制,在不同场景下调出“最合适”的专家决策,像是遇到什么案件就找对口的专业人士,节省了“信息翻译”环节,也躲开了模型理解难度飙升的陷阱。
另一边的VLA路线,则像是在把案件细节写进一部自问自答的长篇小说。仰仗大规模真实行车数据,让系统在语言化的世界模型里闭环强化、学习解释与决策。理想号称复刻99%的中国路况,心态很“考古”,积雨淹路算长尾,路口临界态再加一层疑难。厂商们坦承,极端场景模拟再厉害,也不如路上跑一圈来得直接。如果你把自动驾驶当成一个“会讲故事的侦探”,VLA就是先让他学会描述世界,再指导他如何拆解每个细节。
这些分歧也渗透到了硬件平台。VLA模型参数动辄十亿级别,全仰赖英伟达Thor、图灵等算力猛兽帮忙并行处理。WEWA的WA模型则更偏向把视觉等信息直接输入控车,避免精度损失和信息转换延迟。说白了,一个依赖“脑力和肌肉”,一个追求“低时延直觉反射”。道理谁都明白,但谁也不敢说哪种路径就一定比另一种高级。毕竟自动驾驶还远没到“只认一个刑侦手法”的时候。
体验是最终裁判。这世界里,技术指标你可以自夸,路面反馈却不会说谎。华为ADS4用WEWA避障井盖、提前减速,演示得像是有“超人”在辅助。这活做得漂亮,但小鹏的VLA也不差:鬼探头、遮挡盲区、积水淹路,全场景预判,“类人反应”说着不着边际,用起来才见真章。你看这场景,像不像老法医拿着不同型号的高倍显微镜,用各自的视角去还原案发过程?话说回来,案子没验完前没人敢豪言一句“就认准这一款”。
业界头头曹旭东的话也透着点法医式的理性:“VLA是锦上添花,提升要靠海量真实数据,一层层强化学习去补短。模型的上限、安全的界限,都要用失败与奖励的大锅慢慢熬出来。”用我的行话讲,就是光靠理论、模拟,再炫也只是招式。路上遇到个大爷逆行、自行车鬼探头,机器有没有真本事,一辆车就是一道“死活分”。
事后分析,这几条技术路线未必是非此即彼。仿真和真实路测,在案件侦破里其实是互为补充的手段。模拟能让你提前假设各种“倒霉场景”,实车运行能把那些数字化纸上谈兵踩回事实层面。技术人也一样,调侃几句“Talk is cheap”,谁都有自己的算法信仰,最后都得拿实地案件说话。
说得再多,算法迭代再快,这究竟是对“智驾方法论”的一次突破,还是一场硬件、数据与仿真实验的轮回?没人能拍胸脯,帮你锁定绝对答案。困在路口,避免下水道井盖——最后选择相信哪条自动驾驶路线,是靠直觉、还是靠数据、还是靠硬件?如果自动驾驶终将成为城市里的普遍现场,每个人,都不可避免要在这些技术分歧中,找到自己心中的“安全定义”。
那么,你会更信哪一种智驾架构?——那种靠“世界模型”复刻几乎所有中国路况的追求,还是那种用“扩散生成”模型把长尾事件提前全做出来的心思?或者你其实只想像我一样,坐在后排,对着雨后的马路和每一个井盖,冷静地问一句:谁能把我安全送达,下次遇到“难例”还管不管用?
本新闻旨在弘扬社会正气,如发现表述不当或侵权情况,请及时反馈,我们将认真核实并处理。
全部评论 (0)