武当休闲山庄 - 稳定,和谐,人性化的中文社区

查看完整版本: [-- 端到端之后，AI 智驾进入“造世界”阶段 --]

武当休闲山庄 -> 数码讨论 -> 端到端之后，AI 智驾进入“造世界”阶段 [打印本页]

登录 -> 注册 -> 回复主题 -> 发表主题

姜谷粉丝

2026-06-08 12:09

图片系 AI 生产
近日，CVPR 2026 在美国丹佛开幕。作为计算机视觉领域最重要的学术会议之一，CVPR 一直被视为 AI 技术演进的风向标。今年，一个明显变化是，AI 的焦点正在从“识别世界”进一步转向“理解世界、预测世界并与世界互动”。
这一趋势在自动驾驶领域表现得尤为直接。今年 CVPR 首次开设具身智能基座模型部署研讨会，特斯拉 AI 软件副总裁 Ashok Elluswamy、小鹏集团通用智能中心负责人刘先明等来自产业一线的技术负责人，分享了各自团队在具身智能和自动驾驶基座模型上的进展。
Ashok Elluswamy 重点讨论的是特斯拉如何构建面向机器人的基座模型，包括大规模多模态模型的架构、数据与训练，以及从像素输入到执行控制的端到端 “pixels-to-actuation” 方法，同时也涉及评测协议、安全考量和真实世界可靠部署。
相比学术概念本身，更值得关注的是车企对 AI 智驾底层能力的重新定义。当模型不再只是识别车辆、行人和车道线，而是直接从视频流、导航指令等输入中输出驾驶动作，车企该如何判断它真的懂得开车？又该如何在低成本、可复现、可控的环境中验证它的安全边界？
这也是世界模型在这次 CVPR 上被推到前台的背景。
VLA 之后，AI需要理解“世界的变化”
过去一年，VLA 是自动驾驶领域最热的技术关键词之一。它试图把视觉、语言和动作统一到同一个模型框架中，让系统直接从视频流、导航指令等输入中生成驾驶动作。简单说，VLA 就像是在学习人类司机会怎么开车。
刘先明去年曾在 CVPR 介绍正在研发中的第二代 VLA 模型；不到一年后，基于该模型的辅助驾驶软件已经进入量产，并在推送首月实现辅助驾驶里程占比超过 50%。
但端到端智驾越往前走，另一个问题越突出：模型可以模仿人类驾驶，却未必真正理解每个动作之后的物理后果。比如此刻选择变道，旁车会不会逼近？前车突然减速时，系统是否还能平稳处理？
世界模型要补上的，正是这层能力。
刘先明在演讲中提到，小鹏物理世界基座模型既包括第二代 VLA，也包括世界模型。二者不是路线之争：VLA 学习“如何行动”，世界模型学习“行动之后世界会如何变化”。
这背后是自动驾驶 AI 范式的变化。过去模型主要依赖人类驾驶数据进行行为学习，但人类动作信号相对稀疏，只能告诉模型“最后怎么做”。世界模型则通过预测下一帧、下一状态或未来表征，从海量视频中学习交通环境的运动规律、空间关系和因果结构。
X-World：让 AI 在视频空间里模拟未来
小鹏此次重点展示的 X-World，是其世界模型体系中的代表性技术。根据论文描述，X-World 是一个可控的多摄像头生成式世界模型。它的输入包括历史多视角摄像头视频、未来自车动作，以及可选的动态交通参与者、静态道路元素、天气和时间等条件；输出则是未来一段时间内车辆多路摄像头可能看到的视频画面。
更直白地说，它不是简单生成一段“像道路”的视频，而是在回答一个驾驶问题，如果车辆接下来执行某个动作，周围世界会变成什么样？
X-World 使用七路环视摄像头，包括前窄角、前鱼眼、前左、前右、后左、后右和后视摄像头，形成 360 度环绕视野，这决定了它要解决的是多摄像头一致的视频仿真。
论文显示，自动驾驶世界模型的难点在于，画面看起来真实远远不够。它至少要满足三个要求：动作可控、场景可编辑、多视角一致。
首先是动作可控。同一个初始场景下，如果输入右转、左转、变道或直行，模型生成的未来画面必须严格反映不同驾驶动作的结果。X-World 展示了这种能力：模型可以根据不同自车轨迹，生成右转、左转、车道保持和变道等不同未来视频。
这对智驾评测非常重要。真实道路上，一辆车在一个路口只能做出一次选择；但在世界模型里，同一个场景可以反复测试多种策略，例如等待、绕行、变道或刹停，从而观察不同决策带来的后果。
其次是场景可编辑。X-World 不只控制自车动作，还能控制动态交通参与者和静态道路元素。动态对象包括车辆、行人、自行车，静态元素包括车道线、道路边界和交通标志。
这意味着，研发团队可以主动制造长尾场景。比如在原本正常通行的道路视频中，插入一个从遮挡车辆后方突然出现的骑行者，再测试自动驾驶系统是否能够及时刹停。
第三是多视角一致和长时序稳定。自动驾驶仿真不能只是前视画面流畅，还要保证前视、侧视、后视中的车辆、道路、边界关系彼此一致。为此，X-World 在架构上引入 view-temporal self-attention，同时建模时间维度和多摄像头视角之间的关系，以保持跨视角几何一致性、目标身份一致性和运动连续性。
小鹏的论文中，还展示了 24 秒多摄像头长序列生成，强调模型可以在较长时间内保持画面稳定，避免生成式模型常见的漂移问题。
AI 智驾的新分水岭：路测之外，还要有仿真闭环
从行业角度看，世界模型的价值并不在于“视频生成得多逼真”，而在于它可能成为端到端智驾的训练场和考场。
这种趋势并非小鹏一家车企的独立判断，特斯拉 AI 软件副总裁 Ashok Elluswamy 也讨论了特斯拉构建机器人基座模型的原则和方法。这说明，全球头部玩家正在形成类似共识：自动驾驶不再只是车辆功能竞争，而是具身 AI 在真实物理世界中感知、决策、行动和持续学习的问题。
差异在于路径不同。特斯拉更强调以大规模车队数据、端到端控制和机器人平台打通能力；小鹏则试图通过 VLA 与世界模型结合，补齐可控仿真、长时序推演和反事实测试这一层能力。
真实道路测试成本高、风险大、复现难，尤其难以覆盖低频危险场景。世界模型则可以通过反事实推演和场景编辑，让同一场景被重复测试，罕见风险被主动构造，模型在虚拟环境中暴露问题。
这说明，AI 智驾竞争已经不只是单点算法比拼，而是模型、数据、算力、芯片、编译器和工程效率的系统竞争。小鹏披露的数据显示，其第二代 VLA 模型拥有数十亿参数，使用上亿视频片段训练，每版模型训练量超过 4 万亿 Token；在截至今年 3 月的一年间，小鹏集群单 GPU 训练效率提升 1010%，单任务训练效率提升 4360%，GPU 硬件利用率从 40%提升到 90%。
当然，世界模型还不能被简单等同于真实世界。生成视频稳定，不代表物理规律完全准确，尤其在极端天气、复杂博弈、施工改道和非理性驾驶场景中，世界模型仍需要大量真实数据校准。
因此，它短期内更像是真实路测之外的一层高效补充，用于构造长尾场景、做反事实推演、开展闭环评测和强化学习训练。未来的智驾竞争，不只看谁在路上跑得更多，也看谁能在云端造出更多真实、复杂、可复现的虚拟世界。

姜谷粉丝

2026-06-08 12:09

端到端AI智驾进入“造世界”阶段，本质是从“模仿人类驾驶”向“理解并预测世界变化”的跃迁，核心是通过世界模型补全端到端模型的认知短板，实现更安全的泛化能力。以下是关键进展与行业动态：

一、技术背景：端到端模型的瓶颈与“造世界”的必要性
端到端模型将感知、决策、控制整合为统一神经网络，虽提升了泛化效率，但存在三大缺陷：

黑盒决策：难以解释决策逻辑，调试成本高；
数据依赖强：迁移到新场景需重训，泛化能力有限；
概率决策风险：面对复杂场景仅输出“最可能方案”，易忽略关键细节。
世界模型的核心价值，是为AI构建“脑内模拟”能力——通过预测未来场景、虚拟试错，理解“动作与世界的因果关系”，从而解决端到端模型的泛化瓶颈。

二、世界模型的核心能力：从“感知”到“推演”
世界模型并非简单生成“类道路视频”，而是通过多视角一致的视频仿真，回答“若执行某动作，世界会如何变化”的核心问题。以小鹏X-World为例，其技术突破体现在：

动作可控：同一场景下，可生成右转、左转、变道等不同驾驶动作的未来画面，支持反复测试策略后果；
场景可编辑：可插入突发骑行者、临时封路等Corner Case，验证系统应对能力；
多视角一致：通过跨视角几何一致性建模，保证前视、侧视、后视画面的车辆、道路关系完全匹配，避免“画面漂移”。
三、行业落地：头部车企的技术路线与量产进展
2025-2026年，全球头部车企加速世界模型量产落地，技术路线呈现“VLA+世界模型”双轨并行的趋势：

小鹏：第二代VLA模型（学习“如何行动”）+ 世界模型（学习“行动后果”），X-World已支持24秒多摄像头长序列生成，实现复杂场景的虚拟试错；
蔚来：自研世界模型NWM已在NT2-3平台车型推送，通过“世界模型+闭环强化学习”解决Corner Case，城区NOP+的泛化能力显著提升；
吉利：G-ASD智驾方案采用“世界模型+强化学习”提升上限，搭配车端VLA模型增强通用感知，算力达1400TOPS，覆盖L2-L4全场景；
华为：乾昆WEWA采用“云+端”分体架构，通过世界模型构建“可解释、可预测”的世界认知结构，支持临时交通政策的即时调整。
四、行业趋势：从“技术竞争”到“认知升级”
世界模型的普及标志着智驾行业从“感知能力竞赛”转向“认知能力升级”：

技术融合：VLA（视觉-语言-行动模型）与世界模型不再是路线之争，而是互补关系——VLA负责“快速决策”，世界模型负责“安全推演”；
成本下降：通过虚拟仿真测试替代部分实车路测，智驾研发成本显著降低，推动“智驾平权”落地；
场景泛化：世界模型可自动学习临时交通政策、罕见场景规律，实现跨城市、跨国家的快速适配。

jjybzxw

2026-06-08 19:10

全文核心梳理+简短专业点评
一、核心内容概括
文章以CVPR 2026为行业观测窗口，点明计算机视觉与自动驾驶AI的核心转向：AI从单纯识别图像，升级为**理解、预测、交互真实物理世界**，具身智能、世界模型成为赛道分水岭。
1. 行业新旧技术迭代
前期VLA模型实现视觉-语言-动作端到端输出，已落地小鹏量产车，但短板明显：只会模仿人类驾驶行为，无法预判动作带来的物理环境变化。
2. 小鹏X-World世界模型核心定位
与VLA互补分工：VLA学如何开车，X-World推演操作后的环境演变；依托全车7路环视摄像头实现360°多视角同步仿真，具备三大核心能力：动作可控、场景自由编辑、长时序多视角画面稳定。
3. 产业落地核心价值
解决真实路测成本高、长尾危险场景难以复现的痛点，可主动制造突发事故场景做反事实测试，搭建云端仿真训练闭环，大幅降低智驾验证风险与成本。
4. 国内外头部路线对比
特斯拉侧重车队海量实车数据+机器人统一端到端基座模型；小鹏走VLA+世界模型双轨路线，强化虚拟仿真推演能力。二者共识一致：自动驾驶竞争升级为整套具身AI系统对抗。
5. 客观局限
世界模型仿真不能完全替代实车路测，极端复杂路况、非理性人车博弈场景仍需真实数据持续校准，仅作为路测的高效补充工具。
6. 配套底层工程支撑
小鹏同步完成算力集群效率跨越式优化，训练吞吐量、硬件利用率大幅提升，支撑大尺度VLA与世界模型持续迭代。

二、简短深度点评
本文立足顶级顶会一线产业演讲内容，精准捕捉自动驾驶范式变革关键节点，清晰厘清VLA与世界模型的互补逻辑，跳出单纯算法参数对比，直击行业真实痛点——长尾场景验证难题。横向对比特斯拉、小鹏两大头部技术路线，客观呈现不同企业的差异化布局，同时理性指出世界模型现阶段的仿真局限性，不夸大技术万能性。
文章清晰传递行业核心信号：智能驾驶的竞争早已脱离单一感知、决策模块比拼，转向基座大模型、虚拟仿真、算力工程、实车数据协同的全栈体系对抗，为理解下一代具身智驾发展方向提供权威、落地的行业视角。

查看完整版本: [-- 端到端之后，AI 智驾进入“造世界”阶段 --] [-- top --]

Powered by www.wdsz.net v8.7.1 Code ©2005-2018www.wdsz.net
Gzip enabled