{{detailStore.author.is_follow?'已关注':'关注'}}
理想VLA司机智能体验日,部分问题速记。 理想汽车自动驾驶研发高级副总裁 郎咸朋博士 理想汽车自动驾驶高级算法专家 詹锟 Q:从无图NOA到端到端生命周期都比较短,VLA会是一个长期架构么?是否能支持到城区自动驾驶? 郎咸朋:我们认为VLA有很强的技术潜力,虽然端到端是让自动驾驶从人工变成AI(智能),但端到端这一代,我们认为只有V和A是不够的,所以我们开始了VLM架构,但现在看来依然要合成一体,我们也研究了很多先进技术框架,VLA的架构思路来源于机器人和具身智能,是一个长期架构。 从某种程度上看,自动驾驶也是一个机器人,是四轮或驾驶机器人,我认为VLA架构会延续到机器人繁荣之后,才可能被其它技术替代,它是一个相对长期的架构,技术潜力非常大,也更像人类的智能发展规律。 Q:VLA在Thor-U芯片上的运转速度能到多少?目前的10Hz应该只是一个起点,是否可以做到更高?特斯拉最新的FSD运转速度是多少? 詹锟:目前Thor-U的架构是最先进的,它支持的推理精度和混合精度已经是最强的了,我们现在使用的INT8和FP8是业界主流的或最先进的大模型推理方式,目前我们已经做到了。另外,Thor-U芯片支持FP4,FP4比FP8多一倍的算力,比如FP8是700算力,FP4可以做到1400算力,这样的话算力的推理时延长会从10Hz变成20Hz。 同时,我们后面可以再进一步提升。 在大模型领域,这一年的时间里,在保持同等性能的前提下,主流大模型的推理成本平均下降了约 1 个数量级(≈10 倍),我们通过更好底层数据、更好的算法架构,做了一些硬件适配的算法,都能够保证在不降低性能的前提下提高计算速度。所以我们可以再用几个月的时间迭代出一些更好、更高效的算法来适配当前的算力架构,推理帧率有可能达到20Hz,30Hz。 Q:VLA在双Orin平台能部署到什么情况?Thor平台上能做到10Hz的推理帧率,在双Orin平台上能做到多少? 郎咸朋:无论是公司要求,还是我们自己团队的决策,从VLA模型研发之初我们就决定要支持每个平台,并且要做到无差别支持。我们会重点关注模型部署帧率和模型部署的差异,两个平台我们是在同步推进的。从功能表现和模型表现上,我们会在两个平台同步且无差别的推进,请所有AD Max车主放心。帧率问题也是同样的,目前我们内部在进行一些模型优化,每天都会迭代出新的版本,我们最终交付的时候大家会看到比现在还要好的帧率。 Q:有些友商在自研芯片,未来理想汽车会不会自研芯片?是否自研芯片是基于什么去决策和判断的? 郎咸朋:现在已经有些企业在推进自研芯片,但是VLA的技术架构和模型还没有最终定型。自研芯片的好处是对于自己的模型支持成都会更好,而英伟达的通用芯片对于各种模型和算子的通用性会更强,我们一直用英伟达的芯片来进行模型部署和探索,希望能够通用性更强,不会把自己锁死在一些算子和模型架构上,等到模型架构的通用性解决后,我们可能会考虑其他的可能性。 Q:VLA里的L对行车的体验是锦上添花还是雪中送炭?用新的方式或新的架构带来的收益或提升会是怎样的?这个变化会很明显吗? 郎咸朋:第一,语言的智能或语言理解能力是必要的,除非使用先验地图信息或者其他信息提供这方面的知识。 第二,如果真的未来实现了L4或纯无人,像今天在MEGA Home上其实是没法操作这个车的,只能用语言去指挥,如果没有语言能力,车都开不了。 但最底层的本质是有了L之后,CoT能力才会增强。像防御性驾驶,别的车也会有,它可能看到这个东西也会有反应,但如果将来没有这种思维能力,它遇到更加复杂或没见过的场景的话还会出问题,我相信我们VLA对这块的解决能力会非常强。所以,有没有L,实际上是这个模型本身也没有很好的深度思考能力的一个关键,这不是锦上添花、雪中送炭。 Q:扩散模型的出轨迹的时延问题,理想在做VLA如何快速去噪并实现一个比较稳定收敛的轨迹? 詹锟:大模型迭代周期分为两种,一种是重新训练预训练,也就是改变了基座;另一种是通过后训练微调一些特性,比如加入一些新的一些小的特性,以及修正了一些小的Feature或者Bug这是两种。 第一种要从头训基座需要以一个月这种级别来更新,理想对AI非常重视,我们会跟基座模型团队一起合作,我们的基座数据来自陈伟老师那边的基座模型。 包括3.2B也是完全定制的一个基座,而且它对英伟达的芯片是有定制化的提升,并且会以月级别进行更新,这个月更新反馈给下一个月要“迭代什么样的特性,加入哪些知识,提升哪方面能力”,届时“空间理解,语言理解,文字识别”这些能力就会提上去,所以我们每个月会有一个基座的更新。 其次,关于后训练的更新,主要取决于我们需要解决什么问题,有的问题只是引入一些相关数据就可以直接解决,有的问题需要加一些新的prompt,需要加一些新的鲜艳的描述,我们会把数据做在数据集里面做一次后训练,这其实跟现在大模型的迭代思路是非常一致的。 我们Diffusion为什么能快?其实是这样的Diffusion已经发展了很多时候,从最早的生成图片,最原始的Diffusion,DDPM的那种方式去做Diffusion它可能要五十步、一百步甚至两百步这样的形式。 现在我们有很多新的去噪方法,包括DPIM或者flow matching流匹配类似于这样的方法,是可以大幅度降低迭代步骤。我们现在用流匹配基本上2-3步就可以出一次轨迹,2-3步并不会特别时延,并不会有特别大的压力,同时我们出多轨迹也是一个并行出发的过程,毕竟芯片的算力足够大的,2-3步迭代是完全可以承受住的,时延相对还是比较低的。 Q:方便说一下时延是在多久吗? 詹锟:现在时延大概在15毫秒左右。 Q:三步对吗? 詹锟:对,三步。 Q:VLA本身是具备思维链的过程,在VLA阶段超级对齐这件事儿还有意义吗?思维链本身就是在做一次对齐,人类规则包括现实的一种对齐,VLA还需要做吗? 詹锟:还是需要的,CoT是VLA或者VLM模型的一个特性,比如在做一个决定、一个决策前,可以用一些Token来做思考,这里面思考可能为什么这样想,甚至隐式Token都是可以做的,它只是一种思考的模式。 超级对齐指的是思考出来的模式,是否符合人类价值观,是否符合大部分用户希望的驾驶行为。超级对齐也分用“RLHF的模型对齐”或“人类偏好对齐”,甚至可以用一些其他的后处理兜底的方式去做一些对齐,这两种在VLA里面还是会继续存在,我们先用超级对齐RLHF重新优化COT。 比如说我让模型先采样出来8种CoT的逻辑,筛选出符合人类价值观的,做出对应的偏好选择,我们有Preference model(偏好模型)可以进行对应的选择。 Q: VLA上车以后,行车、泊车和AEB三个模块是不是都在一体训练了? 第二个问题,特斯拉目前做的Robotaxi、FSD、Grok4等,这一系列动作对咱们有什么可以参考的?或者换个角度说,理想正在做的努力,跟特斯拉有什么差别,或者有哪些相同的地方? 詹锟:我先回答一下第一个问题,我们这次VLA推送的时候,行、泊、AEB都会在里面,而且现在的版本,其实都已经在了,我们也可以到时候再体验一下。 第二个问题,关于特斯拉,我们也非常关注,无论在中国,还是在美国,我们也专门有在北美的调研团队,我们自己在北美开了非常长时间的特斯拉,从12版本一直到现在,非常关注它的进展,并且一些动作细节有很多都是我们值得去学习、跟进的。它最近在做Robotaxi,也可以看到会存在一些不同的问题,刚上线可能就20台车,这个范围内其实也出了很多的情况。我们也可以看到,作为一个跟L4公司强运营的高传感器配置不同的路线,往Robotaxi走,其实还是要更加谨慎或一些细致研发的。 对理想来说,我们的目标肯定也是往那个级别自动驾驶去做的,我们一如既往通过技术的迭代一步一步做到全场景的自动驾驶能力,我们其实在Robotaxi上看到了他们可能的一些机会点和目前的一些曲线。 刚才郎博介绍的远程接管,特斯拉也做了很多样的运营,包括先采路线,把那些不行的先去掉,也包括随时都有远程接管的人,还有副驾驶的安全员等,他们在这方面也在推进,对理想来说,我们也会往这个方向逐步开始探索和尝试。 我们的技术栈、我们的能力,是瞄着这个最高的目标前进的。 Q:刚才郎博说一年内能实现,从技术能力上讲,是不是一年内实现L4? 郎咸朋:技术能力我们肯定是希望这么来做的。现在主要还是因为技术的先进性和技术的差异度没有提升上来,很多的宣传等会被别人认为是不实的,即使有人做的对,有人做的不对,可能都会认为是有问题的。 对我们而言,VLA这套架构有三个观点:第一,我们认为它与人类思维和思考能力是相似的,是最有可能实现L4级别的架构;第二,我们会沿着这一方向推进,目前有同事正与国家相关政策法规机构、单位开展L4方面的讨论,并将深度参与国家在此领域的政策法规建设;第三,在内部我们有两方面目标:一方面会给大家提供一个自己开的时候使用辅助驾驶的安全的司机,另一方面,也会及时把VLA的能力再往上探索更高的可实施性,VLA能力迭代会非常快。 去年讨论端到端时,大家可能对一年后的发展预期还不明确,但现在回头看,可以发现发展速度确实很快,VLA的发展速度我觉得会更快,至少我们彻底摒弃了人工测试方式,因为只要有人参与闭环,效率就会受限,且容易出现各种问题。 但前提是具备无人仿真测试能力,且测试一致性与实车完全一致,这也是我们过去一年多在端到端、超级对齐中积累的大量这方面的经验。 我们也积累了大量评测场景。过去用实车测试辅助驾驶功能时,可能只覆盖人开车时常见的场景(比如上下匝道、高速、城市道路、路口等),但今年上半年的超级对齐让我们发现,模型更容易出问题的场景并不完全等同于人类驾驶的经验。 这样就给我们VLA积累了很多模型会出错的场景,有些场景人开可能没问题,但模型却可能出错,甚至是一些看似简单的地方,这就是我们积累的一些数据背后的场景故事。 所以,我们可以用这些去很好的评测现在VLA的模型。还是那句话,大家看到的今天的VLA模型或产品真的就是我们第一版能上路的产品,大家可以多试一试,它可能有一些极限的场景,该接管接管,该干预干预,但我想它的发展迭代速度会非常快。 到明年我相信1000MPI只是一个量级,现在是百公里量级,明年具体数据不好说,但肯定是千公里量级,我相信到今年年底也应该能比现在高一倍,差不多400-500MPI量级,这是我今年的一个目标。
最后编辑于 · 2025-07-29
  • 全部评论{{detailStore.commentnum}} 条
  • 只看作者
  • 最热
  • 最新
  • 最早

「待审核」

首评 {{ comment.relativeTime }} 已被赞赏 {{comment.integral}} 积分 回复

{{ type!=10 ? '前排沙发空着~' : '暂无相关评论' }}

{{type!=10 ? '还没有人评论哦,快抢沙发吧!' : '发表一下个人看法吧'}}
写评论
积分赞赏
点赞
评论区
  • 编辑
  • {{is_favourite ? '已收藏' : '收藏'}}
  • {{is_personal_top ? '取消主页置顶' : '个人主页置顶'}}
  • 举报
  • 加入黑名单
  • 删除
  • 取消置顶
  • 置顶推荐
    • 6小时
    • 12小时
    • 24小时
    • 3天
    • 一周
    • 长期
  • {{digest?'撤销精华':'设为精华'}}
回到顶部