

- 全站推荐
- 全站置顶
- 撤销首页推荐
- 社区推荐
-
置顶推荐
- 6小时
- 12小时
- 24小时
- 3天
- 一周
- 长期
- 设为精华
- 热门推荐
- 撤销审核
- 进小黑屋
- 生成议题
前段时间小鹏 G7 上市发布会上,何小鹏多次提到了 VLA 以及 VLM 模型,并宣称小鹏 G7 是首款同时搭载 VLA、VLM 模型的车。然而我发现有不少网友其实对 VLA、VLM 之间还有些不太清楚。这期内容,我们就给大家讲讲 VLA 和 VLM 分别是什么,以及它们在用户体验上会带来哪些提升。

一、VLA 是什么?
还记得在 G7 发布会上央视名嘴朱广权也“吐槽”了何小鹏,说他讲解的内容有些深奥。试想,如果我是一位非汽车行业、且没有太多汽车相关知识储备的普通消费者,在听到 VLA 和 VLM 时也会一头雾水。

简单来说 VLA 和 VLM 是小鹏的两个车端模型,目前 VLA 模型主要服务于智驾系统,而 VLM 则服务于智能座舱系统。
我们先来讲讲 VLA,VLA 的全称是 Vision(视觉)—Language(语言)—Action(动作)的缩写。也可以叫视觉语言动作大模型,是将空间智能、语言智能、动作智能结合到了一个大模型中。

主要是配合智驾系统使用,小鹏的 VLA 模型厉害之处在于部署在车端!是在参数量为 72B 的基座大模型中,通过蒸馏的方式生成一个小型 VLA 模型并部署到车端,让车端小模型尽可能承袭云端大模型的能力。
那部署到车端而并非在云端的另一个优势,是没有网络的限制,假设你去到信号差的地方,也能够正常使用智驾功能。或者说未来小鹏出海到国外,信号差的地方也能使用。

有哪些作用?这能适应复杂多元的真实世界的场景,并且系统的推理能力更强大,毕竟我国很多路况都比较复杂,在不同城市不同的地区都有不同的道路规则,比如一些路口有待转车道,比如一些路口有潮汐车道。
那小鹏 G7 部署了车端 VLA+VLM 模型后,具备识别以及实时理解这些文字的能力,可以“读懂”路边的交通指示牌,当遇到“前方路口请减速”的路牌,车端会通过摄像头感知到路边的路牌,并及时“思考”这个路牌的意思,最后做出减速的决策。
VLA 实际上就是加入了更多的语义理解能力,如果以前端到端没有训练过,那有些场景就不能实现了,再比如去到一个陌生的停车场,在没有采集数据的前提下,车辆也能通过在停车场漫游,从而识别到充电站,并自动泊车入位。
VLA 的驾驶行为会更加偏向人类驾驶的风格,或者说车端有了 VLA 模型后,会更像是一个高情商,更懂用户的“司机”。
二、服务于智能座舱系统的 VLM
VLM 的全称是 Vision-Language Model,简称为 VLM,也就是视觉语言大模型。可将视觉信息(如图片、视频)和自然语言文本联系起来,此前在具身智能领域已有较多探索。

说到 VLM 就从小鹏的图灵芯片开始讲起,小鹏发布的 VLA+VLM 架构下,是配合有三颗图灵芯片,其中两颗是服务于智驾,另外一颗是完全服务于小鹏的智能座舱系统。

根据小鹏智能座舱负责人魏斌的介绍,除了一颗图灵芯片以外,G7 的座舱还加入了一颗高通 8295 芯片。
8295 芯片更多的作用是为了更好适配安卓的软硬件生态,并且承载着座舱更多的基础应用,这些都不需要独立投入资源进行开发。
而另外一颗服务于座舱的图灵芯片是为了跑 AI 和 VLM 模型之类需要密集计算的业务和应用。因为图灵芯片的算力是高通 8295 芯片的 20 倍以上。
目前主流的智能座舱芯片 8295,算力也才 30TOPS,在小鹏 G7 的配置上是包含了一颗 8295 芯片以及等效算力 750TOPS 的图灵芯片。

那加入 VLM 大模型后,会有哪些体验上的升级?我这里举个例子,比如有时候我们开车会遇到由于舱内、舱外温度不一致,导致前挡风玻璃起雾的问题,这时候可能需要我们手动调节舱内温度或是打开除雾功能才能解决。
在 VLM 上车之后,这些都能得以解决。上文也提到了两个模型是部署在车端的,所以系统应对此类问题会非常迅速,在这样的大算力前提下,能做到秒级的变化,给用户做周边环境的分析,从而判断如何变化,在不依赖网络的部分指令也能迅速完成。
甚至能通过车内的 OMS(车内乘员监测摄像头,仅 G7 Ultra 版配备)摄像头去观察车内乘员的衣着情况,调节舱内温度。也可能监测到车内有婴儿在睡觉,会讲导航、音乐的音量调低。
在语音交互上,支持用户自由切换语种,真正意义上实现全球化的人与车辆无障碍沟通。也就是说哪怕你在国外用小鹏的语音系统,依旧可以使用中文,甚至在加入 VLM 大模型后,语音系统还可以充当翻译的角色。
这就是 VLM 上车后带来的优势。未来小鹏汽车将拥有独立的座舱大脑,能够真正深度的去理解用户的需求,对用户的潜在需求进行主动的服务。
写在最后
如果要说 VLA 和 VLM 之间的关系,引用何小鹏的话来说,VLA 是负责运动的大脑和小脑,VLM 则是整车的大脑。

VLA 是一个快模型,需要实时进行思考并作出决策,因为在智驾行车过程中的响应速度必须要快,最差要到每秒 20 帧;VLM 在座舱中可以是慢思考,1 秒 2 帧或者 2 秒 3 帧就够了。
以上我们所说的 VLA、VLM 模型仅搭载在 G7 Ultra 版以及未来搭载三颗图灵芯片的小鹏新车上。例如之前搭载英伟达 Orin 芯片的版本不会搭载 VLM 模型的,因为英伟达 Orin-X 芯片更多的是服务于智驾层面,也没有更多的算力下放到智能座舱上。
可能现阶段大多数用户对于 VLA、VLM 感知不强,我想过段时间 VLA 和 VLM 真正上车后,当用户能体验到真正的区别是,我相信在那个时候才是属于 G7 的“高光时刻”。