新出行百科｜VLA、VLM 到底是什么？_百科

伟健

原创百科

日榜 TOP{{detailStore.day_rank}}

月榜 TOP{{detailStore.week_rank}}

管理

新出行百科｜VLA、VLM 到底是什么？

新出行原创 · 百科

前段时间小鹏 G7 上市发布会上，何小鹏多次提到了 VLA 以及 VLM 模型，并宣称小鹏 G7 是首款同时搭载 VLA、VLM 模型的车。然而我发现有不少网友其实对 VLA、VLM 之间还有些不太清楚。这期内容，我们就给大家讲讲 VLA 和 VLM 分别是什么，以及它们在用户体验上会带来哪些提升。

一、VLA 是什么？

还记得在 G7 发布会上央视名嘴朱广权也“吐槽”了何小鹏，说他讲解的内容有些深奥。试想，如果我是一位非汽车行业、且没有太多汽车相关知识储备的普通消费者，在听到 VLA 和 VLM 时也会一头雾水。

简单来说 VLA 和 VLM 是小鹏的两个车端模型，目前 VLA 模型主要服务于智驾系统，而 VLM 则服务于智能座舱系统。

我们先来讲讲 VLA，VLA 的全称是 Vision（视觉）—Language（语言）—Action（动作）的缩写。也可以叫视觉语言动作大模型，是将空间智能、语言智能、动作智能结合到了一个大模型中。

主要是配合智驾系统使用，小鹏的 VLA 模型厉害之处在于部署在车端！是在参数量为 72B 的基座大模型中，通过蒸馏的方式生成一个小型 VLA 模型并部署到车端，让车端小模型尽可能承袭云端大模型的能力。

那部署到车端而并非在云端的另一个优势，是没有网络的限制，假设你去到信号差的地方，也能够正常使用智驾功能。或者说未来小鹏出海到国外，信号差的地方也能使用。

有哪些作用？这能适应复杂多元的真实世界的场景，并且系统的推理能力更强大，毕竟我国很多路况都比较复杂，在不同城市不同的地区都有不同的道路规则，比如一些路口有待转车道，比如一些路口有潮汐车道。

那小鹏 G7 部署了车端 VLA+VLM 模型后，具备识别以及实时理解这些文字的能力，可以“读懂”路边的交通指示牌，当遇到“前方路口请减速”的路牌，车端会通过摄像头感知到路边的路牌，并及时“思考”这个路牌的意思，最后做出减速的决策。

VLA 实际上就是加入了更多的语义理解能力，如果以前端到端没有训练过，那有些场景就不能实现了，再比如去到一个陌生的停车场，在没有采集数据的前提下，车辆也能通过在停车场漫游，从而识别到充电站，并自动泊车入位。

VLA 的驾驶行为会更加偏向人类驾驶的风格，或者说车端有了 VLA 模型后，会更像是一个高情商，更懂用户的“司机”。

二、服务于智能座舱系统的 VLM

VLM 的全称是 Vision-Language Model，简称为 VLM，也就是视觉语言大模型。可将视觉信息（如图片、视频）和自然语言文本联系起来，此前在具身智能领域已有较多探索。

说到 VLM 就从小鹏的图灵芯片开始讲起，小鹏发布的 VLA+VLM 架构下，是配合有三颗图灵芯片，其中两颗是服务于智驾，另外一颗是完全服务于小鹏的智能座舱系统。

根据小鹏智能座舱负责人魏斌的介绍，除了一颗图灵芯片以外，G7 的座舱还加入了一颗高通 8295 芯片。

8295 芯片更多的作用是为了更好适配安卓的软硬件生态，并且承载着座舱更多的基础应用，这些都不需要独立投入资源进行开发。

而另外一颗服务于座舱的图灵芯片是为了跑 AI 和 VLM 模型之类需要密集计算的业务和应用。因为图灵芯片的算力是高通 8295 芯片的 20 倍以上。

目前主流的智能座舱芯片 8295，算力也才 30TOPS，在小鹏 G7 的配置上是包含了一颗 8295 芯片以及等效算力 750TOPS 的图灵芯片。

那加入 VLM 大模型后，会有哪些体验上的升级？我这里举个例子，比如有时候我们开车会遇到由于舱内、舱外温度不一致，导致前挡风玻璃起雾的问题，这时候可能需要我们手动调节舱内温度或是打开除雾功能才能解决。

在 VLM 上车之后，这些都能得以解决。上文也提到了两个模型是部署在车端的，所以系统应对此类问题会非常迅速，在这样的大算力前提下，能做到秒级的变化，给用户做周边环境的分析，从而判断如何变化，在不依赖网络的部分指令也能迅速完成。

甚至能通过车内的 OMS（车内乘员监测摄像头，仅 G7 Ultra 版配备）摄像头去观察车内乘员的衣着情况，调节舱内温度。也可能监测到车内有婴儿在睡觉，会讲导航、音乐的音量调低。

在语音交互上，支持用户自由切换语种，真正意义上实现全球化的人与车辆无障碍沟通。也就是说哪怕你在国外用小鹏的语音系统，依旧可以使用中文，甚至在加入 VLM 大模型后，语音系统还可以充当翻译的角色。

这就是 VLM 上车后带来的优势。未来小鹏汽车将拥有独立的座舱大脑，能够真正深度的去理解用户的需求，对用户的潜在需求进行主动的服务。

写在最后

如果要说 VLA 和 VLM 之间的关系，引用何小鹏的话来说，VLA 是负责运动的大脑和小脑，VLM 则是整车的大脑。

VLA 是一个快模型，需要实时进行思考并作出决策，因为在智驾行车过程中的响应速度必须要快，最差要到每秒 20 帧；VLM 在座舱中可以是慢思考，1 秒 2 帧或者 2 秒 3 帧就够了。

以上我们所说的 VLA、VLM 模型仅搭载在 G7 Ultra 版以及未来搭载三颗图灵芯片的小鹏新车上。例如之前搭载英伟达 Orin 芯片的版本不会搭载 VLM 模型的，因为英伟达 Orin-X 芯片更多的是服务于智驾层面，也没有更多的算力下放到智能座舱上。

可能现阶段大多数用户对于 VLA、VLM 感知不强，我想过段时间 VLA 和 VLM 真正上车后，当用户能体验到真正的区别是，我相信在那个时候才是属于 G7 的“高光时刻”。

新出行小鹏社区

进主页

伟健 Lv.5

新出行认证：新出行编辑

简介：关注伟健不迷路✊ 微博：@伟健同学

获赞

关注

粉丝

原创

{{ recommend_circle[curIndex].series[0].price.price_type? recommend_circle[curIndex].series[0].price.price_text : '' }}
{{recommend_circle[curIndex].series[0].price.price_string}}