李想「不想造车」的背面，其实是想造「司机 Agent」

发布时间：2025-05-15　点此：1037次

五个月前，李想高调地宣告了将 All in AI，表明抱负要从一家智能轿车公司，转型迈向一家人工智能科技公司。

而这次，李想带着全新的 VLA（Vision-Language-Action）模型走到了大众面前。此前，VLA 已经在 3 月的英伟达 GTC 大会上初次发布，它是抱负轿车去年在辅佐驾驭范畴「端到端+VLM」的双体系架构上进化而来的新架构。

智能化，既是抱负近年来最期望打造的标签，也是要点投入研制的方向。抱负 2025 年产品的中心点都首要环绕智能化晋级晋级打开，李想曾在内部说：

「抱负的智驾原创性，超越了增程」。

因而，推出全新的 VLA 架构模型，李想期望让辅佐驾驭进化出相似人类司机的才干。在李想看来，VLA 是抱负的「司机大模型」（或「司机 Agent」），他期望这个模型/智能体能像人类司机相同喜欢，将来也能像人类司机那样发明商业价值。

在 demo 演示视频里，抱负的这个「司机 Agent」展现了和人类司机相似的智能才干：不只具有现有的优异辅佐驾驭才干，并且还能直接通过语音的方法和人类驾驭员高效交互。

在通过高速收费站时，直接说出「走人工」三个字，体系就不能自制从 ETC 收费通道转向人工收费通道；在日常驾驭和泊车环节，也不能自制通过「前方掉头」、「C 区泊车」、「靠边泊车」等简略指令，调整行车或泊车的道路，达到了不露锋芒日常和网约车或代驾司机交流的水准。

辅佐驾驭再进化：从「双体系」到VLA

通过了十几年的开展，辅佐驾驭阅历了屡次迭代。其架构演进大致可分为模块化⽅案（2022年之前）、端到端感知（2023年）、VLM+E2E （2024年）。

总的来说，自动驾驭大脑的规划从「各自为营」的小团队，进化到「边看边学」的超级学生，再到「知识+举动」的测验。

现在，辅佐驾驭又来到新的十字路口——VLA。这也是抱负AI Talk第二季的要点。基于此，李想以为，辅佐驾驭处于「拂晓前的黑暗」，拂晓立刻就要来了。

其实，2025年3月的英伟达GTC大会上，抱负就发布了下一代自动驾驭架构 VLA。这儿略微介绍一下，VLA最早是由Google DeepMind在2023年7月提出的用于机器人操控的模型，其以大言语模型为根底，模型在接纳摄像头的原始数据和言语指令后，不能自制直接输出操控信号，完结各种杂乱的操作。

关于抱负轿车而言，李想表明，VLA是一个「司机大模型」，它像人类司机相同喜欢。一起，李想着重，VLA 的诞生不是骤变，而是进化。

简略说，VLA并非扔掉端到端，而是将其作为VLA举动（A）部分的根底。只要做好规矩算法，才干知道如何做端到端，只要把端到端做到极致水平，才有时机去做 VLA，这个进程没有捷径。

他具体论述了操练VLA的四个进程，这有点像人类学开车的进程。

VLA司机大模型的操练和推理进程 | 图片来历：直播截图

榜首步是预操练，就像去驾校前先学交规、认路标，这一步的方针是让AI具有对国际和交通的根底认知。抱负先操练了一个VL（视觉和言语）基座模型。然后，它会被「紧缩」（蒸馏）成一个更小、能更快运转的模型（约3.2B参数），这样它才干流畅地跑在轿车里的车端芯片上。

第二步是后操练，像在驾校里跟着教练练车。工程师让AI观看很多人类司机开车的视频，学习仿照他们的操作。把会「看」和「听」的模型，跟学会了「举动」的模型结合起来，构成一个初级的VLA「端到端」模型。

第三步是强化操练，像拿到驾照后，在社会上不断锻炼提高，成为经验丰富的「老司机」。这个进程要通过两个检测：榜首，参阅很多人类司机的驾驭数据。当它做得好时得到「鼓动」，做得欠好的时分，比方让人类接管了，得到「反应」。

一起，抱负轿车搭建了一个十分传神的虚拟「交通国际」，有点像一个超高水平的模拟器，让AI在里面自己操练。

终究，有了这个VLA「司机大脑」后，抱负轿车还规划了一个「司机Agent」。用户不能自制像跟你自己的司机说话相同，用自然言语告知车想去哪、怎样开，Agent会把你的指令传达给VLA，让它去履行。

不过，李想也表明，VLA（司机大模型）不能自制处理到全自动驾驭，但未来或许还有功率更高的架构。尽管现在的Transformer是才干最强的架构，甚至有时机超越人类，但它对算力的要求仍是很高。这也意味着VLA或许并非终极处理方案，未来的技能演进仍充溢变数。

拥抱开源，感谢 DeepSeek

DeepSeek 的呈现，加快了 AI 范畴的进化，也影响了抱负在 AI 范畴的研制进程。

在原有的方案里，抱负原方案在本年 9 月先推出一个满足好的语音模型（即 VLA 里的「L」部分），在此根底上再持续操练 VLA 模型。DeepSeek 的呈现让抱负看到了「站在伟人膀子上」的时机。

据李想回想，本年 1 月 DeepSeek R1 模型发布并开源后，他很快就和 CTO 谢炎、基座模型负责人陈伟达成了一致。团队内部以为应该以此为根底，加快 VLA 研制发展，并研讨如安在芯片上也跑到相同的操练和推理的功率。

李想说，公司「拥抱 DeepSeek 的进程比幻想得快」。而愈加令人意外的是，李想披露了公司开源自研四年的整车操作体系——抱负星环 OS，其中心动因并非战略考量，而是遭到 DeepSeek 开源精力的鼓动，「说白了纯粹是感谢 DeepSeek」。

李想在 AI Talk 中发表观念 | 图片来历：直播截图

当然，AI 的研讨和投入也在持续。李想说，2025 年抱负购买的操练卡比预期大约「多了 3 倍」。

现在，抱负正在操练两个基座大模型，分别是：

一个用于「抱负同学」App 的模型基座，参数量约为 300B（3000 亿），运用场景是用在相似豆包、KIMI 的语音模型应用上
VL（Vision+Language）模型底座，参数量大约在 32B（320 亿），为 VLA 模型的操练基座

在李想看来，VLA 模型是一条 DeepSeek、OpenAI、Waymo 等公司都没有走过的「无人区」，和现在通用言语模型最大的不同之处就在于，操练 VLA 模型，需求参加满足过视觉和言语联合的语料，即三维图画和模型对国际的了解语义要一起发生的，而这样的模型并没有原始数据。

在新年之后抱负的榜首次例会上，李想将 DeepSeek 的呈现比作 Linux 的推出，并表明抱负要追逐人工智能的「安卓时间」。抱负期望不能自制在专业和笔直范畴里，操练出一个专用大模型，以提高笔直范畴的 AI 才干，并终究交给价值。

在访谈终究，李想也说到了竞争对手特斯拉。他表明现在特斯拉 FSD 在国内的模型水平，并不代表特斯拉的实在实力，「大约在用 V12.5 曾经的模型」。但全体来看，他仍然以为特斯拉 FSD 体系的基本功很厚实，是抱负真实需求学习的才干。

「基本功」也是这场 AI Talk 中李想重复说到的高频词汇。他以为「不或许不做前面的堆集，直接吃到第 10 个包子」。他以为在内卷的环境下，更要注重基本功，不然创新会变成稍纵即逝。

而人工智能，显然是当下李想和他的团队认可并正在大力投入的那个方向。

告发/反应

标签：李想造车想造 Agent 背面

上一篇：从造车到造「司机」！李想亮大招，动嘴教AI开车……

下一篇：冲上热搜！杨单纯瘦到近60公斤，否定变瘦是因为切胃手术

网站分类

标签列表

最新留言

李想「不想造车」的背面，其实是想造「司机 Agent」

辅佐驾驭再进化：从「双体系」到VLA

拥抱开源，感谢 DeepSeek

网站分类

标签列表

最新留言

李想「不想造车」的背面，其实是想造「司机 Agent」

辅佐驾驭再进化：从「双体系」到VLA

拥抱开源，感谢 DeepSeek

4006666666