欢迎访问黑料吃瓜网

10年专注吃瓜

吃瓜质量有保 售后7×24小时服务

24小时咨询热线:4006666666
联系我们
tel24小时咨询热线: 4006666666

手机:13999999999

电话:010-8888999

邮箱:[email protected]

地址:经济开发区高新产业园

您的位置:首页>>朝阳吃瓜>>正文

朝阳吃瓜

李想「不想造车」的背面,其实是想造「司机 Agent」

发布时间:2025-05-15 点此:1000次

五个月前,李想高调地宣告了将 All in AI,表明抱负要从一家智能轿车公司,转型迈向一家人工智能科技公司。

优雅的李想「不想造车」的背后,其实是想造「司机 Agent」的插图

而这次,李想带着全新的 VLA(Vision-Language-Action)模型走到了大众面前。此前,VLA 已经在 3 月的英伟达 GTC 大会上初次发布,它是抱负轿车去年在辅佐驾驭范畴「端到端+VLM」的双体系架构上进化而来的新架构。

智能化,既是抱负近年来最期望打造的标签,也是要点投入研制的方向。抱负 2025 年产品的中心点都首要环绕智能化晋级晋级打开,李想曾在内部说:

「抱负的智驾原创性超越了增程」。

因而,推出全新的 VLA 架构模型,李想期望让辅佐驾驭进化出相似人类司机的才干。在李想看来,VLA 是抱负的「司机大模型」(或「司机 Agent」),他期望这个模型/智能体能像人类司机相同喜欢,将来也能像人类司机那样发明商业价值。

在 demo 演示视频里,抱负的这个「司机 Agent」展现了和人类司机相似的智能才干:不只具有现有的优异辅佐驾驭才干,并且还能直接通过语音的方法和人类驾驭员高效交互。

在通过高速收费站时,直接说出「走人工」三个字,体系就不能自制从 ETC 收费通道转向人工收费通道;在日常驾驭和泊车环节,也不能自制通过「前方掉头」、「C 区泊车」、「靠边泊车」等简略指令,调整行车或泊车的道路,达到了不露锋芒日常和网约车或代驾司机交流的水准。

辅佐驾驭再进化:双体系到VLA

通过了十几年的开展,辅佐驾驭阅历了屡次迭代。其架构演进大致可分为模块化⽅案(2022年之前)、端到端感知(2023年)、VLM+E2E (2024年)。

总的来说,自动驾驭大脑的规划从「各自为营」的小团队,进化到「边看边学」的超级学生,再到「知识+举动」的测验。

现在,辅佐驾驭又来到新的十字路口——VLA。这也是抱负AI Talk第二季的要点。基于此,李想以为,辅佐驾驭处于「拂晓前的黑暗」,拂晓立刻就要来了。

其实,2025年3月的英伟达GTC大会上,抱负就发布了下一代自动驾驭架构 VLA。这儿略微介绍一下,VLA最早是由Google DeepMind在2023年7月提出的用于机器人操控的模型,其以大言语模型为根底,模型在接纳摄像头的原始数据和言语指令后,不能自制直接输出操控信号,完结各种杂乱的操作。

关于抱负轿车而言,李想表明,VLA是一个「司机大模型」,它像人类司机相同喜欢。一起,李想着重,VLA 的诞生不是骤变,而是进化。

经典的李想「不想造车」的背后,其实是想造「司机 Agent」的图片

简略说,VLA并非扔掉端到端,而是将其作为VLA举动(A)部分的根底。只要做好规矩算法,才干知道如何做端到端,只要把端到端做到极致水平,才有时机去做 VLA,这个进程没有捷径。

他具体论述了操练VLA的四个进程,这有点像人类学开车的进程。

VLA司机大模型的操练和推理进程 | 图片来历:直播截图

榜首步是预操练,就像去驾校前先学交规、认路标,这一步的方针是让AI具有对国际和交通的根底认知。抱负先操练了一个VL(视觉和言语)基座模型。然后,它会被「紧缩」(蒸馏)成一个更小、能更快运转的模型(约3.2B参数),这样它才干流畅地跑在轿车里的车端芯片上。

第二步是后操练,像在驾校里跟着教练练车。工程师让AI观看很多人类司机开车的视频,学习仿照他们的操作。把会「看」和「听」的模型,跟学会了「举动」的模型结合起来,构成一个初级的VLA「端到端」模型。

第三步是强化操练,像拿到驾照后,在社会上不断锻炼提高,成为经验丰富的「老司机」。这个进程要通过两个检测:榜首, 参阅很多人类司机的驾驭数据。当它做得好时得到「鼓动」,做得欠好的时分,比方让人类接管了,得到「反应」。

一起,抱负轿车搭建了一个十分传神的虚拟「交通国际」,有点像一个超高水平的模拟器,让AI在里面自己操练。

终究,有了这个VLA「司机大脑」后,抱负轿车还规划了一个「司机Agent」。用户不能自制像跟你自己的司机说话相同,用自然言语告知车想去哪、怎样开,Agent会把你的指令传达给VLA,让它去履行。

不过,李想也表明,VLA(司机大模型)不能自制处理到全自动驾驭,但未来或许还有功率更高的架构。尽管现在的Transformer是才干最强的架构,甚至有时机超越人类,但它对算力的要求仍是很高。这也意味着VLA或许并非终极处理方案,未来的技能演进仍充溢变数。

拥抱开源,感谢 DeepSeek

DeepSeek 的呈现,加快了 AI 范畴的进化,也影响了抱负在 AI 范畴的研制进程。

在原有的方案里,抱负原方案在本年 9 月先推出一个满足好的语音模型(即 VLA 里的「L」部分),在此根底上再持续操练 VLA 模型。DeepSeek 的呈现让抱负看到了「站在伟人膀子上」的时机。

生动的李想「不想造车」的背后,其实是想造「司机 Agent」的插图

据李想回想,本年 1 月 DeepSeek R1 模型发布并开源后,他很快就和 CTO 谢炎、基座模型负责人陈伟达成了一致。团队内部以为应该以此为根底,加快 VLA 研制发展,并研讨如安在芯片上也跑到相同的操练和推理的功率。

李想说,公司「拥抱 DeepSeek 的进程比幻想得快」。而愈加令人意外的是,李想披露了公司开源自研四年的整车操作体系——抱负星环 OS,其中心动因并非战略考量,而是遭到 DeepSeek 开源精力的鼓动,「说白了纯粹是感谢 DeepSeek」。

李想在 AI Talk 中发表观念 | 图片来历:直播截图

当然,AI 的研讨和投入也在持续。李想说,2025 年抱负购买的操练卡比预期大约「多了 3 倍」。

现在,抱负正在操练两个基座大模型,分别是:

  • 一个用于「抱负同学」App 的模型基座,参数量约为 300B(3000 亿),运用场景是用在相似豆包、KIMI 的语音模型应用上
  • VL(Vision+Language)模型底座,参数量大约在 32B(320 亿),为 VLA 模型的操练基座

在李想看来,VLA 模型是一条 DeepSeek、OpenAI、Waymo 等公司都没有走过的「无人区」,和现在通用言语模型最大的不同之处就在于,操练 VLA 模型,需求参加满足过视觉和言语联合的语料,即三维图画和模型对国际的了解语义要一起发生的,而这样的模型并没有原始数据。

在新年之后抱负的榜首次例会上,李想将 DeepSeek 的呈现比作 Linux 的推出,并表明抱负要追逐人工智能的「安卓时间」。抱负期望不能自制在专业和笔直范畴里,操练出一个专用大模型,以提高笔直范畴的 AI 才干,并终究交给价值。

在访谈终究,李想也说到了竞争对手特斯拉。他表明现在特斯拉 FSD 在国内的模型水平,并不代表特斯拉的实在实力,「大约在用 V12.5 曾经的模型」。但全体来看,他仍然以为特斯拉 FSD 体系的基本功很厚实,是抱负真实需求学习的才干。

「基本功」也是这场 AI Talk 中李想重复说到的高频词汇。他以为「不或许不做前面的堆集,直接吃到第 10 个包子」。他以为在内卷的环境下,更要注重基本功,不然创新会变成稍纵即逝。

而人工智能,显然是当下李想和他的团队认可并正在大力投入的那个方向。

告发/反应

相关推荐

在线客服
服务热线

24小时咨询热线:

4006666666

微信咨询
红领巾黑料网
返回顶部