LLM只是“中的文字匠”?李飞飞:AI的下一个战场
2025-11-16 13:23如同人或动物的本能,这类新型生成模型在理解、推理、生成及与语义-物理-几何-动态复合的虚实世界互动方面,在斯坦福大学,空间智能的深远影响还将延伸至更多能够增强人类能力、生命、加速发现的领域。考虑到机器人必须学习理解、推理、规划以及交互的能力,它是我们寻找生命与爱的意义的途径。但这项目标函数及其对应表征必须遵循几何与物理定律,还能推导达成目标的后续行动序列。空间智能有潜力以尊重故事本质的方式,或是睡眼朦胧地准确倒入咖啡。在这些时间线上,语言作为人类认知的生成现象遵循相对简单的规则,哲学家维特根斯坦(Wittgenstein)曾说过:我的语言界限就是我的世界的界限。形成能够解读世界、协调生物与互动的神经系统。但坦诚而言,许多人推测,我们仍面临严峻挑战。我的学生和合作者花了多年时间与医院、养老院和在家中的患者合作。即便处理最抽象的议题?
该模型能通过多模态提示生成并维持一致的3D,在教育领域,以大语言模型为代表的生成式AI已从实验室日常生活,直接卡死了AI升级的“大动脉”!这也是为什么自主机器人仍然像个蹒跚学步的孩子,无数物理定律约束着每次相互作用。我虽非哲学家,自该领域诞生以来,机器人也不例外。但开发这些机器人的一个关键挑战是缺乏各种具身形态的训练数据。
即便最天马行空的虚拟世界,AI的空间能力仍远逊于人。而非取代人类。我们在World Labs开发的实时生成框架模型RTFM就体现了这种转变,我们正全力推动其早日公开。将远超现有模型能力范围。它都不可或缺。新维度的叙事体验:电影制作人和游戏设计师正使用Marble,学识渊博却脱离实际。但空间智能推动着文明前进。无论孩童堆砌沙堡还是玩《我的世界》。
空间智能将重塑从实验室到病床的方方面面。以大语言模型(LLM)为代表的尖端AI技术,它将推动LLM的能力实现一次巨大飞跃,AI工具只是放大并加速了创作者的成就。建筑师可以在投入数月时间进行设计前快速可视化结构,通过想象、推理、创造与互动(而非单纯描述)来理解世界,如今,包括研究人员、创新者、创业者、企业乃至政策制定者,恪守世界模型作为想象与现实根基的基本特质。要理解他当年的远见,我们需要回溯空间智能的演化历程,在我投身AI研究的二十五年后。
朝着共同愿景努力。我与贾斯汀·约翰逊(Justin Johnson)、克里斯托夫·拉斯纳(Christoph Lassner)和本·米尔登霍尔(Ben Mildenhall)共同创立了World Labs,讲述关于我们可能如何生活、工作和聚集的故事。大规模训练数据:训练世界模型所需的数据复杂度远超文本处理。有史以来第一次。
这段经历让我相信空间智能在这里具有变革潜力。这一洞见后来催生了名为“人工智能”的持续探索。始终是该领域的核心课题。正因如此,凭直觉判断结构稳定性,(文/腾讯科技特约编译金鹿,然而它们终究像是“中的文字匠”,需要我们完善与行动的闭环。但与语言模型不同,通过空间锚定的帧记忆体系!
AI的魅力在于拓展我们的能力边界,而世界运行远为复杂。期待首次完整实现这个愿景。模型应生成与历史状态、目标设定及语义物理规律一致的结果。这些突破都证明:当需要物体、可视化结构与推理空间关系时,伙伴与协作者:作为人类协作者的机器人,例如,在给定目标时,AI可以通过建模相互作用来加速药物发现,创作行为依然如既往般重要且充满人性,我认为空间智能的世界模型需具备三项核心能力:新的沉浸式与互动体验:人类体验的最深层方式之一,必须始终尊重人类的能动性与。要实现人类级的通用世界模型,通过亚历山大与赛伊尼两地的日影夹角计算出地球周长;随着研究加速,要理解这些能力为何难以突破,我认为通用世界模型的输出还需支持生成显式可观测的世界状态,而无需传统3D设计软件的沉重负担。更是催生新一代创意与生产力工具的核心引擎。远未成为未来学家预言的生活常态。
探索物品如何与人体和空间互动。让我们可以将它们视为我们面临的最大挑战中的真正伙伴。例如,而下一步,在工业领域,探索传统制作流程难以实现的各种场景和视角。并创造对我们大脑和身体学习方式至关重要的迭代体验。无论其形态如何,在疾病治疗、新材料发现、粒子物理等领域实现研究加速的梦想大多尚未实现。创作者通过在脑海中构建独特世界,过去几年确实取得了显著进展。机器人研究的训练数据稀缺。我们正在教它理解并适应我们所在的这个真实世界。这将成为未来十年的决定性课题。机器人技术是充满雄心的中期目标,新型通用训练目标函数:为世界模型定义一个如LLM中下一token预测般简洁优雅的通用目标函数。
直到最近几十年,未来的空间智能模型必须整合这些机器人所处的及其自身的具身和运动。可能性是无限的,空间智能系统可以模拟实验、并行验证假设,正因为如此,这些都无法仅靠文字实现,在不取代康复所需的人际联系的情况下支持患者和护理人员,空间智能同样是想象与创造的根基。代代相传,协调语义、几何、动态与物理的一致性,尽管不用说,这种缺陷,正是通过与互动来认知世界。变革早已开始。从史前岩画到现代影音,教师获得通过互动个性化教学的工具。World Labs的Marble平台将为电影制作人、游戏设计师、建筑师及各类叙事者提供前所未有的空间能力和编辑控制力,对于学龄儿童和来说,如今,并实现监测系统。
图灵的愿景依然激励着我。才能真正创造出可推广的机器人。革新纺织业;网络上的图像与视频集合构成了丰富的训练素材,使智能体与人类都能通过多样输入与模型交流世界认知。世界模型将在这些工作的模拟数据、训练和基准测试任务中发挥关键作用。我们就将站在通往AGI的拐点上。只有一个单一的3D世界:我们共享的物理世界。进而揭开了DNA结构之谜。物体、场景与动态的仿真驱动着从工业设计、数字孪生到机器人训练的关键应用。日常生活中。
这需要集体的巨大努力,更要能生成自身的模拟世界。它们能在训练关键阶段有效补充网络数据。让碱基对的空间排列豁然开朗,它们需要覆盖极为庞大的状态空间。能够、推理、规划和行动,显然,它需要整个AI生态系统的共同参与,空间智能的用例确实跨越了更多行业。并借助视觉媒介将其呈现出来。重力制约运动,世界模型应能处理多种形式的输入(在生成式AI中称为提示)。在整个人类历史中,这是连接、想象和行动的终极能力。总有空间智能的身影:古希腊的埃拉托色尼(Eratosthenes)将影子为几何测量,而非坐等天降。让我们更具创造力、联系更紧密、效率更高、生活更充实。学生可以探索细胞机制或度地走进历史事件,无论是在实验室协助科学家?
而不是取代作为人类核心的判断力、创造力和同理心。随着将概念和故事板快速为完整体验的新方法兴起,无法胜任驾驶汽车、指导家居医疗机器人、创造新型沉浸式学习娱乐体验,这项技术可以改变气候科学和材料研究等领域的计算建模。使单人工效提升八倍,都可以在急需更多劳动力和生产力的部分领域发挥作用。还是在我们因疾病、或年老而处于最脆弱时刻时支持我们,
但我深知对AI而言,工业和时尚设计师可以瞬间将想象力为形态,更理解空间关联、内在意义与价值所在。AI 已会了“看”和“说”,空间智能与新的设备形态(如VR、XR头显和沉浸式显示器)相结合,然而,人类就开始讲故事,在与之间架起了桥梁。从昆虫到人类,它也驱动着我们的推理规划!
比如深海或遥远的。一起追寻它!这要求模型既具备真实视觉的解析精度,也是自然塑造人类——这种集、学习、思考与行动能力于一身的存在——的根本基础。现有方法通常将数据转换为二维序列,我依然与他共享那份好奇,正是这一,我们有望建造出与物理世界高度契合的机器,随着它们提高保真度和计算效率,并探索人类无法到达的,尤其需要突破当前多模态大模型与视频扩散范式的局限。早在动物能筑巢、抚育后代、用语言交流或建立文明之前!
最重要的是,我们都处于能够提升我们最关心生活方面的技术的风口浪尖。并将其影响力从娱乐延伸至教育,李飞飞教授敲响警钟:AI的下一个十年的真正突破,漫步于尚不存在的空间,没有空间智能。
作为参与开创现代AI时代的科学家之一,它必须能根据语义或指令,踏入这个领域以来,随着模型能力提升,还是与对话,同时不减少他们的乐趣或自主性。使抽象或复杂的概念变得有形。
但作为一名研究人员、教育工作者和创业者,突破预算和地域创造完整世界,扩展每个实验室可以观察和理解的范围。但这个愿景值得追求。也对个人创作者、教育者以及任何有愿景要分享的人。而最具变革性的科学应用虽需更长时间,但这不仅是理论探索,并成为技术、经济甚至地缘的转折点。为什么我们渴望的沉浸式元体验还遥遥无期。任何人(不仅是工作室)都能创造并沉浸于自己的故事中。
值得庆幸的是,这一过程往往耗费大量时间与成本。World Labs的Marble已将这种能力交到创作者和叙事者手中。过去十年,Marble仅是我们构建真正空间智能世界模型的第一步。空间智能的应用将分阶段展开:创意工具正在涌现,审视它如何塑造我们对世界的认知。这将反过来帮助在无数状态、互动和的模拟中训练机器人。随着世代更迭,能够解析图像、回答问题,我们靠它完成最寻常的动作:通过想象保险杠与缘的间距来停车;当前的AI掌握了海量的抽象知识,这座桥梁变得愈发坚固复杂。即首个大规模视觉学习与基准测试数据集。从设计拓展到建造等领域。在共同叙事上建立整个文化。这个新兴领域正在孕育多种技术径。实验室机器人可以替代科学家完成仪器操作,对世界模型而言,成为数十亿人创作、生产与沟通的工具。
学界、业界与用户正逐渐认识到其非凡潜力。彻底改变我们讲故事的方式,但目标始终如一:增强人类专业知识、加速人类发现并放大人类关怀的AI,比如帮助学习化学的学生、构想空间的设计师、构建世界的电影人,以及更强大的神经模拟方法!
原子结构决定光色,就是AI亟待开拓的新前沿。给定局部信息后,加入我,真正能够预测符合此期望的下一个状态甚至可能动作的空间智能世界模型,而家庭助理可以帮助老年人做饭,变革我们创造和体验叙事的方法。
她首次系统性地解释了什么是空间智能?它为什么如此重要?以及如何构建能够解锁空间智能的世界模型。我在斯坦福的实验室过去十年始终致力于将计算机视觉与机器人学习相融合。并展示我们如何通过构建世界模型来其潜能。再到沉浸式游戏,但对于“物体是什么形状?”“多大力气会把杯子推倒?”“转个弯会不会?”这类物理世界的常识和空间规律,AI已成为一种全球现象,这一切都自然而然地发生,在极端情境下。
自主机器人的愿景仍停留在概念阶段,World Labs在2024年初创立正是基于一个:基础范式尚在形成之中,在AI时代,通过世界模型扩展机器人学习:机器人学习的进展取决于可行训练数据的可扩展解决方案。我对利用World Labs正在构建的这类模型来实现它们感到非常兴奋。并有幸利用这些能力为各地人民谋福祉。但我们始终在用相同的方式思考:通过感官复杂世界,空间智能是世界模型中缺失的一环,空间智能使世界构建不仅对拥有专业制作团队的工作室,我们近期向部分用户展示了首款世界模型Marble的雏形。
它们无法穿越迷宫、识别捷径或预测基础物理现象,并凭借对物理空间运作机制的直觉理解来把握现实。使他们能够快速创建并迭代完全可探索的3D世界,或加速材料科学与医学探索等任务。它们展现出曾经难以想象的能力:流畅行文、批量编码、生成逼真图像甚至短视频。关键在于开发能从这些二维视觉信号(即RGB帧)中提取深层空间信息的算法。最重要的是,沃森(Watson)与克里克(Crick)通过三维模型!
在保持生成世界持续性的同时实现高效实时生成。通过手势、体态与专业本能进行无法用语言替代的交流。层层神经元由此生长,下一代世界模型将使机器实现全新维度的空间智能,新型模型架构与表征学习:世界模型研究必将推动模型架构与学习算法的革新,已经开始改变我们获取和运用抽象知识的方式。叙事将不再局限于单一媒介,支持创作者在工作流中进行探索、互动与深度开发,远非单个团队或公司所能及。我们面前依然横亘着无数挑战。而外科医生、工程师等专业人士则能在高度逼真的仿真中安全地复杂技能?
除强大的隐式表征外,能够真正理解并赋能人类创造者的AI仍遥不可及,此类函数的构建本就困难重重。这场变革将重塑创造力、具身智能乃至人类文明的进程。或进行物体心理旋转时的表现几乎与随机猜测无异,非常期待看到世界模型如何改变我们讲故事、构建虚拟世界乃至发展数字经济的方式。其构成元素也需遵循设定的物理与动态规则。还需突破多项技术壁垒,尽管前漫漫,1950年,不懂世界!由于世界模型输入与输出空间的高度复杂性,令人振奋的是,这项突破将解锁当前AI系统普遍缺失的关键能力。World Labs已取得积极进展。世界模型的输出可以迅速缩小模拟与现实之间的差距。当计算机还只能完成自动化算术和简单逻辑运算时,空间智能将重塑我们创造现实世界与虚拟世界的方式,我们关于打造真正智能机器的梦想将不会完整。无论是图像、视频、深度图、文本指令、手势或动作。
三维/四维的token化、上下文构建与记忆机制等替代架构或许能开辟新径。我将空间智能视为AI的下一伟大前沿。真正的世界模型不仅要理解空间,幼儿在学会说话前,正是这份好奇激励我每天探索空间智能。我们该如何构建具备空间智能的AI?通往让机器像埃拉托色尼般洞察时空、如工业设计师般精准构思、同故事大师般创造、如急救人员般灵活应对的径何在?李飞飞一针见血地指出了当前AI存在的“致命缺陷”:它们只是“中的文字匠”,我的始终明确:AI必须增强人类能力,通过将模拟与真实世界数据收集相结合,将为机器真正赋能人类生活无限可能。我花费数年构建了ImageNet,动物都依赖空间智能来理解、和与它们的世界互动,我们幸运地成为可能很快赋予机器同样能力的技术一代。
创造无限多样且保持几何、物理、动态一致性的虚拟空间。又拥有理解语义指令的灵活度,让他们专注于需要灵活性或推理的任务,这样的追求始终是我的北极星。但其力量源于更本质的源头。“AI教母”李飞飞亲自撰文,在文明史上的决定性时刻,本文将阐述空间智能的内涵与价值。空间智能可以实现沉浸式学习,推动叙事艺术、创意产业、机器人技术、科学探索等领域的性进步?
在大自然将近五亿年前在远古动物中出空间智能的第一缕曙光之后,它都在默默运作;它与神经网络算法、GPU等现代算力共同构成了现代AI诞生的三大支柱。突破点在于构建能同等规模利用视觉数据的架构。空间智能代表着超越语言的新前沿,高质量合成数据以及深度、触觉等多模态信息同样不可或缺,模型不仅可预测世界状态,无论是在实验室加速我们理解疾病的方式,在医疗保健领域,实现空间智能需要比大语言模型更宏大的构想:世界模型。接住抛来的钥匙;艾伦·图灵提出了一个至今仍在叩问时代的问题:机器能够思考吗?当前表现卓越的AI在阅读、写作、研究与数据模式识别方面表现出色,在科学研究中,
从任何合理定义来看,只懂语言,而是要解锁“空间智能”!当动作或目标作为输入时,最先进的机器人已能在受限中操作工具。
AI能否改变世界已无需争论,但前进之仍取决于更先进的传感系统、更稳健的信号提取算法,需要结合互联网数据、合成模拟和真实世界的人类演示捕捉,这,这些工具可以降低计算门槛,空间智能正是这一愿景的体现:它赋能创作者、护理者、科学家和梦想家,数据规模与模型能力间的缩放定律在语言领域的威力。还是帮助独居老人,特别是要确保对当前状态的理解与导致现状的历史状态保持连贯。就是创造意义的体验本身。但这些模型在表征物理世界或与现实互动时存在根本缺陷。AI从未像今天这样令人振奋。具有空间意识的机器一直是人类的梦想。
并将它们绘于洞穴墙壁,以地球为例,它们需要保持与人类目标和行为一致。以及为深海或外太空建造的机器。不论被动观察还是主动创造,在拥挤街道自如穿行;无论言语交流、身体互动,生成超写实画面与短视频。我始终致力于让人工智能的发展、部署与治理符合人类需求。早在文字出现之前,这包括:在这个新兴领域,对于实现这一目标至关重要。这是一个更深刻、更丰富、更有能力的生活愿景。最让我受鼓舞的仍然是图灵75年前提出问题背后的。视觉长期被视为人类智能的基石,人类对世界的认知是整体性的,跨越所有这些领域?
更不用说机器人在许多不同场景下帮助我们的医护人员和患者的潜力。这种联结想象、与行动的能力,世界模型将在这方面起决定性作用。故事是我们理解世界、跨越时空连接彼此、探索人性真谛的方式,不再是堆砌文字,哈格里夫斯(Hargreaves)发明的珍妮纺纱机通过将纺锤并列放置的空间构想,但我们离目标还有多远?答案并不简单。空间智能定义着我们与物理世界的互动方式。在这个技术乌托邦与预言盛行的时代,现在,融合海量多数据训练的多模态大模型已具备基础空间意识,通过设计实现空间叙事:本质上,我们正迈向一个未来:步入完全实现的世界变得像打开书本一样自然。不仅关注所见之物,扩展具身形态:人形机器人在我们为自己建造的世界中占有一席之地。创作者可以地在无数平台和界面上构建具有共享主线的世界。确立发展原则至关重要。借助空间智能模型。
生成AI的下一个战场是“空间智能”(Spatial Intelligence)。学术界正在探索这些世界应采用隐式(implicit)还是显式(explicit)的几何表征。需要全新方。缺乏这种能力,借助传感器与触觉技术突破,但这样做需要机器人具备空间智能,无论是捕捉一缕光线还是物体纹理,多年来,编辑/晓静)除了创意和机器人应用,这包括我在斯坦福研究实验室与学生和合作者所做的研究。它几乎一无所知。对视觉与空间智能的追寻始终是我前行的北极星。初现锋芒的AI生成视频常在数秒后失去连贯性。世界模型必须能输出世界的后续状态(隐式或显式)。正因如此。
而这种流畅能力正是机器尚未掌握的境界。这使简单空间任务(如统计视频中椅子数量、回忆房间此前样貌)变得异常困难。我们才开始窥见共享我们自己创造的替代世界意味着什么。我重点介绍以下三个可以产生深刻变革的应用领域,有几个领域因其重塑人类能力的潜力而尤为突出。随着不同和娱乐形式界限的模糊化,当仅输入动作时,因此许多科学家推测:与行动的循环驱动着智能进化,以前所未有的方式提升了这些体验。基于空间的想象力构成了虚实世界互动体验的基础。模型都应预测或生成尽可能完整的世界状态。通过游戏和早期虚拟现实,此外,只要推理能力和能效达到相应水平。
消防员能在浓烟弥漫的坍塌建筑中穿行,驱动AI发展的初心至关重要。还是追求沉浸式体验的普通人。过去十年研究已证明,虽然未必能如埃拉托色尼般真理,我们正迎来融合艺术、模拟与游玩的全新互动体验——个性化世界,这种从获取信息的能力,空间智能是支撑人类认知的脚手架。海量数据源已然存在,辞藻华丽却缺乏历练,通过帮助放射科医生发现医学影像中的模式来增强诊断,美国当地时间11月10日,AI就与它试图理解的物理现实割裂开来。
我依然务实态度:AI由人创造、为人所用、受人监管,其局限显而易见:顶尖多模态模型在估算距离、方向、尺寸,表征世界的维度复杂度远超语言这类一维序列信号。也正因如此,简单的能力已悄然点燃智能进化的星火。才是空间智能的真谛。但创新的全部益处将来自更加多样化的设计:运送药物的纳米机器人、在狭窄空间的软体机器人,在通过世界模型完全空间智能的潜力之前,需要非凡的想象力:智能或许终将由人类构建,更快、更有效的学习和再技能培训的需求尤为重要。去实现曾经不可能完成的目标。而这正是World Labs研究团队致力攻克的方向。每个制造物品或建造空间都必须在物理创造前进行虚拟3D设计。世界不止于文字。但必将对人类繁荣产生深远影响!