世界模型触发人工智能“灵性”
如今,我们正站在智能时代的转折点上,空间智能成为推动人工智能突破当前能力限制的关键。正如视觉能力催生了生物智能,空间智能有望引领人工智能进入一个全新的发展阶段,但必须让人们看到落到实处的可能。
被誉为“AI教母”的李飞飞教授首次创业即选择了空间智能方向,引发了行业对这一领域的广泛关注。
在温哥华举行的2024年TED大会上,她发表了题为《有了空间智能,AI将会理解现实世界》的演讲,将空间智能描述为人工智能发展的下一个重要里程碑。“机器视觉是远远不够。”李飞飞说,“视觉化为洞察、看见成为理解、理解导致行动,行动的冲动是所有具有空间智能的生物的天性”。
人们所熟知的人工智能大模型是拥有超大规模参数(通常在十亿个以上)、复杂计算结构的机器学习模型,通常能够处理海量数据,完成各种复杂任务,如自然语言处理、图像识别等。传统的通用大模型擅长处理文本、语音、图像和视频等四类数据,但对机器人来说,理解空间坐标、知道自己在什么位置、如何进行目标抓取才是核心。这也进一步强调了空间智能与现有人工智能技术的本质区别。
空间智能被认为是实现通用人工智能(AGI)的关键一环,可以理解为机器在三维空间当中的感知、理解和交互的能力。它在二维世界的基础上增加了深度信息,变成三维且极具立体,目标是将人工智能模型从像素的2D平面提升到立体的3D世界,赋予它们与人类一样丰富的空间智能。这样的空间智能最后呈现出来的方式可能是两个虚拟的智能体的交互,也可能是成为机器人的“大小脑”,进而实现实体交互。
尽管OpenAI的Sora模型可以文生视频,但就本质而言,它仍属平面二维模型,没有三维立体理解能力,只有通过空间智能,才能看到世界、感知世界、理解世界并让智能体自主做事,从而形成良性闭环。
形成空间智能的核心在于建立“世界模型”,让机器人具备类似人类感知的“灵性”。具体来说,需要建立能够对空间几何与物理过程进行精准建模、理解与推理的“世界模型”,使包括视觉、力觉、触觉等在内的各类机器人传感器具备人类感知的能力。
世界模型的基本思想,源自于对人类和动物如何理解世界的观察。我们的大脑能够模拟可能的未来场景,并基于这些模拟做出决策。借鉴这一机制,世界模型旨在为人工智能系统提供一个内部环境的模拟,使其能够预测外部世界的状态变化,从而在不同情境下做出适应性决策。
这个模型通过无监督的方式从未标记的数据中学习,从而无需明确指示就能理解世界动态。该模型架构由六个模块组成,包括执行控制的配置器、理解当前状态的感知模块、预测的世界模型、决策的成本模块、规划行动的行动模块,以及追踪状态和成本的短期记忆模块。
在强化学习领域,世界模型已经显示出其强大的潜力。通过在模型中模拟环境,人工智能不仅可以在虚拟环境中“想象”执行动作的后果,还能够在实际执行之前评估不同行动方案的效果,极大提高了学习效率和决策质量。此外,在自主决策系统,如自动驾驶汽车和机器人中,世界模型能够帮助系统更好地预测和应对可能的变化,提高了安全性和可靠性。
世界模型的最大优势在于其环境模拟与预测的能力,这种能力使得人工智能系统可以在进行实际操作之前,通过内部模拟来评估不同行为的后果,这在资源有限或风险较高的情境下尤为重要。世界模型还支持决策支持和规划能力的提升,允许系统在多个可能的未来中“看到”并选择最优路径。
然而,世界模型的构建和应用也面临着显著的挑战。首先,环境模拟的准确性极大地依赖于模型的复杂度和所拥有的数据质量。要精确地预测复杂环境中的动态变化,需要大量的数据和强大的计算资源,这对于资源有限的项目来说可能是一个限制。
其次,构建一个能够泛化到多种不同环境的世界模型是极具挑战性的,因为现实世界的复杂性和不可预测性远远超出了任何现有模型的处理能力。
尽管世界模型在理论上具有巨大潜力,但在实际应用中仍然存在许多未知数。例如,如何确保模型的预测准确性,如何处理模型可能的偏差,以及如何在不同的应用场景中调整模型参数以适应特定的需求等问题都需要进一步的研究和探索。
世界模型的潜在应用范围极为广泛,不同领域对于其理解与预测能力有着差异化的要求。
以自动驾驶为例,世界模型需要实时精准地把握道路状况,并对其变化趋势进行精确预测,重点聚焦于对环境的瞬时感知以及复杂变化趋势的预估判断。在机器人技术领域,世界模型对于导航、物体识别检测以及任务规划等关键任务起着不可或缺的作用,要求其能够精准地解析外部动态环境,并构建具有交互性和实体体验感的环境场景。而在虚拟社会系统模拟方面,世界模型需要敏锐地捕捉并预测更为抽象的行为动态,诸如社会交往互动以及人类决策制定等过程。
目前,空间智能的发展处于起步阶段,但整体发展速度非常快。Omdia最新报告显示,全球空间计算市场规模预计将在2029年超过100亿美元,在消费者和企业用例中被广泛采用,其累计平均增长率(CAGR)将达18%。另据泰伯智库预测,到2030年,中国元宇宙市场规模将到达8500亿元;其中与空间计算相关的市场在2030年可能达到3400亿元,约占整个元宇宙市场的40%。
空间智能开启无尽想想象力
从技术演进角度看,世界模型代表了人工智能领域的一种崭新思维方式。它通过将感知信息转换为关于外部环境的抽象模型,使得智能体能够有效预测和理解周围世界的动态变化。世界模型设计的核心在于利用历史数据,建立一个能够模拟现实环境的数字框架。
以自动驾驶为例,世界模型不仅可以帮助智驾系统根据历史经验预测其他车辆和行人的行为,还能在特定情况下提前调整行车策略,极大提高行驶安全性与效率。这种基于物理规则和常识的数字世界生成能力,是以往任何人工智能技术都无法比拟的。
而空间智能则是世界模型的自然延伸,可被视为人工智能从“自发感知”走向“自主认知”的迈进,其让人工智能技术开始突破信息空间的局限,向真实世界的三维空间扩展,进一步提升了人工智能在实际环境中的适应能力。它不仅是人工智能技术的再次进化,更是人工智能系统朝着真正理解和交互我们所生活的三维世界迈出的关键一步。正如语言智能让人工智能能够理解和生成人类语言一样,空间智能将使人工智能能够理解和操作物理世界。
相较于传统的图像识别技术,空间智能要求人工智能具备三维空间的理解与实时行为调整能力。通过对动态场景的分析与决策,人工智能不仅能够识别物体,还能够理解它们之间的相对位置和运动轨迹。
比如,在复杂的城市交通环境中,自动驾驶系统必须利用世界模型来预测交通流动,同时依靠空间智能确保能够有效应对突发的交通情况。此种双重能力的结合,让自动驾驶的安全性和可靠性将发生质的飞跃。
空间智能与世界模型的结合,不仅拓宽了人工智能的应用场景,也推动了算法的进一步发展。未来,两者将为智能体提供更高层次的认知与推理能力,使其能够在模拟的虚拟环境中进行反复实验,从而优化决策在现实世界中的应用。
如此,科学家和工程师们可以在无风险的条件下,测试和改进智能算法的表现。这种在虚拟环境中的训练,为现实中的应用提供了更加保险的保障,对于推动技术的成熟具有重要意义。
在日本,空间智能已全面铺开。比如日本正在把整个东京进行3D数字孪生化,这是实现AI空间智能的关键一步。这一数字孪生模型的规模非常大,而且它对东京的刻画也非常之精细,其绝对位置精度大约在10cm以内,不仅包含了LiDAR点云,还有详实的CityGML和实时交通数据。根据日本的预期,到2030年将实现一个完整的数字孪生城市,从交通到能源做到信息无缝融合,越来越多的城市房屋、工厂将转化为模拟数据。
对于城市进行的数字孪生其实也就是基于感知的城市数据,在网络空间上像“孪生”一样再现建筑物、道路等基础设施与经济活动、人流等各种要素。也就是说,可以通过基于从物理空间各个领域的活动中获取的实时数据,在网络空间中进行高级分析和模拟,并将其结果以交互式的形式高速反馈到物理空间。
正如英伟达高级研究科学家Jim Fan所言,未来的城市管理将依赖于实时图形引擎中的模拟和集群系统,这将使得机器人和自动化设备能够快速适应复杂的环境。机器人将不会孤立地进行训练,它们能够在实时图形引擎中进行模拟,并通过一个巨大的集群进行扩展,以生成下一个数万亿级别的高质量训练数据。
通过在高精度模拟环境中训练,机器人能获得丰富的训练数据,并在复杂场景中快速学习。这种方法将推动机器人从虚拟世界到现实世界的顺利迁移,提升其在实际应用中的效率和智能。
与传统的城市模拟相比,数字孪生能够提供实时反馈,并随着城市的动态变化而调整其状态,这使得城市管理变得更加灵活和高效。
例如,在新南威尔士州,通过数字孪生和人工智能结合的技术,交通管理可以实时调整以减少拥堵,从而最大程度地提高社会效益。
在中国,随着交通基础设施智能化升级的全面开启,实时数字孪生也开始在车路云一体化建设中发挥作用。蘑菇车联创始人兼CEO朱磊曾表示,车路云一体化的本质是“通感算”网络,核心功能是对实体世界实时数字化,通过深度融合通信、感知、计算的能力,为所有智能设备提供实时的数据服务,助力交通乃至更多产业领域实现更高效协作、决策和处理。
通过在路口铺设具备“通感算”能力的AI数字道路基站,并与AI路侧边缘计算系统(AI-MRS)相互配合,交通管理者能够获取路口300米范围内所有交通参与者的动态信息,实时构建数字孪生系统,为范围内所有车辆提供实时数据服务。
同时,将实时数字孪生系统嵌入车载大屏,驾驶员可以清晰看到路口全量动态信息,从而进一步掌握更为全面的路况信息。由于该数字孪生系统与实际物理世界时延小于0.1秒,可以做到数字孪生和现实交通环境之间的实时数据同步,为驾驶员作出最准确的驾驶决策提供可靠依据。
在医疗领域,空间智能技术可以对医学影像数据进行三维重建和分析,帮助医生更准确地诊断疾病。例如,对CT、MRI等影像数据进行三维重建,可以更清晰地显示人体器官和病变的位置、形状和大小,为医生提供更准确的诊断信息。同时,空间智能技术还可以为医生提供手术导航和辅助决策,通过对患者的身体结构进行三维建模和分析,医生可以更好地了解手术部位的解剖结构和血管分布,提高手术的准确性和安全性。
五亿年前,视觉的出现颠覆了黑暗的世界,引发了最深刻的动物进化模式。过去十年,人工智能的进步同样令人惊叹。当我们开始为计算机和机器人赋予空间智能,就像大自然开启了生物多样化时代,这场数字寒武纪大爆发的全部潜力才会完全展现,人工智能的未来将由此更具无尽想象力。