Skip to content

具身智能

具身智能的定义与核心要素

具身智能作为人工智能发展的一个重要分支,正在迅速崭露头角,成为科技界和大众关注的热门话题。具身智能是通过在物理世界和数字世界的学习和进化,达到理解世界、互动交互并完成任务的目标。具身智能是一个由“本体”和“智能体”两部分耦合而成的智能系统,能够在复杂环境中执行任务。

具身智能需要具有如下的几个核心要素:

  1. 本体:作为实际的执行者,是在物理或者虚拟世界进行感知和任务执行的机构。本体通常是具有物理实体的机器人,可以有多种形态。
  2. 智能体(Embodied Agents):是具身在本体之上的智能核心,负责感知、理解、决策、控制等核心工作。
  3. 数据:数据是泛化的关键,但是涉及机器人的数据不仅稀缺,而且昂贵。
  4. 学习和进化架构:智能体通过和虚拟或者真实的物理世界的交互来适应新的环境、学习新的知识,并强化出新的解决问题方法。

具身智能的科研与技术进展

在基于Transformer的大语言模型浪潮带领下,微软、谷歌、英伟达等大厂以及斯坦福、卡耐基梅隆等高等学府都开展了具身智能的相关研究。具有代表性的项目包括:

  • 微软基于ChatGPT的强大自然语言理解和推理能力,能够生成控制机器人的相关代码。
  • 英伟达的VIMA基于T5模型,将文本和多模态输入交错融合,可以结合历史信息预测机器人的下一步行动动作。
  • 斯坦福大学利用大语言模型的理解、推理和代码能力与VLM交互并生成3D value map来规划机械臂的运行轨迹。
  • 谷歌的具身智能路线就比较多了,包括从PaLM衍生来的PaLM-E,从Gato迭代来的RoboCat,以及最新基于RT-1和PaLM-E升级得到的RT-2。

具身智能的挑战

虽然具身智能作为迈向通用人工智能(AGI)的重要一步,是学术界和产业界的热点,但要实现好的具身智能,仍然面临着算法、工程技术、数据、场景和复杂软硬件等诸多挑战。

  1. 强大的通用本体平台:需要解决硬件的关键零部件技术突破,形成具有优秀运动能力和操作能力的平台级通用机器人产品。
  2. 设计强大的智能体系统:需要解决物理3D环境精确感知、任务编排与执行、强大的通识能力、多级语义推理能力、人机口语多轮交互能力、long-term记忆能力、个性化情感关怀能力、强大的任务泛化与自学迁移能力等。
  3. 高质量的行业数据:现实场景的复杂多变,使得现阶段缺乏足够的场景数据来训练一个完全通用的大模型。
  4. 持续学习和进化的能力:需要通过虚拟和真实的交互,实现智能体的持续学习和进化。

具身智能开源平台

habitat-lab

Habitat-Lab 是一个模块化高水平的代码库,用于端到端开发具身人工智能。它旨在训练智能体在室内环境中执行各种具身人工智能任务,以及开发在执行这些任务时可以与人类互动的智能体。

为了实现这一目标,Habitat-Lab 旨在支持以下功能:

  • 灵活的任务定义:允许用户训练智能体执行各种单智能体和多智能体任务(例如导航、重新排列、指令跟踪、问答、人类跟踪),以及定义新任务。
  • 多样化的具体智能体:配置和实例化多样化的具体智能体,包括商业机器人和人形机器人,并指定它们的传感器和功能。
  • 训练和评估代理:提供单智能体和多智能体训练的算法(通过模仿或强化学习),以及使用标准指标对定义的任务上的性能进行基准测试的工具。

AllenAct

AllenAct是一个模块化且灵活的学习框架,其设计重点是满足 Embodied-AI 研究的独特需求。它为日益增多的具身环境、任务和算法提供一流的支持,提供最先进模型的复现,并包含大量文档、教程、启动代码和预训练模型。

Maintained by Robin