裁剪:泽正
【新智元导读】怎样让机器东说念主领有东说念主一样的调和活动材干是具身智能不能幸免的挑战,而李飞飞团队在CoRL-LEAP计议会获取最好论文奖的ReKep对于这一挑战交出了一张亮眼的答卷。
AI发展热热闹闹的今天,机器东说念主距离东说念主类的调和活动材干还有多远?
近日,李飞飞团队发布对于机器东说念主操控的最新酌量「关系要道点拘谨ReKep」(Relational Keypoint Constraints),其基于视觉的环境自顺应的主宰发达让东说念主目下一亮!
这项酌量也获取了CoRL 2024-Learning Effective Abstractions for Planning (LEAP)的最好论文奖。
简要来讲,团队通过ReKep酌量讲明,通过将不同的操作活动指定为一系列对语义要道点进行操作的可优化时空拘谨函数,就不错秉承分层优化范例,以及时频率管制机器东说念主动作与感知-动作轮回的问题。
此外,为了幸免为每个新任务手动指定ReKep,他们联想了一个自动化范例,哄骗预西宾的LVM(large vision models)和VLM(vision-language models),从言语指示和RGB-D不雅察效果中生成ReKep。
酌量先容了在轮式单臂平台和固定双臂平台上的系统杀青情况,这些平台不错履行各式操作任务,举例下列视频中所展示的打包鞋子、双臂协同折叠衣物、绽开环境放弃册本、茶壶倒水任务,整个这些都不需要特定任务数据或环境模子。
机器东说念主主宰波及与环境中物体的复杂交互,这些交互平淡不错用空间和技巧范畴的拘谨条目来默示。
请看上列视频中将茶倒入杯中的任务:机器东说念主起首必须收拢茶壶柄,在输送过程中保持茶壶水平,接着将茶壶嘴瞄准地点容器,然后将其歪斜到正确的角度倒茶。
在这里,拘谨条目不仅包括中间子地点(举例,将壶嘴瞄准茶杯),还包括过渡活动(举例,在输送过程中保持茶壶水平),这些拘谨共同决定了机器东说念主在与环境互动时的空间、技巧和其他组合要求。
但是,怎样灵验地为现实全国中的各式任务制定这些拘谨条目是一个弘大的挑战。
天然使用机器东说念主与物体之间的相对姿势来默示拘谨是一种获胜且鄙俚使用的顺序,但波及到刚体变换,这种顺序便无法态状几何细节,而且也无法用于可形变物体。
另一方面,数据驱动顺序不错获胜在视觉空间中学习拘谨。天然这种顺序愈加纯真,但由于拘谨条目的数目跟着对象和任务的组合而箝制加多,怎样灵验地网罗西宾数据仍是一个未知数。
因此,酌量团队冷漠了这么一个问题:怎样才能让主宰得当以下三条脾气?
鄙俚适用性:可顺应需要多阶段、田园、双臂和反馈活动的任务;可膨胀性:通过基础模子的卓著,有可能杀青透彻自动化;及时优化性:可通过现成的求解器灵验求解,以产生复杂的主宰活动
团队还讲明了ReKep的特定款式具有专有的上风,因为它们不错通过事前西宾的大型视觉模子(LVM)和视觉言语模子(VLM)杀青自动化,从而约略字据RGB-D不雅察效果妥协放款式的言语指示对ReKep在简短10Hz的技巧内进行及时调控。
具体顺序
什么是要道点拘谨?为了了起见,酌量者假定已经指定了一组K个要道点。具体来说,每个要道点指的是场景名义上的一个3D点,其相应的笛卡尔坐标依赖于任务语义和环境(举例,手柄上的握取点)。
接着,ReKep将拘谨默示为Python函数,这些函数将一组要道点映射到一个数值,其中每个要道点是场景中一个任务特定的、语义上有真谛的3D点。
每个函数由对要道点的(可能横暴线性的)算术操作构成,这些操作可能横暴线性和非凸的。实质上,这些函数是编码了要道点之间对应的「空间关系」,这些要道点可能属于环境中的不同实体,举例机器东说念主手臂、物体部件和其他对象。
天然每个要道点仅由其活着界坐标系中的3D笛卡尔坐标构成,但若是对要道点施加刚性拘谨,多个要道点就不错共同指定线条、名义以及3D旋转。
ReKep在序列操作问题的配景下进行酌量,其中每个任务波及多个具无意空依赖关系的阶段(举例,在前述示例中的「握取」「对皆」和「倒水」)。
但是,一个操作任务平淡波及多个空间关系,况兼可能有多个技巧上依赖的阶段,每个阶段包含不同的空间关系。
为此,酌量团队将任务领会为N个阶段,并使用ReKep为每个阶段
指定两种类型的拘谨:
一组子地点拘谨
和一组旅途拘谨
,其中
编码了在第i阶段完了时需要杀青的要道点关系,而
编码了在第i阶段内每个景况下需要餍足的要道点关系。
以下图中的倒茶任务为例,该任务由三个阶段构成:握取、对皆和倒水。
阶段1的子地点拘谨将终端履行器拉向茶壶把手。然后,阶段2的子地点拘谨指定茶壶的嘴部需要位于杯口上方。此外,阶段2的旅途拘谨确保在输送过程中茶壶保持馈遗,以防御溢出。临了,阶段3的子地点拘谨指定了所需的倒水角度。
ReKep概览
怎样使用ReKep将操作表述为拘谨优化问题
为了履行操作任务,咱们的地点是通过如下样貌将适度问题进行公式化,从而获取合座的闹翻技巧轨迹。
其中,
默示技巧t时的终端履行器姿态,
默示从阶段i调度到阶段i+1的技巧点,这些亦然支持决策变量,
是技巧t时的要道点位置数组,h是要道点的前向模子,
和
离别是子地点和旅途谋划的支持代价函数(举例,幸免碰撞)。
具体而言,对于每个阶段i,优化过程将寻找餍左右一个子地点的终端履行器姿态至极对应的谋略技巧序列,并找到一个约略杀青子地点的姿态序列
,并餍足给定的ReKep拘谨和支持代价。该公式化顺序不错视为轨迹优化中的direct shooting。
及时管制优化问题的算法实例化
为了约略及时求解上头的公式,作家将问题进行领会并只将下一个子地点和达到它的相应旅途当作优化对象。
整个优化问题都使用SciPy杀青和求解,决策变量归一化为[0,1]。它们最初是用Dual Annealing和SLSQP当作局部优化器(简短1秒)来管制的,随后仅字据前一个解在简短10Hz下使用局部优化器来管制。
子地点问题
为了知说念面前阶段i对应的终端履行器姿态
,起首应该求解如下公式对应的子地点问题:
其中
包含支持适度老本:场景碰撞幸免、可达性、姿势正则化、解一致性和用于双臂树立的自碰撞功能。若是某个阶段与握取谋划,则还要包括grasp意见。
也即是说,上述方程试图找到一个餍足
的子地点,同期最小化支持老本。作家团队通过哄骗AnyGrasp求解这个问题。
旅途问题
在获取子地点
后,酌量者持续求解从面前终端履行器姿态
到子地点
的轨迹
:
其中,
包含以下支持适度代价:场景碰撞回避、可达性、旅途长度、解的一致性,以及用于双臂树立的自碰撞功能。若是到子地点
的距离在较小的容差
界限内,这时才不错干涉下一个阶段i+1。
回溯
尽管在管制了子地点和旅途问题后,已经不错在每个阶段内对于外部侵略作念到及时反馈。但若上一阶段的任性子地点拘谨条目受到影响而变得不再汲引,依然无法完成通盘责任任务。
为了幸免这么的情况,酌量团队让合座系统都不错进行跨阶段谋划。具体来说,在每个适度经过中,系统都需要查验是否违犯了
,若是发现了这种情况,就需要回溯到之前餍足条目的阿谁阶段去再行进行迭代。
对于要道点的前向模子
为了求解前述两个公式,在优化过程中必须使用前向模子h,以推断从终端履行器姿态变化
到要道点位置变化
。
作家对终端履行器与「握取要道点」(属于团结物体或部件的刚性要道点组)之间作念出刚性假定。也即是说,给定终端履行器姿态的变化
,就不错通过应用相易的刚性变换来诡计要道点位置的变化:
,同期假定其他要道点保持静止。
怎样从RGB-D不雅测数据和言语指示中自动获取ReKep
为了使系统约略在给定解放款式任务指示的情况下在绽开环境履行任务,团队联想了一个使用大型视觉模子和视觉言语模子的pipeline,用于生成要道点proposal和ReKep,离别征询如下:
获取候选要道点
给定一个RGB图像
,起首从DINOv2中提真金不怕火特征patch
。然后履行双线性插值,将特征上采样到原始图像大小
。为了确保候选要道点的界限不错涵盖场景中的整个关联对象,作家哄骗Segment Anything(SAM)提真金不怕火场景中的整个掩码
。对于每个掩码j,作家聚集了k=5的k-means和余弦相似度意见,对掩码特征进行聚类。
再将每个聚类的质心用作要道点候选项,并使用校准的RGB-D将其投影到全国坐标。与其他候选技俩相距不远的候选技俩将被筛掉。
总之,这照旧过约略很好地识别出一个较大比例的细粒度和有语义真谛的对象区域。
ReKep生成
获取候选要道点后,就不错将它们用数字标识叠加在原始RGB图像上。接着聚集任务的言语指示,使用visualprompt来对GPT-4o进行发问,以生成所需的阶段数以及每个阶段i相应的子地点拘谨
和旅途拘谨
。
值得贯注的是,这些函数不获胜参与要道点位置的数值运算。相背,作家哄骗VLM的上风将空间关系指定为算术运算,举例要道点之间的L2距离或点积,这些运算惟一在被调用时才实例化,并与有利的3D追踪器追踪的执行要道点位置沿途使用。
此外,使用一组要道点位置进行算术运算的一个进击上风是,当提供饱和的点并强制履行关联点之间的刚性时,它不错指定圆善的三维旋转,但仅在职务语义需要时才这么作念。这使得VLM约略使用三维笛卡尔空间中的算术运算来推理三维旋转,灵验地幸免了处理替代的三维旋转默示和履行数值诡计的需求。
实验
作家将实验的地点设定为申诉并考据以下酌量问题:
咱们的框架自动制定操作政策和对应玄虚操作活动的材干怎样?咱们的系统能否扩充到新对象和操作政策?在一个轮式单臂平台和一个固定式双臂平台,各个组件怎样导致系统的故障情况?
计算圭臬和基准
作家设定了对于倒茶、放弃册本、回收罐子、打包盒子、折叠衣物、打包鞋子以及合营折叠七项任务的实验评估,况兼还通过在履行过程中转换任务对象的姿态位置,对其中三个任务进行了外部侵略评估。
这七个任务旨在考据这个系统的不同方面,包括具有学问性知识的田园范例、具无意空依赖性的多阶段任务、具有几何意志的双臂调和以及在与东说念主类合营和受到侵略时的反馈材干。
实验任务和可视化优化效果
作家评估了该系统的两个变体:「Auto」使用基础模子去自动生成ReKep,而「Annot」使用东说念主工标注的ReKep。
每个任务评估有10次磨练,其中物体的姿势是立时的。告捷率见下表,作家将VoxPoser当作基准进行相比。
不错看出ReKep大幅最初VoxPoser,况兼「Annot」也大幅最初「Auto」。
下表则是显现了系统两个变体「Auto」、「Annot」对于倒茶、打包盒子、合营折叠三个任务受到外部侵略时的具体发达,通常地亦然ReKep大幅最初VoxPoser,况兼「Annot」也大幅最初「Auto」。
综上则证实了,东说念主工标注的ReKep「Auto」的玄虚性能最好。
操作政策中的泛化
作家系统地评估了怎样通过专注于一项任务来发展出新颖的操作政策。
对于服装折叠这个单一任务,其中包含8个专有的服装类别,每个类别都需要专有的折叠样貌,况兼需要几何与学问推理。评估是在双臂平台上完成的,这给双臂调和带来了更进一步的挑战。
对于操作政策的泛化,作家依然秉承了获取候选要道点部分的决策,即为使用visual prompt来对GPT-4o进行发问,其辅导词仅包含一般证实,莫得凹凸文示例。「政策告捷率」计算生成的ReKep是否可行,这同期测试了要道点建议模块和VLM,而「履行告捷率」计算的是给定每件服装可行政策的系统告捷率。每种顺序都要进行10次磨练。
真谛的是,效果是不同类别的政策截然有异,其中很多政策与东说念主类折叠每件穿着的样貌一致。举例,它不错识别出两个袖子频频在透彻折叠穿着之前折叠在沿途。
在不需要使用两只手臂的情况下,访佛于东说念主类折叠穿着的样貌,只使用一只手臂。
但是,咱们如实不雅察到VLM可能会错过某些门径,无法按照操作员的预期完成折叠,但咱们默契到,这实质上是一个绽开式问题,平淡基于个东说念主的喜好。
ReKep用于折叠不同类别服装的新式双臂政策至极告捷率
告捷率。由于ReKep在这项任务中老是一次关联两个点,因此若是两个要道点需要对皆,则会用箭头将其连络起来。
连络。要道点的神采默示限定。在毛衣任务中,两个袖子
起首用两只手臂同期折叠,然后两只手臂收拢圆领对皆到底部。
论断和不及
在这项责任中,作家先容了关系要道点拘谨(ReKep),这是一种使用拘谨的结构任务默示法,它通过语义要道点来指定机器东说念主手臂、物体(部件)和环境中其他代理之间的预期关系。
聚集点追踪器,咱们讲明了ReKep拘谨条目不错在分层优化框架中叠加灵验地求解,从而当作闭环政策以及时频率脱手。咱们还展示了ReKep的专有上风,即它不错由大型视觉模子和视觉言语模子自动合成。咱们在两个机器东说念主平台和各式任务上展示了效果,这些任务具有多阶段、田园、双臂和反馈活动等特质,整个这些都不需要特定任务数据、异常西宾或环境模子。
尽管远景看好,但仍存在一些局限性。起首,优化框架依赖于基于刚性假定的要道点前向模子,尽管高频反馈回路放宽了对模子准确性的要求。其次,ReKep依靠精准的点追踪来正确优化闭环活动,而由于间歇性守密严重,这自身即是一项具有挑战性的3D视觉任务。
临了,当今的决策假定每个任务都有固定的阶段序列(即骨架)。使用不同的骨架再行谋划需要高频率地脱手要道点建议和VLM,这给诡计带来了相当大的挑战。