灵巧操纵的深度动力学模型

2019-10-09 16:51:48

用多指手进行灵巧的操纵是机器人技术中的一个巨大挑战:机器人系统的功能还无法实现人手的多功能性,弥合这一差距将使更通用和能力更强的机器人成为可能。尽管可以使用简单的平行颚式抓钳来完成一些实际任务(例如拿起电视遥控器或螺丝起子),但还有无数任务(例如在功能上使用遥控器来更改通道或使用螺丝起子拧入钉子)其中冗余的自由度所带来的灵活性至关重要。实际上,定义了灵巧的操作以物体为中心,其目标是通过精确控制力和运动来控制物体的运动-如果不能同时从多个方向撞击物体,这是不可能的。例如,仅用两个手指尝试常见的任务,例如打开罐子的盖子或用锤子敲打钉子,将很快遇到打滑,复杂的接触力和欠驱动的挑战。尽管灵巧的多指手确实可以实现多种操作技巧的灵活性和成功,但众所周知,许多这些更复杂的行为也难以控制:它们需要精确平衡接触力,反复断开和重新建立接触以及保持对手指的控制。未致动的物体。要在这样的环境中取得成功,就需要足够灵巧的手,以及可以赋予这种手适当控制策略的智能策略。我们在关于学习敏捷操纵的深度动力学模型的工作中对此进行了精确的研究。

常见的控制方法包括对系统以及环境中的相关对象进行建模,通过该模型进行规划以生成参考轨迹,然后开发控制器以实际实现这些计划。但是,由于这些方法需要对复杂细节进行精确建模,因此迄今为止,这些方法的成功和规模受到限制,这对于要求精确的精细运动技能的此类接触丰富的任务尤其困难。因此,学习已成为一种流行的方法,它提供了一种有前途的数据驱动方法,可以直接从收集的数据中学习,而无需对世界进行显式或准确的建模。无模型强化学习(RL)的方法,特别是已被证明获悉,实现政策的良好 性能上复杂的任务;但是,我们将证明,在需要高度灵活性(例如,移动铅笔以随心所欲地移动)时,这些最新的算法会遇到困难用户指定的笔触,而不是固定的笔触。无模型方法还需要大量数据,通常使它们对于实际应用是不可行的。另一方面,基于模型的RL方法可能更有效,但尚未扩展到类似复杂的任务。我们的工作旨在突破这一任务的复杂性,使灵巧的机械手能够转动阀门,在手中重新定向立方体,用铅笔书写任意动作以及围绕手掌旋转两个保定球。我们证明了我们的具有深度动力学模型(PDDM)的在线规划方法可以解决上述两个局限性:学习型动力学模型的改进以及在线模型预测控制的改进,

在现实世界的机器人系统上学习复杂的灵巧操作技能需要一种算法,该算法是(1)数据有效,(2)灵活和(3)通用。首先,该方法必须是足够有效的学习任务,在互动的短短几个小时,而相比之下,方法是利用 模拟和需要数百小时,几天,甚至几年的时间来学习。其次,该方法必须足够灵活以处理各种任务,以便同一模型可以用于执行各种不同的任务。第三,该方法必须是通用的,并且要进行相对较少的假设:它不应该要求系统的已知模型,而对于世界上的任意对象来说,这可能很难获得。

为此,我们采用基于模型的强化学习方法进行灵巧操作。基于模型的RL方法通过学习世界的预测模型来工作,该模型在给定当前状态和操作的情况下预测下一个状态。这样的算法比没有模型的学习者更有效,因为每个试验都提供丰富的监督:即使机器人未能成功执行任务,它也可以使用该试验来了解有关世界物理学的更多信息。此外,与无模型学习不同,基于模型的算法是“偏离策略”的,这意味着它们可以使用任何(甚至旧的)数据进行学习。通常,人们认为基于模型的RL算法的这种效率是有代价的:由于它们必须经历学习模型的中间步骤,因此它们的收敛性能可能不如无模型方法,更直接地优化奖励。但是,我们的模拟比较评估表明,当所需任务非常多样化时(例如,用铅笔书写不同的字符),基于模型的方法实际上比无模型的方法性能更好。建模与控制的这种分离使模型可以轻松地重用于不同的任务,这对于学到的策略而言并不那么简单。

我们完整的方法(图2)包括学习环境的预测模型(表示为$ f_ \ theta(s,a)= s'$),然后可以通过在以下位置规划动作过程来控制机器人每次通过基于采样的计划算法。学习过程如下:通过使用最新模型尝试执行任务,使用此经验更新模型并重复进行数据迭代地收集数据。尽管在先前的工作中已经探索了基于模型的RL算法的基本设计,但我们做出的特定设计决策对其性能至关重要。我们利用各种模型来准确拟合我们的机器人系统的动力学,并且我们还利用了功能更强大的基于采样的计划程序,该程序会优先采样时间相关的动作序列,并对采样分布执行奖励加权更新。总体而言,我们看到了有效的学习,良好的建模与控制分离以及直观的机制,可以反复学习更多有关世界的知识,同时在每个步骤中都推理出要做什么。

保定球

为了真实地测试灵活性,我们考虑了保定球的任务。也称为中国松弛球,这两个自由漂浮的球体必须在手掌中彼此围绕旋转。既需要敏捷又需要协调,该任务通常用于改善手指的协调性,放松肌肉的张力,并在术后恢复肌肉的力量和运动技能。保定行为会在手的高维工作空间中演变,并表现出接触丰富的(手指,手指,指球和球-球)交互作用,无论是在分析还是在物理模拟器中,这些交互作用都难以可靠地捕获。在物理硬件上成功的保定行为不仅需要通过现实世界的经验来学习这些交互,还需要有效的计划以找到精确而协调的演习,同时避免任务失败(例如丢球)。

对于我们的实验,我们使用ShadowHand-24自由度五指拟人化手。除了ShadowHand在每个关节处内置的本体感觉之外,我们还使用280×180 RGB立体图像对,将其输入到单独的预训练跟踪器中,以生成两个保定球的3D位置估计。为了在现实世界中进行连续实验,我们开发了一种自动重置机制(图3),该机制由一个坡道和一个附加机械臂组成:坡道将掉落的保定球漏斗到特定位置,然后触发7自由度Franka- Emika手臂使用其平行的下颌抓爪将其捡起,然后将其放回ShadowHand的手掌中以恢复训练。我们注意到,整个训练过程是使用上述硬件设置执行的,没有任何模拟数据的帮助。

在学习的初始阶段,手会继续投下两个球,因为这是很可能在它不知道如何解决任务之前的结果。后来,它学会了将球保持在手掌中,以避免由于掉落而产生的损失。随着学习的改善,大约30分钟的训练开始出现半旋转方面的进步。要使球超过90度方向是很困难的操作,PDDM在这里花费了适度的时间:要超过这一点,请注意从第一次控制开始必须发生的过渡(在图4的第三个视频面板中)带有小指的对象,然后通过手势间接控制它们,最后用拇指控制它们。大约2个小时,手可以可靠地旋转90度,经常旋转180度

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。