解析服务型智能机器人的学习方法论

2022-07-26 格物斯坦机器人教育

近些年，随着服务型机器人和民用无人设备的快速发展，传统依靠人手工编程设计规则实现的基于规则判断的确定性的机器人操作和规划正面临着越来越大的挑战：随着任务的逐渐复杂化和场景的动态化，机器人所面对的操作环境和过程的复杂程度快速上升，使得规则难以设计；另一方面，用户对服务型机器人和无人设备的行为亲和性提出了更高的要求，机器人需要在与人合作过程中采取更适应人类习惯，更个性化的行为模式，即从人适应机器逐步向机器适配人发展，这就使机器人行为的可学习性与适应性变得格外重要。

早先为赋予机器人执行任务的能力，在机械和自动化领域已有大量成熟的不基于学习的方法，其特点为使用了大量的预先设计的操作与决策规则。代表性的如使用软件编程方式实现的序列操作逻辑、使用目标相关的引导函数直接完成对行为的逆运动学优化求解、使用轨迹跟随方式直接控制机器人执行给定轨迹和远程遥操作机器人行为等。机器人实验室建设在目前主流的机器人任务环境中拥有广泛的应用，但仍有不足：在设计规则或任务优化函数时，需要对机器人的机械结构、性能有较清晰的建模；对环境的确定性有较为严格的假设要求，在遥操作中对操作者的操作水平、操作通信的实时性有较高的要求，这些要求随着机器人在道路、室内等非结构化环境中的逐步普及，变得越来越难以满足。基于青少儿机器人学习方法依赖现存的方法发展而来，通过从数据中的学习完成对策略的调整，不断地降低机器人操作策略制定中人参与的部分；同时通过探索学习，自主实现对环境的建模，从而放松对环境和自身机械结构建模的依赖。

不同于使用预先设计的规则实现操作任务，机器人技能学习强调在动态变化的环境中，在给定的任务下，利用大量数据或仿真提供的信息，动态交互地自主实现任务技能学习，并使用学习得到的策略在动态的环境中完成任务规划。创未来机器人作为一种学习方法，数据的质量和形式极大地影响着学习效果的好坏。对于离散时间（多步）决策序列，我们定义每一个决策时刻所依据的有限信息为，在此时刻执行的有限决策行为为，所构成的行为序列轨迹为。学习的数据为由行为序列构成的集合，学习的对象是任意状态下的决策策略。现有的两种常见的数据获取和策略优化方式为：

给出人工指定的函数来指导策略学习的强化学习类方法：使用建模在行为序列上的回报函数和建模序列行为的好坏，通过动态规划迭代求取最优策略。机器人课程教案与儿童机器人编程此方法适用于序列中每一时刻的行为优劣都有清晰明确的定义的情形，即较高的回报函数和代表较好的执行效果。此时我们可以通过大量的迭代探索，实现对回报函数的优化，同时得到大量较优的行为轨迹以进行策略的学习。

此方法以最大化与专家示教策略的相似程度作为学习目标，适用于任务指标难以明确，回报函数难以设计的场合。可以通过遥操作或专家在回路中的操作来获得。得到专家示教序列后，可以通过不断地环境交互实现最大化重现专家状态，进而最大化重复专家的决策行为。目前常见的使用回报函数定义最优策略并进行学习的方法为强化学习方法，强化学习方法通过定义一套值函数，并借助环境探索遍历迭代完成对值函数的采样与近似。教学教具机器人其中值函数的物理意义为在当前策略下，在状态或在状态而做出动作所得到的预期回报函数和，即代表了对当前策略在当前情形下的最优性的判断。通过每次采用最大化回报函数的策略，或按照回报函数增长方向更新现有策略，即可学习得到更好的行为决策模型。此类方法由于其目标为最优化回报函数期望和，因此效果好坏严格依赖回报函数本身的定义是否足够严谨，对较差轨迹的区分是否足够显著。

目前常见的使用示教轨迹定义最优策略并进行学习的方法为模仿学习方法。模仿学习方法通过定义一种建立在专家决策序列和当前策略产生的序列之间的相似性度量，或直接建立策略之间的相似性度量，并使之最大化（或最小化）来完成对专家示教中蕴含策略的学习。机器人早教常见的模仿学习方法分为两大类，其一为直接通过在示教样本上的监督学习来学习专家策略，数学描述为在专家决策序列每一时刻的状态-决策对下，监督式的学习，从而使得在每个专家状态上，最大可能性的复现专家示教的决策行为。

这种做法在面对确定性环境时较为快捷，但无法应对动态环境下未知状态带来的影响，即当实际执行时，由于累计误差和噪声等因素的影响，机器人到达未出现在专家示教序列中的状态时，其决策行为将无法得到有效保证。另一种方法是使用逆强化学习，借助环境探索，机器人少儿评价，不仅要求在专家示教包含的状态上做出相似于专家的决策行为，同时通过在整个观测空间回归代价函数并进行优化，使得学习到的策略在未包含在示教中的状态上，做出最大可能回到示教状态的行为。在儿童机器人方案中，不管使用监督学习或逆强化学习中的何种方式，模仿学习方法由于学习目标在模仿专家行为，因此对专家示教的数量和质量都提出了极高的要求，在示教较少，质量不好的情况下，很难进行有效的学习。

作为一种人在回路中的学习方法，倾向性学习的核心是人参与交互的便捷性，其中包括尽可能少的交互次数、尽可能充分的对样本的利用、尽可能符合人习惯的倾向性信息获取方式。编程机器人在以上三种倾向性学习方式中，第一种方式虽然较为简单直观，但要求专家在机器人每一次决策时给出判断，效率较低；第二种方式的学习稳定性依赖每一次交互得到的倾向性建模好坏，对策略缺少合理的约束使得求解效率低下；第三种方式将倾向性学习问题转化为一种类似于对倾向性选择得到结果的模仿学习，具备模仿学习的高效性和稳定性，但不适用于以排序为呈现形式的倾向性数据。

综上所述，通过借助示教的强化学习和倾向性学习，我们可以部分解决示教和回报函数质量不高或难以提供情形下的学习问题，面对现实生活中的机器人操作技能学习问题，在已经充分建模的确定性环境如生产线中，科学机器人现有的基于学习的方法仍难以取代基于手工方式设计实现的传统意义下的机器人控制器。相关领域的研究目前仍处在实验室阶段，但由于学习方法能够明显减轻人工设计规则的压力，同时从原理上能够有效地应对动态环境与交互操作需求，基于学习的方法有极大的研究必要性，相关领域也在快速发展中。此份简述仅作为对其中两个小方向的部分总结，机器人操作技能学习领域仍有大量待解决的问题，值得进行更深入的探讨。