时间:2020-08-26 来源:互联网 阅读次数:
研究人员说:“我们还指出,我们的方法具有一些理想的数学特性,例如亚模量,这使我们能够采用为先前方法开发的扩展和理论界限,并将其与我们的方法一起使用。” “例如,我们可以使用先前的著作来一次查找多个信息性问题,而不是一次搜索一个问题。”
研究人员说:“受先前工作的缺点的启发,当我们开发这种算法时,我们专注于考虑人类实际回答机器人提出的问题的能力。” “这是基于这样的思想,即只有负责人类回答能力的机器人才能准确,高效地学习人类的需求。”
最终,机器人选择的问题是,在当前可能的人类偏好分布中,提供最多的信息增益。随后,它会根据收到的答案更新用户想要什么的答案。这个过程不断重复,让机器人通过学习用户的偏好逐渐提高性能。
研究人员说:“综合考虑我们所有的贡献,我们朝着使机器人能够确定人的偏好迈出了一步。” “我们证明了我们最初希望机器人最大化的真正目标——提出问题以获取尽可能多的信息,这可以用与现有方法相同的计算复杂性来解决。”
研究人员通过电子邮件告诉记者:“我们的团队对机器人如何学习人类想要的东西很感兴趣。” “一种直观的学习方式是通过提问。例如,您宁愿谨慎驾驶还是主动驾驶自动驾驶汽车?这种自动驾驶汽车应该在人类驾驶的汽车之前还是之后合并?”这项最新研究背后的主要假设是,理想情况下,机器人应该问一些有益的问题,以从人类用户那里获取尽可能多的信息。换句话说,高学习能力的机器人应该能够通过问尽可能少的问题,来理解人类的需求或想要他们做什么。
研究人员通过测量熵的减少(即不确定性的量度)来计算信息增益,该熵的减少是根据机器人提出的问题对人类用户的偏好进行的。换句话说,最大化信息增益的问题将最大程度地减少机器人对人类用户的喜好有什么不确定性。这为机器人提供了一个正式的目标,他们可以用来选择最有用的问题。
最终,工业机器人维修,机器人选择了在可能的人类偏好的当前分布范围内提供最大信息收益的问题。随后,它根据收到的答案更新对用户想要的信念。该过程不断重复进行,从而使机器人可以通过了解用户的偏好来逐渐提高其性能。
但是,实际上,大多数基于问题回答的现有培训方法,都没有考虑人类用户回答机器人提出的特定问题有多么容易。这通常会导致用户浪费时间来回答大量不必要的问题或无法确定地进行响应。
研究人员说:“我们制定了一种计算简便的方法,可以让我们快速发现人类对真实机器人任务的偏好,优于以往的方法。”在我们的研究中,用户更喜欢我们的方法,而不是其他最先进的技术。”
研究人员设计的方法贪婪地选择在每一个时间步长最大化信息增益的问题。从本质上讲,机器人对与之交互的用户的偏好保持一种信念(即概率分布),机器人示教盒维修,并从这种信念和可能的问题空间中获取样本。
在他们的研究中,机器人电路板维修,斯坦福大学的团队表明,训练机器人提问最大化信息增益与最先进的方法具有相同的计算复杂性。换句话说,与其他方法产生的问题相比,www.zr-fanuc.com,机器人发现这些信息性问题并不难。
下一篇:院士专家谈人工智能