麻省理工学院的新社交智能算法可帮助构建更好地理解人类目标的机器

时间：2022-05-14 08:58:06来源：

一种能够推断目标和计划的新算法可以帮助机器更好地适应人类计划的不完善特性。

在心理学家费利克斯·沃纳肯（Felix Warneken）和迈克尔·托马塞洛（Michael Tomasello）进行的一项关于人类社会智能的经典实验中（见下面的视频），一个18个月大的小孩看着一个人将一books书带到一个未打开的橱柜中。该名男子到达柜子时，笨拙地将书撞在柜子的门上几次，然后发出困惑的声音。

接下来发生了一些非凡的事情：幼儿愿意提供帮助。推断出该人的目标后，学步儿童走到橱柜并打开门，让该人将书本放进去。但是，生活经验如此有限的幼儿如何做出这种推断呢？

最近，计算机科学家将这个问题重定向到计算机上：机器如何做同样的事情？

进行这种类型的理解的关键因素可以说是使我们成为最人类的东西：我们的错误。正如幼儿只能从失败中推断出男人的目标一样，推断我们目标的机器也需要考虑到我们错误的行动和计划。

为了在机器中捕获这种社会智能，麻省理工学院计算机科学与人工智能实验室（CSAIL）和脑与认知科学系的研究人员创建了一种算法，该算法能够推断目标和计划，即使这些计划可能失败。

这种类型的研究最终可用于改进一系列辅助技术，协作或看护机器人以及Siri和Alexa等数字助理。

“代理”和“观察者”演示了新的MIT算法如何推断目标和计划，即使这些计划可能失败。在此，代理人制定了错误的计划以到达蓝色宝石，观察者认为这是可能的。

麻省理工学院电气工程与计算机科学系（EECS）的博士生兼新论文的主要作者Tan Zhi-Xuan说：“这种能够解决错误的能力对于制造能够可靠地推断出我们并为我们的利益而行动的机器至关重要。”关于研究的论文。“否则，人工智能系统可能会错误地推断出，由于我们未能实现更高的目标，所以这些目标毕竟不是我们想要的。我们已经看到了当算法依靠我们对社交媒体的反思性和非计划性使用而产生的后果时，会导致我们走下依赖和两极分化的道路。理想情况下，未来的算法将能够识别我们的错误，不良习惯和非理性，并帮助我们避免而不是加强错误。”

为了创建他们的模型，团队使用Gen（最近在麻省理工学院开发的一种新的AI编程平台）将符号AI规划与贝叶斯推理相结合。贝叶斯推理提供了一种将不确定的信念与新数据相结合的最佳方法，被广泛用于金融风险评估，诊断测试和选举预测。

该团队的模型比称为贝叶斯逆向强化学习（BIRL）的现有基准方法的执行速度快20到150倍，该方法通过观察代理商的行为来了解代理商的目标，价值或回报，并尝试预先计算完整的政策或计划。新模型在推断目标中有75％的时间是准确的。

加利福尼亚大学伯克利分校的Smith-Zadeh工程学教授Stuart Russell说：“ AI正在放弃将固定的已知目标赋予机器的'标准模型'。“相反，机器知道自己不知道我们想要什么，这意味着有关如何从人类行为中推断出目标和偏好的研究成为AI的中心主题。本文认真地对待了这一目标。尤其是，这是朝建模（进而转化为）人类根据目标和偏好产生行为的实际过程迈出的一步。”

怎么运行的

尽管在推断代理人的目标和愿望方面进行了大量工作，但许多工作都假定代理人为实现其目标而采取了最佳行动。

但是，该团队特别受到次优的通用人类计划方式的启发：不是事先计划好一切，而是只制定部分计划，执行它们，然后再从那里进行计划。虽然这可能会导致因“提前”思考不足而导致的错误，但同时也减轻了认知负担。

例如，假设您正在看着朋友准备食物，而您想弄清楚他们在做什么，这对您有帮助。您猜想您的朋友可能会采取以下几个步骤：预先加热烤箱，然后为苹果派做面团。然后，您仅“保留”与您的朋友的实际行为保持一致的部分计划，然后通过从此处开始的几个步骤进行计划来重复该过程。

看到朋友做面团之后，您可以将可能性仅限制在烘烤食品上，然后猜测它们可能会切成薄片的苹果，或者为混合物制成一些山核桃。最终，您将消除所有可能无法由朋友制作的菜肴的计划，仅保留可能的计划（即馅饼食谱）。一旦确定了哪道菜，就可以提供帮助。

团队的推理算法称为“顺序逆向计划搜索（SIPS）”，它遵循此顺序来推断代理的目标，因为它仅在每个步骤中制定部分计划，并且尽早削减不太可能的计划。由于该模型每次仅计划几个步骤，因此也说明了代理（您的朋友）可能会做同样的事情的可能性。这包括由于计划有限而导致错误的可能性，例如未意识到在打开冰箱之前可能需要腾出两只手。通过提前发现这些潜在故障，团队希望机器可以使用该模型来更好地提供帮助。

“我们的早期见识之一是，如果您想推断某人的目标，则无需比他们更进一步地思考。我们意识到，这不仅可以用来加速目标推断，还可以通过太短视而无法成功的行动来推断预期目标，从而导致我们从扩展算法转向探索解决当前AI系统的更多基本局限性的方法， ”麻省理工学院首席研究科学家，谭治X的共同顾问之一维卡什•曼辛格（Vikash Mansinghka）以及麻省理工学院脑与认知科学教授约书亚•特南鲍姆（Joshua Tenenbaum）说。“这是我们更大的月球计划的一部分-对18个月大的人类常识进行反向工程。”

该工作在概念上以Tenenbaum小组的早期认知模型为基础，表明可以将儿童甚至10个月大的婴儿对他人目标做出的简单推断量化为贝叶斯逆向计划的一种形式。

迄今为止，研究人员仅在固定目标集上相对较小的计划问题中研究了推论，而在未来的工作中，他们计划探索人类目标和计划的更丰富的层次结构。通过编码或学习这些层次结构，机器可能能够推断出各种各样的目标以及它们所服务的更深层次的目的。

“尽管这项工作只是一个很小的第一步，但我希望这项研究将为构建真正理解人类目标，计划和价值观的机器奠定必要的哲学和概念基础。” Xuan说。“将人类建模为不完善的推理者的这种基本方法感到非常有前途。现在，它使我们能够推断出何时计划被误解，也许最终还可以使我们推断出人们是否也误解了信念，假设和指导原则。”

参考：Tan Zhi-Xuan，Jordyn L.Mann，Tom Silver，Joshua B.Tenenbaum和Vikash K.Mansinghka撰写的“有边界计划代理人的在线贝叶斯目标推断”，2020年10月25日，计算机科学>人工智能.arXiv：
2006.07532

Zhi-Xuan，Mansinghka和Tenenbaum与EECS研究生Jordyn Mann和博士生Tom Tom Silver一起撰写了这篇论文。他们在上周的神经信息处理系统会议（NeurIPS 2020）上虚拟地介绍了他们的工作。