新方法使用众包反馈帮助训练机器人_北京前沿科学技术研究院

To teach an AI agent a new task, like how to open a kitchen cabinet, researchers often use reinforcement learning -- a trial-and-error process where the agent is rewarded for taking actions that get it closer to the goal.

研究人员经常会问一个问题，比如如何打开厨房橱柜，他们会强迫学习——一个重要的和错误的过程，在这个过程中，专家们会采取有助于实现目标的行动

在许多情况下，管理专家必须小心地设计出一种导向功能，这是一种激励机制，赋予代理人探索的动力人类专家必须反复更新代理探索的未来功能，并尝试不同的操作这可能耗时、低效且难以扩展，尤其是当任务复杂且涉及某些步骤时

来自麻省理工学院、哈佛大学和华盛顿大学的研究人员开发了一种新的强化学习方法，这种方法不需要经过专业设计即可实现相反，它是从许多其他用户那里收集的平均来源反馈，以引导个人学习商店实现目标

尽管有其他方法试图利用专家反馈，但这种新方法可以让AI代理不必担心，尽管来自用户的数据众包可能充满了错误这些类数据可能会导致其他方法失败

此外，这种新方法允许后台同步地聚集在一起，让世界各地的用户都能控制机器的强度

“设计机器人的最耗时和最有挑战性的部分之一是设计奖励功能。今天的奖励功能是由专家研究人员签署的——如果我们想让机器人完成许多不同的任务，这是不可扩展的。我们的工作建议通过众包奖励功能的设计和让非专家能够提供两个充分的反馈来扩大机器人学习的规模。”说，麻省理工学院电气工程与计算机科学部（EECS）的一位电阻教授Pulkit Agrawal完全支持麻省理工大学计算机科学与人工智能实验室（CSAIL）的不可能AIL

在未来，这种方法可以帮助机器人快速学习在用户的家中执行特定任务，而不需要自己显示每个任务的基本物理示例机器人可以自己探索，由众包和一位专家反馈指导其探索

“在我们的方法中，后面的功能指导代理人如何处理问题，而不是准确地说出它应该做什么来完成任务。因此，即使人类监督是不准确和嘈杂的，代理人也可以探索，这有助于他们了解更多信息，”作者Marcel Torne'23解释道，这是Improbable AILAB中的一个重要例子

龙卷风由他的MIT顾问阿格拉瓦尔加入论文；资深作家Abhishek Gupta，华盛顿大学助理教授；以及华盛顿大学和麻省理工学院的其他人该研究将在下个月的全国信息处理系统会议上发表

噪声反馈

用户反馈或信息学习的一种方式是显示代理发送的状态的两张照片，然后询问该用户的状态例如，也许对方的目标是打开一个卡扣一张图片可能显示它打开了该组合，而另一张图片则可能显示它开启了该组合Auserouldpick the photo of“better”state

以前有一些方法可以使用这种众包的二进制反馈来优化智能手机用于完成任务的功能然而，由于非专家不太可能出错，因此后面的功能可能会变得非常嘈杂，因此可能无法实现目标

“基本上，特工们会非常认真地对待这些功能。他们会尝试完美地调整这些功能。所以，与其直接优化这些功能，我们只需要用它来告诉他们应该挖掘哪些区域，”Tornesay说

他和他的合作者将处理解耦为两个独立的部分，每个部分都由自己的算法引导他们采用了新的强化学习方法HuGE（HumanGuidedExploration）

在另一方面，其他选举算法也在不断更新众包和人类反馈反馈并没有被用作回报函数，而是用来指导专家的探索从某种意义上说，然后一名专家将面包屑滴下，而不是将增量引导至目标

在另一边，代理人自己探索，由目标选择器监督和指导它收集所有尝试的动作的图像或视频，这些图像或视频发送给人类并用于更新目标选择器

这缩小了探索的机会，导致了距离目标越来越近的地方再次出现错误但是，如果在到达的时候没有后退，或者受到了后退的影响，那么绅士们将继续学习，尽管这是一种更低级的方式这使得数据包能够频繁且同步地聚集在这里

“探索循环可以一直持续下去，因为它只是在探索和学习新事物。然后当你得到更好的信号时，它就会探索更具体的方式。你可以让它们按照自己的节奏旋转，”补充道

由于反馈只是指导用户的行为，即使用户提供了错误的答案，它最终也会学会完成任务

快速学习

Theresearcher提出了模拟和现实世界任务数量的方法在模拟中，他们使用HuGE有效地学习具有长动作序列的任务，例如在特定的机器人中进行锁定或在大型迷宫中导航

在现实世界的测试中，他们利用HuGE来训练机器人来绘制字母“U”和拾取放置对象在这些测试中，他们从横跨三大洲的13个不同国家的109名非专业用户中收集了数据

在现实世界和模拟的实验中，Huge帮助人们学会比其他热方法更快地实现目标

研究者们发现，数据众包来源于非专家，其性能比研究者们产生和标记的合成数据更好对于非专业用户，标记30张图像或视频至少需要两分钟

“这使得可以扩展这种方法非常有希望，”Torneds

在研究人员在机器人学习中心会议上发表的相关论文中，他们提高了人们能够学习执行任务的能力，并自动为环境提供了持续学习的机会例如，如果您的电脑出现故障，该方法也会引导代理商关闭机柜

他说：“现在我们可以完全自主地学习，而不需要人工重置。”

Theresachersalso强调，我