Influence-Based Reward Modulation for Implicit Communication in Human-Robot Interaction

本文提出了一种基于转移熵的奖励调制方法,通过在部分可观测马尔可夫决策过程中动态调节智能体间的相互影响力,在不显式建模人类意图或依赖先验知识的情况下,有效促进了人机协作中的隐式沟通并提升了交互性能。

Haoyang Jiang, Elizabeth A. Croft, Michael G. Burke

发布于 Tue, 10 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于机器人如何学会“读心术”(其实是读懂你的意图),从而在不需要你开口说话的情况下,就能和你默契配合的故事。

想象一下,你和机器人一起走在一个狭窄的走廊里。

  • 情况 A:你们都想过去(竞争)。
  • 情况 B:你们想停下来打个招呼(合作)。

在现实生活中,人类不需要说话就能解决这种尴尬。你稍微往左偏一点,对方就知道你要让路,于是他也往左偏,你们就擦肩而过了。这叫**“隐性沟通”**。

但这篇论文提出的方法,就是教机器人掌握这种“读心”和“被读懂”的超能力,而且不需要机器人去猜你在想什么,也不需要你提前教它规则

核心概念:把“影响力”变成“糖果”

作者给机器人设计了一个特殊的“奖励机制”,就像给机器人发糖果一样:

  1. 通常的机器人:只关心“我能不能走到终点”。
  2. 这篇论文的机器人:除了关心终点,还多了一个目标——“我要让我的动作对你的动作产生‘影响力’"

作者用了一个叫**“转移熵”(Transfer Entropy)的数学工具来衡量这种影响力。你可以把它想象成“信息传递的音量”**。

  • 如果机器人动一下,你也能跟着动一下(比如你看到它往左,你也往左),说明“音量”很大,影响力很强。
  • 如果机器人动一下,你完全没反应,说明“音量”很小,它是个“隐形人”。

三种“性格”的机器人

为了测试这个方法,作者训练了三种不同“性格”的机器人,就像在调收音机的音量旋钮:

  1. 普通机器人(无调节)

    • 性格:按部就班,只走自己的路。
    • 表现:像个路痴,经常和你撞在一起,或者让你们俩都僵在原地不知道谁先走。
  2. 积极机器人(调大音量/Boost Influence)

    • 性格:热情、透明、甚至有点“讨好”。
    • 做法:它故意做出非常明显的动作,让你一眼就能看出它想干嘛。
    • 效果
      • 在合作时(比如都想打招呼):它主动让路或配合,你们配合得超级默契,成功率极高。
      • 在竞争时(比如都想抢道):它为了让你赢,会主动牺牲自己,像个“老好人”。
    • 比喻:就像你在过独木桥,它主动侧身说“您先请”,让你觉得它很懂礼貌。
  3. 消极机器人(调小音量/Resist Influence)

    • 性格:高冷、独立、不想被打扰。
    • 做法:它故意隐藏自己的意图,让你猜不透它下一步要干嘛。
    • 效果
      • 在合作时:因为它太“高冷”,你们很难配合,经常撞车。
      • 在竞争时:因为它不想受你影响,它会坚持自己的路线,甚至有点“固执”。
    • 比喻:就像过独木桥时,它像块石头一样纹丝不动,或者突然变向,让你完全摸不着头脑。

实验结果:真的有用吗?

作者做了三个层面的实验:

  1. 电脑模拟(虚拟世界)

    • 两个虚拟小人在走廊里跑。结果发现,只要有一个“积极机器人”,大家的配合度就飙升。哪怕对手是乱跑的,它也能带着对方配合好。
  2. 人机对战(虚拟游戏)

    • 真人玩家和机器人玩走廊游戏。
    • 结果:当玩家面对“积极机器人”时,玩家觉得自己更容易赢(无论是合作还是竞争),而且觉得这个机器人更“像人”、更“懂我”。虽然玩家嘴上说“感觉差不多”,但数据证明他们配合得更好。
  3. 真机实验(物理世界)

    • 用真实的机器人(Fetch 机器人)和真人在走廊里走。
    • 结果:虽然真实世界很复杂(人会走快、会犹豫),但规律依然存在。面对“积极机器人”,人类更容易达成合作目标。不过,在纯粹的竞争(抢道)中,人类面对“高冷机器人”时,反而更容易坚持自己的路线(因为机器人不干扰你)。

进阶版:自动驾驶的启示

作者还把这套方法用到了自动驾驶的模拟中(高速公路场景):

  • 积极模式:车子变得很“社交”,喜欢靠近前车,甚至试图通过加速来“诱导”旁边的车变道。这会让车开得更激进,容易撞车,但互动性强。
  • 消极模式:车子变得很“佛系”,离前车很远,开得慢,不想受别人影响。这很安全,但有点太保守。

总结:这篇论文到底说了什么?

简单来说,这篇论文发明了一种**“社交调音台”**。

以前,机器人要么太笨(不懂你),要么太聪明(需要猜你的心思,但这很难)。
现在,机器人可以通过调整自己**“对你产生影响的程度”**来改变互动模式:

  • 如果你想合作(比如一起搬东西、一起过马路),就调大音量,让机器人变得透明、好懂、甚至有点“牺牲精神”,这样人类会觉得它很贴心。
  • 如果你想独立(比如不想被打扰),就调小音量,让机器人变得高冷、独立,互不干扰。

最大的亮点是:机器人不需要知道你在想什么,也不需要你教它规则。它只需要通过“试错”,学会**“怎么做动作能让你产生反应”**,就能自动学会这种高级的社交技巧。

这就好比,机器人不再是一个只会执行命令的机器,而是一个懂得**“察言观色”**(通过观察你的反应来调整自己)的社交达人。