Dynamic Deep-Reinforcement-Learning Algorithm in Partially Observable Markov Decision Processes

该研究提出了三种新型深度强化学习架构,通过在部分可观测马尔可夫决策过程中将动作轨迹与观测值一同输入循环神经网络(特别是提出利用演员网络生成的隐藏状态训练评论家网络的 H-TD3 算法),有效提升了轨迹总结能力并实现了在保持性能的同时优化计算时间。

Saki Omi, Hyo-Sang Shin, Namhoon Cho, Antonios Tsourdos

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在教一个**“如何在迷雾中开车的智能司机”**。

想象一下,你正在训练一个自动驾驶机器人。在完美的实验室里(也就是论文里说的“完全可观测”环境),它能看到路面的每一个细节,知道车速、方向、距离,就像在阳光明媚的晴天开车一样。

但在现实世界中,情况往往很糟糕:

  • 传感器坏了(比如摄像头被泥巴糊住了)。
  • 有干扰(比如突然刮起大风,或者路面有看不见的坑)。
  • 信息缺失(比如你看不见后视镜,不知道后面的车在干嘛)。

这就是部分可观测马尔可夫决策过程 (POMDP)。简单来说,就是**“司机只能看到一部分真相,必须靠猜和记性来开车”**。

这篇论文就是为了解决这个“在迷雾中开车”的难题,提出了几个聪明的办法。

1. 核心问题:光看“眼睛”不够,还得记“手脚”

以前的智能司机(传统的强化学习算法)主要靠**“眼睛”**(观察数据,比如摄像头画面)来学习。如果画面模糊了,它们就晕了。

但这篇论文发现,**“手脚”的动作(Action)**其实超级重要!

  • 比喻:想象你在一个黑暗的房间里找开关。如果你只盯着墙壁看(观察),你可能永远找不到。但如果你记得自己刚才往左走了三步,又伸手摸了一下(动作历史),你就能推断出开关大概在哪里。
  • 论文发现:如果只给 AI 看过去的画面,它学得很慢;但如果把**“它过去做了什么动作”也告诉它,它就能像侦探一样,通过“我刚才做了什么” + “现在看到了什么”来推断出真正的路况。这大大提高了它在恶劣环境下的鲁棒性**(抗干扰能力)。

2. 记忆力的长度:记多久才够?

AI 需要记住过去的事情。但记多久合适呢?

  • 记太短:就像刚发生的事就忘了,遇到一阵风(干扰)就不知道车为什么晃了。
  • 记太长:就像背了一整本书的废话,脑子转不动,训练太慢。
  • 论文发现:对于不同类型的干扰(比如是持续的风,还是随机的噪音),需要的“记忆长度”不一样。论文通过实验找到了一个平衡点,让 AI 既能记住关键信息,又不会脑子过载。

3. 网络架构的升级:从“双头怪”到“单头精”

以前的 AI 大脑(神经网络)设计有点笨拙:

  • 旧设计:它有两个输入通道。一个通道专门记“过去的历史”,另一个通道专门看“现在的瞬间”。这就像一个人,左手记日记,右手看报纸,然后还要把两边拼起来思考。这有点浪费精力,而且容易拼错。
  • 新设计 (Modified LSTM-TD3):论文提出,不如把“过去的历史”和“现在的瞬间”串成一条完整的线,让 AI 一次性读完。这就像把日记和报纸合订成一本《时间线》,AI 读起来更顺畅,理解更深刻。

4. 终极大招:H-TD3(偷懒但聪明的算法)

这是论文最亮眼的创新。

  • 痛点:训练 AI 很贵、很慢。因为 AI 有两个大脑部分:
    1. 演员 (Actor):负责决定“下一步怎么走”。
    2. 评论家 (Critic):负责评价“刚才走得好不好”。
      在旧算法里,这两个大脑都要把过去的历史重新读一遍来算出结果。就像两个人分别读同一本厚厚的书,然后互相讨论,效率极低。
  • H-TD3 的妙招
    • 比喻:既然“演员”已经读完书并记住了重点(在它的脑子里形成了“隐藏状态”),那“评论家”何必再读一遍呢?
    • 做法:H-TD3 让“演员”读完书后,直接把**“笔记”**(隐藏状态)传给“评论家”。“评论家”拿着笔记直接开始打分。
    • 结果:省去了重复阅读的时间,训练速度大大加快,而且成绩(性能)并没有下降。这就像是一个高效的团队,一个人做笔记,另一个人直接看笔记干活,而不是两个人都去翻书。

总结

这篇论文告诉我们要造一个能在混乱、模糊、有干扰的现实世界里工作的 AI,不能只靠“看”,还得靠“记”和“想”。

  1. 要记动作:不仅要看发生了什么,还要记得自己刚才做了什么。
  2. 要理顺记忆:把过去和现在连成一条线,不要割裂开。
  3. 要懂得分享:让负责决策的大脑把“记忆笔记”直接分享给负责评价的大脑,这样既快又好。

通过这些改进,AI 就能在像“大雾天”或“传感器故障”这样的真实世界里,依然像个老司机一样稳稳当当。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →