深度强化学习是近年来人工智能领域内最受关注的研究方向之一 。并已在游戏和机器人控制等领域取得了很多耀眼的成果 。DeepMind 的工程师 Joyce Xu 近日发表了一篇博客文章 。介绍了深度强化学习领域的一些近期进展 。其中涉及到分层式强化学习、记忆、注意机制、世界模型和想象等方向 。
文章插图
我觉得 。深度强化学习最让人喜欢的一点是它确实实在难以有效 。这一点不同于监督学习 。用神经网络来解决一个计算机视觉问题可能能达到 80% 的效果;而如果用神经网络来处理强化学习问题 。你可能就只能眼睁睁地看着它失败——而且你每次尝试时遭受的失败都各不相同 。
强化学习领域内的很多最大的挑战都围绕着两大问题:如何有效地与环境交互(比如探索与利用、样本效率) 。以及如何有效地从经历中学习(比如长期信用分配、稀疏奖励信号) 。在这篇文章中 。我希望探讨深度强化学习领域内试图解决这些挑战的几个近期研究方向 。并且还会将其与人类认知进行优雅简洁的对比 。具体而言 。我将谈到:
分层式强化学习
记忆和预测建模
将无模型方法与基于模型的方法组合到一起
本文首先将简要介绍两个代表性的深度强化学习算法——DQN 和 A3C 。以为后文提供能够作为参考的直观知识 。然后我们会深入探讨几篇近期的论文和研究突破 。
DQN 和 A3C/A2C
声明:我假设读者已经对强化学习有一定的基本了解了(因此这里不会提供有关这些算法的深度教程) 。但就算你对强化学习算法的工作方式并不完全了解 。你应该也能阅读后文的内容 。
DeepMind 的 DQN(深度 Q 网络)是将深度学习应用于强化学习的最早期突破性成功之一 。其中使用了一个神经网络来学习用于经典 Atari 游戏的 Q 函数 。比如《乒乓球》和《打砖块》 。从而让模型可以直接根据原始像素输入得出应该采取的动作 。
从算法上看 。DQN 直接源自经典的 Q 学习技术 。在 Q 学习中 。一个状态-动作对的 Q 值(即 quality 值)是通过基于经历的迭代式更新来估计的 。从本质上讲 。对于某个状态下我们可采取的每个动作 。我们都可以使用收到的即时奖励和对新状态的价值估计来更新原来的状态-动作对的价值估计:
文章插图
DQN 的训练是最小化时间差分误差(TD-error)的 MSE(均方误差) 。如上所示 。DQN 使用了两个关键策略来使 Q 学习适用于深度神经网络 。而且这两个策略也在后续的深度强化学习研究中得到了成功的应用 。这两个策略为:
经历重放(experience replay) 。其中每个状态/动作转换元组 (s, a, r, s』) 都存储在一个记忆「重放」缓存冲 。并会被随机采样以用于训练网络 。从而可实现对训练数据的重复使用和去除连续轨迹样本中的相关性 。
使用一个单独的目标网络(即上式中的 Q_hat 部分)来实现训练的稳定 。所以 TD 误差不是根据源自训练网络的不断变化的目标计算的 。而是根据由一个基本固定的网络所生成的稳定目标计算的 。
在那之后 。DeepMind 的 A3C(Asynchronous Advantage Actor Critic)和 OpenAI 的同步式变体 A2C 也非常成功地将深度学习方法推广到了 actor-critic 方法上 。
actor-critic 方法将策略梯度方法与一种学习后的价值函数结合到了一起 。对于 DQN 方法 。我们仅有学习后的价值函数(即 Q 函数) 。而我们遵循的「策略」只是简单地在每个步骤取能最大化 Q 值的动作 。使用 A3C 和使用其它 actor-critic 方法一样 。我们会学习两个不同的函数:策略(即 actor)和价值(即 critic) 。策略函数是基于采取该动作的当前估计优势(advantage)来调整动作概率 。而价值函数则是基于经历和后续策略收集到的奖励来更新该优势:
文章插图
从上面的更新可以看出 。价值网络会学习一个基线状态值 V(s_i;θ_v) 。我们可以将其与我们的当前奖励估计 R 进行比较 。从而得到「优势」;策略网络则会通过经典的 REINFORCE 算法根据该优势调整动作的对数概率 。
A3C 真正的贡献在于其并行化和异步化的架构:多个 actor 学习器被分派到不同的环境实例中;它们全都会与环境进行交互并收集经历 。然后异步地将它们的梯度更新推送到一个中心的「目标网络」(一个借用自 DQN 的思路) 。之后 。OpenAI 的 A2C 研究表明异步方式实际上对性能没有贡献 。而且事实上还会降低样本效率 。对这些架构的详细解释已经超出了本文的覆盖范围 。但如果你和我一样对分布式智能体感兴趣 。那一定要看看 DeepMind 的 IMPALA 。这是一种非常有用的设计范式 。可用于实现对学习的扩展:https://arxiv.org/abs/1802.01561 。
推荐阅读
- 2023襄阳汉城景区周六周日节目单 襄阳汉城景区开放时间
- 阳江10大必玩景点 阳江十里银滩游玩攻略
- 盛世芳华精品菜谱大全 盛世芳华更新后最新菜谱2023
- 想买一款拍照好的手机,有哪些好的推荐?不要求拍出来漂亮,要真实,越接近实物越好?
- 有这五个特点的女人 一个女人愿意跟你一辈子
- 女生用这些话骂你 女生向你求爱的暗示语
- 看他的行为 怎么判断一个人有没有付出真心呢
- 吃板栗不能和什么一起吃
- 金渐层猫多少钱一只?