深度学习|基于Pytorch的强化学习(DQN)之 Baseline 基本概念

目录

1. 引言
2. 数学推导
2.1 引理
2.2 改进的策略梯度
2.3 蒙特卡罗模拟
3. baseline的选择

1. 引言 我们前面讲过策略梯度下降算法 ,现在来介绍一种加快收敛速度的方法:设置Baseline。
2. 数学推导 我们之前推导过状态价值函数梯度的公式 深度学习|基于Pytorch的强化学习(DQN)之 Baseline 基本概念
文章图片
,以下证明源于这个公式。
2.1 引理 我们先证明一个引理:深度学习|基于Pytorch的强化学习(DQN)之 Baseline 基本概念
文章图片
其中 深度学习|基于Pytorch的强化学习(DQN)之 Baseline 基本概念
文章图片
是不依赖于 深度学习|基于Pytorch的强化学习(DQN)之 Baseline 基本概念
文章图片
的量
深度学习|基于Pytorch的强化学习(DQN)之 Baseline 基本概念
文章图片

这个 引理告诉我们:只要我们找到一个不依赖于 深度学习|基于Pytorch的强化学习(DQN)之 Baseline 基本概念
文章图片
的量 深度学习|基于Pytorch的强化学习(DQN)之 Baseline 基本概念
文章图片
,就有 深度学习|基于Pytorch的强化学习(DQN)之 Baseline 基本概念
文章图片

2.2 改进的策略梯度 由 深度学习|基于Pytorch的强化学习(DQN)之 Baseline 基本概念
文章图片
深度学习|基于Pytorch的强化学习(DQN)之 Baseline 基本概念
文章图片
我们得到 深度学习|基于Pytorch的强化学习(DQN)之 Baseline 基本概念
文章图片

这样我们便得到了策略梯度的新的表达式 深度学习|基于Pytorch的强化学习(DQN)之 Baseline 基本概念
文章图片

这里的 深度学习|基于Pytorch的强化学习(DQN)之 Baseline 基本概念
文章图片
不依赖于 深度学习|基于Pytorch的强化学习(DQN)之 Baseline 基本概念
文章图片
,我们称之为baseline,过这种方法我们可以降低方差同时不改变均值来使算法收敛更快
2.3 蒙特卡罗模拟 类似于之前训练策略网络,由于表达式 深度学习|基于Pytorch的强化学习(DQN)之 Baseline 基本概念
文章图片
含有期望,不好计算,于是我们使用蒙特卡罗近似这个期望,引入深度学习|基于Pytorch的强化学习(DQN)之 Baseline 基本概念
文章图片

由于深度学习|基于Pytorch的强化学习(DQN)之 Baseline 基本概念
文章图片
深度学习|基于Pytorch的强化学习(DQN)之 Baseline 基本概念
文章图片
本质上是一个随机梯度,且是 深度学习|基于Pytorch的强化学习(DQN)之 Baseline 基本概念
文章图片
的一个unbiased estimation,所以我们利用随机梯度上升更新参数深度学习|基于Pytorch的强化学习(DQN)之 Baseline 基本概念
文章图片
,这样状态价值函数就会变大,也就是策略变得更优。
3. baseline的选择 我们知道只要 深度学习|基于Pytorch的强化学习(DQN)之 Baseline 基本概念
文章图片
接近 深度学习|基于Pytorch的强化学习(DQN)之 Baseline 基本概念
文章图片
深度学习|基于Pytorch的强化学习(DQN)之 Baseline 基本概念
文章图片
的方差就会变小,收敛速度就会加快,因此我们要选取合适的 深度学习|基于Pytorch的强化学习(DQN)之 Baseline 基本概念
文章图片
来加快收敛速度,有两种常见的baseline的选取
第一种是 深度学习|基于Pytorch的强化学习(DQN)之 Baseline 基本概念
文章图片
也就是原始的策略梯度,之前已经讲过,就不再赘述。另一种是 深度学习|基于Pytorch的强化学习(DQN)之 Baseline 基本概念
文章图片
,由于 深度学习|基于Pytorch的强化学习(DQN)之 Baseline 基本概念
文章图片
先于 深度学习|基于Pytorch的强化学习(DQN)之 Baseline 基本概念
文章图片
出现,于是深度学习|基于Pytorch的强化学习(DQN)之 Baseline 基本概念
文章图片
不依赖于 深度学习|基于Pytorch的强化学习(DQN)之 Baseline 基本概念
文章图片
,又由我们之前推导过的公式 深度学习|基于Pytorch的强化学习(DQN)之 Baseline 基本概念
文章图片

【深度学习|基于Pytorch的强化学习(DQN)之 Baseline 基本概念】我们知道 深度学习|基于Pytorch的强化学习(DQN)之 Baseline 基本概念
文章图片
是接近 深度学习|基于Pytorch的强化学习(DQN)之 Baseline 基本概念
文章图片
的,这样便达到了减小方差的目的。

    推荐阅读