强化学习之Eligibility Traces
Eligibility Traces ?Eligibility traces是Reinforcement Learning中的一个基本机制。TD( λ )算法中的 λ 指的就是对Eligibility traces的运用。几乎所有的TD算法,包括Q Learning、Sarsa算法,可以结合Eligibility trace得到一个通用的能更有效学习的方法。
? 可以从两种视角看待Eligibility trace,一种是forward(theoretical)的视角,另一种是backward(mechanical)的视角。顾名思义,forward即为向前看,backward即为向后看。forward的方式因其计算量较大,故在真正实践时都是用的backward的方式实现。
n-Step TD prediction 【强化学习之Eligibility Traces】
文章图片
?图上是TD(1-step)…TD(n-step)、蒙特卡罗的backup图。target分别是:
G(1)t=Rt+1+γV(St+1)
G(2)t=Rt+1+γV(St+1)+γ2V(St+2)
...
G(n)t=Rt+1+γV(St+1)+γ2V(St+2)+...+γn?1Rt+n+γnV(St+n)
?当episode在n步之前终止,则 G(n)t=G(T?t)t=Gt
Forward view of TD( λ )
推荐阅读
- python学习之|python学习之 实现QQ自动发送消息
- 五年后,我要成为独立自强自信的女性
- 4月23日海军节,我在青岛等你,一起看强大的中国海军。(如图如视频)
- 不废话,代码实践带你掌握|不废话,代码实践带你掌握 强缓存、协商缓存!
- 【变化】我的青椒学习之旅
- 社会教你顽强,而不是教你失望
- [成长]“青椒”给我打开了一扇窗——我的青椒学习之旅
- 《简社》绝句练习之九
- 强极则辱
- r语言python|r语言python 比较_R语言vs Python(数据分析哪家强())