强化学习之Eligibility Traces 强化学习

Eligibility Traces ?Eligibility traces是Reinforcement Learning中的一个基本机制。TD( λ )算法中的 λ 指的就是对Eligibility traces的运用。几乎所有的TD算法，包括Q Learning、Sarsa算法，可以结合Eligibility trace得到一个通用的能更有效学习的方法。
? 可以从两种视角看待Eligibility trace，一种是forward（theoretical）的视角，另一种是backward（mechanical）的视角。顾名思义，forward即为向前看，backward即为向后看。forward的方式因其计算量较大，故在真正实践时都是用的backward的方式实现。
n-Step TD prediction 【强化学习之Eligibility Traces】
文章图片

?图上是TD(1-step)…TD(n-step)、蒙特卡罗的backup图。target分别是：

G(1)t=Rt+1+γV(St+1)
G(2)t=Rt+1+γV(St+1)+γ2V(St+2)
...
G(n)t=Rt+1+γV(St+1)+γ2V(St+2)+...+γn?1Rt+n+γnV(St+n)
?当episode在n步之前终止，则 G(n)t=G(T?t)t=Gt
Forward view of TD( λ )

强化学习之Eligibility Traces

推荐阅读

中国2.4亿单身狗中国单身

抖音社区规则是什么？抖音社区规则在哪找？

黑化的《童话镇》，却叫人听出眼泪

抖音短视频赚金币怎么拍视频,抖音短视频怎么拍才会火

2020清明上河图十字绣150万清明上河图十字绣价格

切片值数据分析,数据分析中的切片

iPhoneX|iPhoneX 以上机型进入 DFU 模式方法

西门子冰箱加电不制冷怎么办

佳能纽扣记忆电池佳能纽扣电池生产地

附预约操作流程金华全市出入境窗口试行预约办理制度

redis数据库管理工具 redis管理工具收费

敷脚膜后多久开始脱皮

麻糍是浙江哪里的特产麻糍是哪里的特产

洋蓟怎么读怎么读洋蓟

如何使用亿速云服务器？亿速云服务器怎么使用

第二张水彩

水果鸡蛋羹——通便美容抗衰健脑

汇编语言采用什么语言，汇编语言是什么

冬天吃燕窝好还是夏天吃好

博世壁挂炉发出蜂鸣声博世壁挂炉有嗡嗡的声音