盛年不重来,一日难再晨,及时当勉励,岁月不待人。这篇文章主要讲述Policy-based Approach(基于策略的方法)相关的知识,希望能为你提供帮助。
![Policy-based Approach(基于策略的方法)](http://img.readke.com/220505/23332931X-0.jpg)
文章图片
![Policy-based Approach(基于策略的方法)](http://img.readke.com/220505/2333294357-1.jpg)
文章图片
![Policy-based Approach(基于策略的方法)](http://img.readke.com/220505/2333295926-2.jpg)
文章图片
step 1:Neural Network as Actor
![Policy-based Approach(基于策略的方法)](http://img.readke.com/220505/2333294949-3.jpg)
文章图片
step 2:goodness of function(训练一些Actor)
![Policy-based Approach(基于策略的方法)](http://img.readke.com/220505/2333293J3-4.jpg)
文章图片
是一个序列,包含T个状态s、行为a、奖励s。代表某一次的开始到结束的过程。
![Policy-based Approach(基于策略的方法)](http://img.readke.com/220505/2333295949-5.jpg)
文章图片
是一个奖励和,全部episode从开始到结束的总reward。
![Policy-based Approach(基于策略的方法)](http://img.readke.com/220505/2333295648-6.jpg)
文章图片
是某一设定好的参数
![Policy-based Approach(基于策略的方法)](http://img.readke.com/220505/2333294Z1-7.jpg)
文章图片
获得的总平均奖励
用策略
![Policy-based Approach(基于策略的方法)](http://img.readke.com/220505/23332959D-8.jpg)
文章图片
去玩N次游戏获得N个
![Policy-based Approach(基于策略的方法)](http://img.readke.com/220505/2333293J3-4.jpg)
文章图片
,则从概率
![Policy-based Approach(基于策略的方法)](http://img.readke.com/220505/23332911T-10.jpg)
文章图片
中进行采样。
![Policy-based Approach(基于策略的方法)](http://img.readke.com/220505/23332a448-11.jpg)
文章图片
【Policy-based Approach(基于策略的方法)】
step 3:pick the best function(找到最好的一个Actor)
方法:Gradient Ascent
即最大化
![Policy-based Approach(基于策略的方法)](http://img.readke.com/220505/2333295648-6.jpg)
文章图片
,用Gradient Ascent方法寻找使
![Policy-based Approach(基于策略的方法)](http://img.readke.com/220505/2333295648-6.jpg)
文章图片
最大的
![Policy-based Approach(基于策略的方法)](http://img.readke.com/220505/2333294Z1-7.jpg)
文章图片
![Policy-based Approach(基于策略的方法)](http://img.readke.com/220505/2333295Z2-15.jpg)
文章图片
![Policy-based Approach(基于策略的方法)](http://img.readke.com/220505/2333294c3-16.jpg)
文章图片
![Policy-based Approach(基于策略的方法)](http://img.readke.com/220505/2333292504-17.jpg)
文章图片
![Policy-based Approach(基于策略的方法)](http://img.readke.com/220505/23332a550-18.jpg)
文章图片
![Policy-based Approach(基于策略的方法)](http://img.readke.com/220505/2333292000-19.jpg)
文章图片
添加偏置
这里的
![Policy-based Approach(基于策略的方法)](http://img.readke.com/220505/2333295217-20.jpg)
文章图片
有可能总是正数,加上一个偏置b即可,b可以自己设,一个较简单的设法取每个
![Policy-based Approach(基于策略的方法)](http://img.readke.com/220505/2333293J3-4.jpg)
文章图片
的平均值
![Policy-based Approach(基于策略的方法)](http://img.readke.com/220505/2333292024-22.jpg)
文章图片
。
如果相减还是得到一个正数则可以提高该行为的概率,否则降低该行为的概率
![Policy-based Approach(基于策略的方法)](http://img.readke.com/220505/2333292012-23.jpg)
文章图片
![Policy-based Approach(基于策略的方法)](http://img.readke.com/220505/23332a947-24.jpg)
文章图片
推荐阅读
- [译]AndroidStudio 3.6 新特性概览
- Android 7.0 CTA认证蓝牙权限未明示的问题
- Ubuntu Redis安装详细步骤图解
- 什么是Web服务()
- Web服务组件
- Web服务的类型
- RESTful Web服务教程
- Web服务的关键术语
- 屏幕刷新率多少合适,图文详细说明电脑屏幕刷新率多少合适