强化学习-学习笔记8|强化学习-学习笔记8 | Q-learning
上一篇笔记认识了Sarsa,可以用来训练动作价值函数Qπ;本篇来学习Q-Learning,这是另一种 TD 算法,用来学习 最优动作价值函数 Q-star,这就是之前价值学习中用来训练 DQN 的算法。
推荐阅读
- 如何与潜意识沟通(——《简快身心积极疗法》读书笔记)
- 外卖广告大规模深度学习模型工程实践 | 美团外卖广告工程实践专题连载
- 9.20~10.17玛雅乐园学习营第八课作业
- 大厂技术博客学习|大厂技术博客学习(2)——5G时代下淘宝直播高清低延时技术jie秘
- CSS基础第一讲
- 笔记|C++之初识多态(Visual Studio 2019)
- 编程语言学习笔记C#|Unity C#(浅析同步异步与阻塞非阻塞与async关键字)
- 管理者读书笔记之陈春花《管理的常识》
- Spring|Spring Cloud框架学习-Spring Cloud Sleuth
- Spring|Spring Cloud框架学习-Spring Cloud Consul