强化学习-学习笔记8|强化学习-学习笔记8 | Q-learning 强化学习-学习笔记8|Q-learning

上一篇笔记认识了Sarsa，可以用来训练动作价值函数Qπ；本篇来学习Q-Learning，这是另一种 TD 算法，用来学习最优动作价值函数 Q-star，这就是之前价值学习中用来训练 DQN 的算法。

强化学习-学习笔记8|强化学习-学习笔记8 | Q-learning