强化学习点滴- model-free vs. model-based; on-policy vs. off-policy

Model-free: 【强化学习点滴- model-free vs. model-based; on-policy vs. off-policy】不需要知道状态之间的转移概率(transition probability),仅仅依赖agent和environment进行实时的交互。
并不一定使用当前策略产生的样本。
Model-free method attempts to learn the optimal policy in ONE step, such as Q-learning, which learns the optimal policy in the environment after certain iterations, without the environment model
Model-based: 需要知道状态之间的转移概率。即需要先根据真实的情况学得一个model(如状态转移概率模型),比model-free多了一个对真实世界建模的过程。
Model-based method attempts to model the environment, and then based on the model, to determine the most appropriate policy.
并不一定使用当前策略产生的样本。
On-policy:

  • 更新值函数时的策略时,只使用了当前策略产生的样本。即:探索环境使用的策略和要更新的策略是一个policy。(如PPO, SARSA)
  • on-policy直译为同策略,即学习的方法和奖励的方法是相同的,每次学习和学习之后的奖励是相同的策略,类似亲自学习,这也可以理解为正反馈.
  • on-policy是你当前优化的策略的样本是来自于这个策略。
Off-policy:
  • 更新值函数时的策略时,并不一定使用当前策略产生的样本。即:探索环境使用的策略和要更新的策略不是同一个policy。(如Q-learning,DQN,Rainbow)
  • off-policy直译为异策略,即学习和奖励的方法是不同,比较模仿学习就是这类。
  • off-policy有另外一个行为策略来优化当前的策略(目标策略)。
加深理解 model free vs based 如果你想查看这个强化学习算法是model-based还是model-free的,你就问你自己这个问题:在agent执行它的动作之前,它是否能对下一步的状态和回报做出预测,如果可以,那么就是model-based方法,如果不能,即为model-free方法
see more:
Reference
https://blog.csdn.net/ppp8300885/article/details/78524235
https://www.quora.com/What-is-the-difference-between-model-based-and-model-free-reinforcement-learning
————————————————

    推荐阅读