Model-free: 【强化学习点滴- model-free vs. model-based; on-policy vs. off-policy】不需要知道状态之间的转移概率(transition probability),仅仅依赖agent和environment进行实时的交互。
并不一定使用当前策略产生的样本。
Model-free method attempts to learn the optimal policy in ONE step, such as Q-learning, which learns the optimal policy in the environment after certain iterations, without the environment model
Model-based: 需要知道状态之间的转移概率。即需要先根据真实的情况学得一个model(如状态转移概率模型),比model-free多了一个对真实世界建模的过程。
Model-based method attempts to model the environment, and then based on the model, to determine the most appropriate policy.
并不一定使用当前策略产生的样本。
On-policy:
- 更新值函数时的策略时,只使用了当前策略产生的样本。即:探索环境使用的策略和要更新的策略是一个policy。(如PPO, SARSA)
- on-policy直译为同策略,即学习的方法和奖励的方法是相同的,每次学习和学习之后的奖励是相同的策略,类似亲自学习,这也可以理解为正反馈.
- on-policy是你当前优化的策略的样本是来自于这个策略。
- 更新值函数时的策略时,并不一定使用当前策略产生的样本。即:探索环境使用的策略和要更新的策略不是同一个policy。(如Q-learning,DQN,Rainbow)
- off-policy直译为异策略,即学习和奖励的方法是不同,比较模仿学习就是这类。
- off-policy有另外一个行为策略来优化当前的策略(目标策略)。
see more:
Reference
https://blog.csdn.net/ppp8300885/article/details/78524235
https://www.quora.com/What-is-the-difference-between-model-based-and-model-free-reinforcement-learning
————————————————