强化学习点滴- model-free vs. model-based； on-policy vs. off-policy 学习控制

Model-free: 【强化学习点滴- model-free vs. model-based； on-policy vs. off-policy】不需要知道状态之间的转移概率（transition probability），仅仅依赖agent和environment进行实时的交互。
并不一定使用当前策略产生的样本。
Model-free method attempts to learn the optimal policy in ONE step, such as Q-learning, which learns the optimal policy in the environment after certain iterations, without the environment model
Model-based: 需要知道状态之间的转移概率。即需要先根据真实的情况学得一个model（如状态转移概率模型），比model-free多了一个对真实世界建模的过程。
Model-based method attempts to model the environment, and then based on the model, to determine the most appropriate policy.
并不一定使用当前策略产生的样本。
On-policy:

更新值函数时的策略时，只使用了当前策略产生的样本。即：探索环境使用的策略和要更新的策略是一个policy。（如PPO, SARSA）
on-policy直译为同策略，即学习的方法和奖励的方法是相同的，每次学习和学习之后的奖励是相同的策略，类似亲自学习，这也可以理解为正反馈.
on-policy是你当前优化的策略的样本是来自于这个策略。

Off-policy:

更新值函数时的策略时，并不一定使用当前策略产生的样本。即：探索环境使用的策略和要更新的策略不是同一个policy。（如Q-learning，DQN，Rainbow）
off-policy直译为异策略，即学习和奖励的方法是不同，比较模仿学习就是这类。
off-policy有另外一个行为策略来优化当前的策略(目标策略)。

加深理解 model free vs based 如果你想查看这个强化学习算法是model-based还是model-free的，你就问你自己这个问题：在agent执行它的动作之前，它是否能对下一步的状态和回报做出预测，如果可以，那么就是model-based方法，如果不能，即为model-free方法
see more:
Reference
https://blog.csdn.net/ppp8300885/article/details/78524235
https://www.quora.com/What-is-the-difference-between-model-based-and-model-free-reinforcement-learning
————————————————