download:JAVA进阶训练营(2021最新版)
问题描述
囚徒困境是博弈论中经典问题,有两个囚徒有隐瞒未报的偷盗案件,在审问过程中每个囚徒可以选择抗拒不承认或者坦白承认。局势就是两个囚徒给出自己策略算一个局势,那么根据排列组合局势有
抗拒,抗拒
坦白,抗拒
抗拒,坦白
坦白,坦白
如果两个人都抗拒不承认每人会被判 1 年,如果两个人都坦白每个人会被判 3 年,如果一方坦白另一方抗拒,抗拒一方会被判 5 年而坦白会被释放。
局中人:
两个囚徒
策略
抗拒或者坦白
效用函数矩阵
每个人都会选择最大化自己受益的最大化策略,那么对于囚徒最大化受益就是服刑时间最短,为了这个目的怎样的策略才是理性的呢?
对于囚徒(A 囚徒)做出策略时还需要考虑到另一个囚徒(B 囚徒)的策略选择,那么 B 囚徒选择有两种可能分别是抗拒或者是坦白,这里就称为 B 囚徒,如果 B 囚徒坦白的前提,A 囚徒如果坦白将服刑 3 年如果抗拒则服刑 5 年,所以 A 最佳选择是认罪。
假设前面策略 A 囚徒选择了抗拒情况,B 囚徒选择坦白收益为 0,当 A 囚徒选择坦白情况,B 囚徒也会选择坦白获取去收益最大。
对于 A 囚徒无论 B 囚徒做出什么策略,坦白都是 A 囚徒的占优策略。两个囚徒都不能通过单方面改变策略来增加自己的效益,因此谁都没有游离这个策略组合的动机。
占优策略
在选择策略时,有一个策略的效用总是大于其他所有策略效用时,我们就把这类策略称为占优策略(Dominant Strategy)
【JAVA进阶训练营(2021最新版)sesae】占优策略纳什均衡
当所有参与者的最优回应是选择他们的占优策略时,这时达到的纳什均衡称为占优策略纳什均衡。
推荐阅读
- Java|Java基础——数组
- 人工智能|干货!人体姿态估计与运动预测
- java简介|Java是什么(Java能用来干什么?)
- Java|规范的打印日志
- Linux|109 个实用 shell 脚本
- 程序员|【高级Java架构师系统学习】毕业一年萌新的Java大厂面经,最新整理
- Spring注解驱动第十讲--@Autowired使用
- SqlServer|sql server的UPDLOCK、HOLDLOCK试验
- jvm|【JVM】JVM08(java内存模型解析[JMM])
- 技术|为参加2021年蓝桥杯Java软件开发大学B组细心整理常见基础知识、搜索和常用算法解析例题(持续更新...)