辛普森悖论用外行的术语来说, 就是将那些子组数据合并后, 数据内部相对于子组的关系反转。
例如, 如果一所大学中有两个部门, 并且两个部门都有很高的女性被录取的可能性, 那么根据直觉组合其数据后, 女性的整体录取概率应该很高, 但这可能不是事实。
数学上
给定a1/b1 <
c1/d1并且a2/b2 <
c2/d2那么(a1 + a2)/(b1 + b2)<
(c1 + c2)/(d1 + d2)?
辛普森悖论说, 这可能不是真的。
7/8 <
2/2 and 1/2 <
5/8 yet, (7+1)/(2+2)>
(2+5)/(2+8)
在针对加州大学伯克利分校的招生数据诉讼中也看到了类似的案例, 该数据显示, 与女性申请相比, 男性获得申请被接受的可能性更高。但是, 在检查了各个部门之后, 考虑了一个相反的情况, 因为最多的部门都偏爱女性而不是男性。
申请者 | 已录取 | |
---|---|---|
男 | 8442 | 44% |
女 | 4321 | 35% |
部门 | 男 | 女 | ||
---|---|---|---|---|
申请者 | 已录取 | 申请者 | 已录取 | |
A | 825 | 62% | 108 | 82% |
B | 560 | 63% | 25 | 68% |
C | 325 | 37% | 593 | 34% |
D | 417 | 33% | 375 | 35% |
E | 191 | 28% | 393 | 24% |
F | 272 | 6% | 341 | 7% |
原因:
之所以会出现这种现象,是因为更多的女性申请竞争激烈、录取率低的部门,而更多的男性申请竞争不那么激烈、录取率高的部门。
【概率统计|辛普森悖论(加州大学伯克利分校的诉讼)】从表中可以看出, 在高录取率部门中, 有825名男性申请, 而108名女性申请了一种。而更多的女孩正在诸如F和F。最终导致大学录取的男性人数多于女性。
另一个例子:
假设我们有一个如下图所示的配置, 绿色和蓝色两种类型的豆。
文章图片
混合前:
从罐子里挑绿豆的可能性,
7/8<
2/2
(Jar1)(Jar2)1/2<
5/8
(Jar3)(Jar4)
混合后:
从罐子里摘绿豆的可能性
8/10>
7/10Inequality
(Jar1 + Jar3)(Jar2 + Jar4)
从这里我们还可以看到, 最初的罐子1和3分别比罐子2和罐子4采摘青豆的可能性更高, 但是在混合罐子的内容之后, 这种关系反过来了。混合后, Jar 2和Jar 4的合并含量有较高的机会采摘青豆。这是辛普森悖论的一个非常简单的例子。
推荐阅读
- 算法设计(最大循环子数组总和)
- 算法题(检查数字是否为回文)
- Google软件工程实习生,2019年秋季–北美
- 德里面试经验– 1年经验
- 对字母数字字符串进行排序,以使字母和数字的位置保持不变
- 缓存中的透写和回写是什么(详细介绍)
- Win8系统没有组策略的原因区分与处理办法
- Win8安装mssql2005提示打开服务失败的处理办法
- Win8.1系统找不到连接到Microsoft帐户怎样办?