数据分析思维 数据分析的作用( 二 )


美国每年有四周假期 , 一年大约有50周 。每周工作5天,每天工作8小时 。将这三个数字相乘,你可以得到一个一年工作2000小时的调音师 。
但是钢琴调音师要到处跑,肯定要花时间在路上,所以减去20%花在路上的时间 , 调音师一年大概工作1600(2000-2000×20%)个小时 。
现在我们总结一下四个子题(如下图) 。
钢琴调音师一年的总工作时间乘以三个子问题的数字,总计10万小时,而调音师一年工作1600小时 。我们用在钢琴调音师一年的工作时间除以一个调音师人一年的工作时间,得到62.5 。费米再次指出,芝加哥大约有63个调音师 。
【数据分析思维 数据分析的作用】这个回答准确吗?后来,费米发现了一份芝加哥钢琴调音师的名单,上面有83个人,许多名字是重复的 。所以费米的估算结果已经相当准确了 。
多维拆卸方法假设最近各医院收治的1000名患者中,A医院有900名患者存活 。然而,B医院只有800名患者存活(如下图) 。看来A医院存活率更高 , 应该选择 。你的选择真的正确吗?
现在让我们用多维拆卸分析法来看一下 。
当我们从整体上看患者时 , 我们可能不会注意到“数据成分的差异” 。现在 , 我们根据患者的健康状况,将各医院收治的总人数拆分为两组,一组为轻症患者,另一组为重症患者(如下图) 。然后我们会计算病人的存活率 。我们会发现什么?
我们来对比一下A医院和b医院的重症患者群体 。
a该院100名患者入院时病情危重,其中20人存活 。
b医院400名患者入院时病情危重,其中200名抢救过来 。
所以,对于危重患者来说,去B医院的存活率更高,是更好的选择(如下图) 。
入院时亲人是轻症患者怎么办?用同样的方法,令人惊讶的是,B医院的轻症患者存活率也超过了A医院,B医院仍然是更好的选择 。
通过多维度拆解数据,我们从一开始就发现了相反的结论 。这种现象被称为“辛普森悖论”,即在某些情况下,我们通过考察整个数据和数据的不同部分,会得到相反的结论 。
仅从整体上看数据,我们可能不会注意到“数据内部各部分组成的差异” 。如果为了比较而忽略这种差异 , 可能会导致无法感知这种差异的影响 。和上一个案例一样,关注整个数据(所有入院的患者)和数据内的不同部分(根据患者的健康状况将患者分为两组数据),可以得出不同的结论 。
对比法1)什么是比较法?在数据分析中,我们使用对比分析的方法来跟踪业务中是否存在问题 。比如我的CTR是4% 。是高还是低?这个CTR有问题吗?这时候就需要用对比分析的方法来追踪业务是否有问题 。俗话说,没有对比,就没有好坏 。
心理学家为这种现象发明了一个术语叫做价格锚定,即通过与价格锚定的比较,某些商品会卖得更好 。
《经济学人》是美国最畅销的经济杂志 。它做了一个订阅实验,给用户以下3个选项供选择:
只订阅电子版,一年59美元;
只订阅纸质版,一年125美元;
订阅纸质版+电子版 , 一年125美元 。
第二个选项的价格与第三个选项相同,但第三个选项提供的服务更多 。
实验结果显示,只有16%的人选择了第一个选项,84%的人选择了第三个选项,即更多的人愿意花更多的钱订阅杂志(如下图) 。
如果去掉第二个选项,对用户有影响吗?
去掉第二个选项,选择125美元(原来的第三个选项)的用户减少到32%(如下图) 。
如果没有之前的选项2,用户会对比第一个选项,发现花125美元并不划算 。当存在第二个选项时,用户会将比较对象改为第二个选项,以体现第三个选项的折扣 。
2)和谁比?跟谁比一般分为两种:跟自己比和跟行业比 。
3)如何比较?一般从整体数据的大小、整体数据的波动和趋势变化三个维度进行比较 。
a)整体数据的大小:有些指标可以用来衡量整体数据的大小 。常用的是平均值、中位数或一些商业指标 。
b)整个数据的波动:标准差除以平均值得到的值称为变异系数 。变异系数可以用来衡量整体数据的波动 。
c)趋势变化:趋势变化是从时间维度看数据随时间的变化 。常用的方法有时间折线图、环比和同比
时间折线图是以时间为横轴,数据为纵轴绘制的折线图 。从时间折线图可以知道从过去到现在数据发生了什么变化,也可以通过过去的变化预测未来的趋势 。
与前一个时间段相比 , 环比用于观察短期数据集 。比如2020年12月的一个数据,比2020年11月低了10% 。

推荐阅读