黑天鹅与大数据预测
黑天鹅与大数据预测
Esri 中国 卢萌
纽约大学特聘教授纳西姆·尼古拉斯·塔勒布有一本代表性的著作《黑天鹅》,认为未来发生的事情是纯随机的,人类要是根据过去的经验去对未来的事情进行预测,那是完全不靠谱的,正如书名所表示的:在发现澳大利亚的黑天鹅之前,17世纪之前的欧洲人认为天鹅都是白色的。但随着第一只黑天鹅的出现,这个不可动摇的信念崩溃了。黑天鹅的存在寓意着不可预测的重大稀有事件,它在意料之外,却又改变一切。人类总是过度相信经验,而不知道一只黑天鹅的出现就足以颠覆一切。
塔勒布还举出了一个简单的例子,如果一只火鸡,每天都去收集主人喂它的饲料是多少,那么一定时间之后,它认为能够预测明天主人喂多少吃的给他,直到感恩节的前一天晚上,还做出了第二天的预测,结果是第二天命运就突然发生了重大的转折……这个转折,就是典型的黑天鹅事件。
这个事件看起来似乎很有道理,这只火鸡统计学家,统计了所有的信息,甚至还可以收集到了他左邻右舍其他的火鸡的食物信息,做出了精确的分析和预测,但是最后感恩之前的那一刀彻底的改变了这个命运。
【黑天鹅与大数据预测】
在以前的文章中,我曾经描述过大数据与小数据的区别,(见大数据与小数据),如果从那篇文章上来看,火鸡统计学家,所收集到的一切数据,都算小数据。
从目标上来看,他就是为了预测明天主人喂食的数量,而收集的数据,这个是一个典型的为了解答某个问题而去收集特定的数据,不属于这个问题的数据,他都不去关心。
好了,如果这只火鸡统计学家华丽丽的转身进化为火鸡大数据学家,那么它收集的数据就不仅仅是喂食的数据了。他会去收集的数据就不会只针对这一个具体的目标了。
它会去收集天气信息、地理信息、火鸡们的各种习俗、社交数据、LBS信息、火鸡祖宗十八代的生老病死、每类火鸡不同的生活环境……OK,看见了吧,这位火鸡大数据学家,不需要进行具体的分析,也不需要详细的建模,只需要做很简单的聚合,就会发现每年的感恩节之前,大量的火鸡的生命线戛然而止。它甚至不用明白人类的习俗,也不用具体的去分析原因,数据自然就能揭示出这种规律。
假设这只火鸡大数据学家能够突破它既定的视野,从观测火鸡升华到能够观测主人,能够有机会接入人类神奇的互联网,甚至能够上微博。那么他收集的数据会更多,而且只需要观测类似于“美食”这样的标签,就会发现,火鸡存在的目的,就是为了上餐桌……
好了,我们的火鸡大数据学家,已经明白了它的宿命,那么怎么办呢?有没有办法突破既定的命运呢?它高呼“我命由我不由天!”,”起来,不愿意做奴隶的火鸡“……当然,我们都知道,自古圣贤都不得好死,也许这只火鸡会很快就被和谐掉,也有可能被其他的火鸡当成巫师烧死……
那么,作为一个有大数据思维的火鸡,他在无法改变社会的同时,应该如何改变自己呢?继续从数据入手。
首先,他会在通过聚类分析,大量的数据中发现有一些离群点,也就是逃过了平安夜之前那一刀的火鸡们,找到这些离群点之后,将他们作为重点观察目标。
它通过分析,知道火鸡的自然生命是5——6年,那么再次筛选出能够逃过3次平安夜的火鸡们,看看它们存在一些什么样的共同特征。
接下去,如果小数据情况下,这样的样本可能非常少,能三次逃过那一刀的火鸡哪怕用凤毛麟角来形容也不为过;但是在大数据情况下,根据大数原则,只要数据量只够多,再低的几率,都会产生大量的样本。
有这些样本,火鸡大数据学家就开始进行大数据挖掘分析了,比如将这些样本的习俗特性进行分类,可以生成决策树,那么火鸡大数据学家,就能够根据这些if条件,来预言今年平安夜,有哪些火鸡有可能逃过一劫。
又如,进行关联分析,找出与被杀火鸡关联支持度最高的一些特征,这些频繁项集都是被杀的先兆,所以它首先要改变自己的习惯,让自己避免有这些习性。
当然,任何预测和分析,都是有风险的,神通不敌天数……我们伟大的火鸡大数据学家预测到了最后,但是气数已尽,非火鸡力所能改变,最终难逃一刀。
故事就这样结束了么?错!神通不敌天数,那好,天数还算不尽人(火鸡)心呢!根据博弈论的原理,当对手知道了你的行动,那么就会做出对自己最有利的绝定,所以这只伟大的火鸡大数据学家做出了一个决定:服!毒!自!杀!!
作为一个大数据学家,如果只是小小的老鼠药,就太丢份了,火鸡大数据学家会收集大量的禽类和人类死亡和疫病信息,终于选择了H70N90(比H7N9强大10倍)这种超强病毒!同样的关联分析,得出最容易感染H70N90的禽类的行为,然后有意识带领着”不明真相的群众”一同努力,终于集体感染了这种病毒。
当然,我们的火鸡大数据学家只是一个理工屌丝宅,还没有升级成为恐怖份子,)如果是恐怖份子,他会在大数据分析的支持下,避免在疫情大爆发的之前表现出被感染的迹象,然后找到各种最容易传播疫情的方式,足以拖着大量的人类一同去见上帝。)在感染了H70N90之后,还是表现出了各种症状来提醒人类,让人类提取有所准备,伟大的火鸡大数据学家选择了在烈火中永生。
这就是大数据,一个足以改变一切、颠覆一切、毁灭一切、创造一切的神奇造物。
推荐阅读
- JAVA(抽象类与接口的区别&重载与重写&内存泄漏)
- Docker应用:容器间通信与Mariadb数据库主从复制
- 《真与假的困惑》???|《真与假的困惑》??? ——致良知是一种伟大的力量
- 增长黑客的海盗法则
- 第326天
- Shell-Bash变量与运算符
- 逻辑回归的理解与python示例
- Guava|Guava RateLimiter与限流算法
- 怎样用黑谜速冻膜去黑头,|怎样用黑谜速冻膜去黑头, 最有效的去黑头的方法看这!
- 拉黑家人一整年之后,以为会快乐,最后却抑郁症!!