怎么简单理解“大数据”及其应用?


谈到大数据 。一定会提到三个小案例:第一个例子是某个未婚少女怀孕了 。甚至她老爸也不知道这件事儿 。但是商家却打电话过来问需不需要买孕妇用品 。第二个是经典的“啤酒和尿布”的例子 。这个例子比较早 。讲的是基于关联规则分析来预测超市里面顾客购买行为规律 。第三个是近年来才吵吵的比较火热的例子 。是谷歌通过搜索引擎里面的关键词检索日志的时间序列数据成功预测了流感爆发的时间和规模 。第一个例子背后是基于精准营销 。是大数据针对个人级别的应用 。第二个例子能够有效预测零售商需求 。属于企业级别应用 。而第三个例子则是地区级别和国家级别的应用 。由此可看出 。当大数据真正走进生活、走进社会 。其施展能量的力度越来越大 。越来越强 。最后 。大数据这个概念就被吹的神乎其神了 。
当我们听到这些大数据的应用案例时 。会很自然地去质疑这些案例的可靠性 。心中不免默念 。这玩意儿的确有如此靠谱么?而其中最让人感觉不靠谱的 。无疑是第三个 。Google预测流感这件事儿 。2009年2月19日 。Nature上面有一篇文章 。“Detecting influenza epidemics using search engine query data”(感兴趣的朋友可以关注以下) 。论述了Google基于用户的搜索日志(其中包括 。搜索关键词、用户搜索频率以及用户IP地址等信息)的汇总信息 。成功“预测”了流感病人的就诊人数 。
那么 。Google为什么要干这件事儿呢?美国有个很牛的部门叫CDC 。也就是疾控中心 。这个部门统计美国本土各个地区的疾病就诊人数然后汇总 。最后公布出来 。但是呢 。这个公布的数据的结果一般要延迟两周左右 。也就是说当天的流感的全国就诊人数 。要在两周之后才知道 。Google呢就利用他的搜索引擎搭建了一个预测平台 。把这个数据提前公布出来 。所以说 。Google做的工作并不是实际意义上的预测什么时候流感来 。而是将CDC已经获得但是没及时公布的数据提前给猜出来 。然后公布出来 。当然 。CDC为什么不及时公布数据 。人家官方总是有自己的一堆理由的 。我等草民不得而知 。但是有一点是重要的 。就是“越及时的数据 。价值越高” 。数据是有价值属性的 。所以 。Google的工作无论在公共管理领域还是商业领域都具有重大的意义 。
Google的研究结果公布出来以后 。大众对于这个研究案例的好评和差评都有不少 。总之 。引起了社会的热议 。这个例子从而也成了经典的案例 。那么社会为什么会对这个例子予以如此重要的关注呢?其原因就在于 。如果在这个案例上成功了 。Google就真正证明了大数据是“万能的”这件事 。从而彻底颠覆社会对于大数据的看法 。
首先 。Google在这个研究中对于数据的处理只用了很简单的Logistic回归关系 。稍微有点儿高中数学基础的朋友很快就可以理解应用 。但是却成功地预测了复杂的流感规模的问题 。Google用了简单的方法 。预测复杂的问题 。这件事为什么能成?根本就在于 。Google的数据量大 。这就是Google对于大数据的价值观 。而大就是一切!Google有着世界上最大的搜索引擎 。全世界每个用户的搜索行为都给存在Google的数据库里 。Google想 。我有这么多数据 。不是想知道啥就知道啥 。于是Google就做了这个伟大的事儿!
回过头来看三个经典的案例 。从系统的角度上来看 。一个人是一个小系统 。一家超市是一个中等规模的系统 。而一个国家一个地区则是一个超大的社会系统 。如果要对一件事进行预测和分析 。数据分析师要做两件事 。一、构造理论模型;二、获取实证数据来拟合构造模型 。对于小型简单系统 。构造理论模型是可行的 。而对于大规模的复杂系统 。模型的构造则十分艰难(这也正是社会学家们每天忙碌研究的课题 。也正是为什么社会革命家和思想家是如此的伟大 。像马克思等等…) 。大数据的观点之一认为 。海量的数据可以弥补模型的不足 。如果数据足够大 。理论模型甚至根本就不需要 。这种观点目前仍然处于争论中 。搞理论的和搞实证(强调数据和统计方法)的专家们对此的口舌之战从没有停歇过 。但无论如何 。Google对于流感预测的研究无疑站在了支持大数据的一方 。如果Google的案例是成功的 。那么或许 。拥有海量数据就真的意味着可以解决任意复杂的问题 。大数据解决大问题!
上面的论述讲了半天Google案例的重要性 。所以接下来 。业界就把所有的目光凝聚在了Google预测的结果上 。截止到Nature上面那篇Paper发表出来的时候 。Google的预测还是准确的 。不过到后来就发生了很大的偏差 。偏差最大甚至高出了标准值(CDC公布的结果)将近一倍 。

推荐阅读