多大的数据,才能称为大数据?


大数据 Big Data 。据说源出自Alvin Toffler上世纪70年代的作品《第三次浪潮》 。最早提出大数据时代到来的是全球知名咨询公司麦肯锡 。麦肯锡称:“数据 。已经渗透到当今每一个行业和业务职能领域 。成为重要的生产因素 。人们对于海量数据的挖掘和运用 。预示着新一波生产率增长和消费者盈余浪潮的到来 。”
目前 。一些专业人士将大数据概括为四大特征 。即“4V”: 数量大(Volume) 。数据量级已从TB(1012字节)发展至PB乃至ZB 。可称海量、巨量乃至超量;多样性(Variable) 。数据类型繁多 。多为网页、图片、视频、图像与位置信息等半结构化和非结构化数据信息;速度快(Velocity) 。数据流往往为高速实时数据流 。而且往往需要快速、持续的实时处理 。处理工具亦在快速演进 。软件工程及人工智能等均可能介入;低价值密度(Value) 。以视频安全监控为例 。连续不断的监控流中 。有重大价值者可能仅为一两秒的数据流 。360度全方位视频监控的“死角”处 。可能会挖掘出最有价值的图像信息 。
大数据到底有多大?先举个例子来说 。欧洲研究组织进行的核试验每秒钟能产生40TB的数据 。一组名为“互联网上一天”的数据告诉我们 。一天之中 。互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多 。相当于美国两年的纸质信件数量;发出的社区帖子达200万个 。相当于《时代》杂志770年的文字量;卖出的手机为37.8万台 。高于全球每天出生的婴儿数量37.1万……截止到2012年 。数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别 。随着计算机硬件成本、计算机内存成本的降低和超级集群计算机的产生 。使得处理大规模的复杂数据成为可能 。这样就产生以结构化(股票交易数据)、半结构化(网络日志)和非结构化(文本数据、音频数据、视频数据)为主的大数据 。其中非结构化数据占互联网数据总量的80% 。
【多大的数据,才能称为大数据?】《大数据时代》作者维克托·迈尔-舍恩伯格说:“大家都在说大数据 。大数据到底有多大?到底有多少信息说到zb字节 。我们说10的21次方 。这是什么意思?它的含义是什么?它如何发挥作用? 1987年他还在读大学 。当时数据世界还没有达到30亿gb 。而到了2007年 。增加到3000亿gb 。20年间数据提高了100倍 。如果回溯历史的话 。上一次数据如此快速增长是因为印刷的革命 。用了50年实现数据翻一番的增长 。如今20年间就实现了 。”
IBM的研究称 。整个人类文明所获得的全部数据中 。有90%是过去两年内产生的 。而到了2020年 。全世界所产生的数据规模将达到今天的44倍 。每一天 。全世界会上传超过5亿张图片 。每分钟就有20小时时长的视频被分享 。然而 。即使是人们每天创造的全部信息——包括语音通话、电子邮件和信息在内的各种通信 。以及上传的全部图片、视频与音乐 。其信息量也无法匹及每一天所创造出的关于人们自身的数字信息量 。这样的趋势会持续下去 。
其他观点:
大数据 Big Data 。据说源出自Alvin Toffler上世纪70年代的作品《第三次浪潮》 。最早提出大数据时代到来的是全球知名咨询公司麦肯锡 。麦肯锡称:“数据 。已经渗透到当今每一个行业和业务职能领域 。成为重要的生产因素 。人们对于海量数据的挖掘和运用 。预示着新一波生产率增长和消费者盈余浪潮的到来 。”
目前 。一些专业人士将大数据概括为四大特征 。即“4V”: 数量大(Volume) 。数据量级已从TB(1012字节)发展至PB乃至ZB 。可称海量、巨量乃至超量;多样性(Variable) 。数据类型繁多 。多为网页、图片、视频、图像与位置信息等半结构化和非结构化数据信息;速度快(Velocity) 。数据流往往为高速实时数据流 。而且往往需要快速、持续的实时处理 。处理工具亦在快速演进 。软件工程及人工智能等均可能介入;低价值密度(Value) 。以视频安全监控为例 。连续不断的监控流中 。有重大价值者可能仅为一两秒的数据流 。360度全方位视频监控的“死角”处 。可能会挖掘出最有价值的图像信息 。
大数据到底有多大?先举个例子来说 。欧洲研究组织进行的核试验每秒钟能产生40TB的数据 。一组名为“互联网上一天”的数据告诉我们 。一天之中 。互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多 。相当于美国两年的纸质信件数量;发出的社区帖子达200万个 。相当于《时代》杂志770年的文字量;卖出的手机为37.8万台 。高于全球每天出生的婴儿数量37.1万……截止到2012年 。数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别 。随着计算机硬件成本、计算机内存成本的降低和超级集群计算机的产生 。使得处理大规模的复杂数据成为可能 。这样就产生以结构化(股票交易数据)、半结构化(网络日志)和非结构化(文本数据、音频数据、视频数据)为主的大数据 。其中非结构化数据占互联网数据总量的80% 。

推荐阅读