大数据是干什么的?


很高兴能够和你一起讨论大数据是干什么的 。
这些年以来 。我们已经通过各种渠道听说过大数据;大数据出现的频率极高 。给大家提供便利的生活支撑 。也受到大家极高的关注 。现在而今眼目下 。好像开口闭口不提一下大数据 。都觉得自己Low了的感觉 。那我们就来了解一下什么叫大数据 。了解大数据的特性 。以及存在的危险 。
【大数据是干什么的?】大数据的定义
大数据(big data) 。指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合 。现阶段我们能够接触到的所有信息 。都是大数据中的一分部 。大数据具有5V特点:Volume(大量)、Velocity(时效)、Variety(多样)、Value(低价值密度)、Veracity(真实性)五个特点 。
一、Volume(大量)
大数据有多大呢 。就以我们日常接触传统数据来进行恒量吧 。
一个中文汉字2个字节 。即2byte 。
1 KB = 1024 B(KB - kilobyte)
1 MB = 1024 KB (MB - megabyte)
1 GB = 1024 MB (GB - gigabyte)
1 TB = 1024 GB (TB - terabyte)
1 PB = 1024 TB (PB - petabyte)
1 EB = 1024 PB (EB - exabyte)
1 ZB= 1024 EB (ZB - zettabyte)
简单的工式可能阻碍你的理解 。那我们以一下常用数据来帮助你理解 。
1、500G 普通笔记本电脑硬盘容量;

大数据是干什么的?

文章插图
2、1TB 普通移动硬盘容量;
3、1ZB其中据相关资料显示 。2011年 。全球被创建和复制的数据总量为1.8ZB;据预估:到今年年底(2020) 。全球大数据计算中心存储的数据可达到35ZB 。
二、Velocity(时效)
大数据具有一定的时效性 。
每一条数据 。都是具有一定的时效性的 。例如:几个月以前全球的新冠肺炎疫情累积确诊数量为0;截止目前为止 。全球已经有超过300万人确诊感染新冠肺炎 。每日今日头条呈现的新闻排行榜 。也是不停地在变化 。每一条数据的产生 。到使用 。到消亡 。所经历的时间越来越短;热搜的排行十几分钟更新一次 。实际上 。信息的变化更快 。快到超出我们的想像 。
引用一句话:
就在刚刚过去的这一分钟 。数据世界里发生了什么?Email:2.04亿封被发出Google:200万次搜索请求被提交Youtube:2880分钟的视频被上传Facebook:69.5万条状态被更新Twitter:98000条推送被发出12306:1840张车票被卖出……
以我们防控新冠肺炎中比较出采的健康码为例:
我们每个人在支付宝上传了我们的相关信息 。支付宝根据我们的位置信息、通信信息、健康信息等等给我们及时更新健康码颜色 。如果不具有时效性 。那么这个健康码就毫无用处 。
三、Variety(多样)
大数据的数据来源是多样化的 。任何在网上能接触到的信息 。或者能搜集到的信息 。都会成为大数据的基本信息资料 。
每个人的基础信息 。包括姓名 。年龄 。性别 。身份证号 。电话号码 。你日常通过社交软件搜索的内容等等;
每个地图的信息 。经度 。纬度 。路由 。你日常通过导航软件展现出来的信息;
音乐 。视频 。文章 。图片 。你每天在网上浏览的海量数据都是大数据 。
……
以上的所有所有 。也就是我们人类能接触到的所有信息 。都纳入大数据需要存储的范畴 。
四、Value(低价值密度)
大数据的信息量太多 。但是真正有效的 。有价值的信息确相当有限 。比如 。某房产中介商获取了一百万人所有身份信息 。但是 。对他们有效的信息 。只限定在该城市中 。有购买能力 。有购买需求的潜在对象;而其他所有的信息对于该中介来说 。毫无用处 。
对于所有的企业来说 。能够从低价值密度中获得对他有效的信息 。再对该信息进行精准处理 。则相当重要 。在这个年代 。谁能最快速有效地获取大数据 。提取大数据 。处理大数据 。再变成商业资源 。那他就能成为大数据时代的王者 。
五、Veracity(真实性)
大数据的基础信息是真实的 。就看每个企业能否在这海量的真实的基础信息中 。获取最有效的资源 。
大数据的挑战:
当大数据与云计算结合起来之后 。大数据就大大向前迈出了一步 。大数据给大家的生活带来便利;在这一大跨步当中 。安全永远是无法避免的话题 。
想一想 。很多购物软件的杀熟 。新注册人员能看到价格和老用户不一致 。这是不是可怕?
想一想 。如果并非因为疫情原因 。有人随便一查就能知道你的位置信息 。通信信息 。和哪些人接触过 。是不是可怕?

推荐阅读