近几年 。大数据的概念逐渐深入人心 。大数据的趋势越来越火爆 。但是 。大数据到底是个啥?怎么样才能玩好大数据呢?
大数据的基本含义就是海量数据 。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合 。具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征 。
数字经济的要素之一就是大数据资源 。现在大家聊得最多的大数据是基于已经存在的大数据的应用开发 。
如今 。大数据技术已应用在各行各业 。小麦举个例子 。讲述一下最贴近我们生活的民生服务是如何运用大数据 。
最近电视新闻提及到的“一网统管”精准救助场景 。传统的救助方式往往通过困难家庭申请、审核、审批等多项程序 。遇到需要跨部门、跨层级、跨街区协调解决的个案 。还需要召开各级协调会的形式协商解决 。
现在通过“精准救助”的方式 。民政部门在平时的摸排中了解情况 。将相关信息录入到“一网统管”数据中心 。再根据数据模型识别出需要协助的家庭 。随后形成走访工单派发给社工对其进行帮扶 。从而提升救助的效率 。做到雪中送炭 。
在数字化政府改造之前 。每个部门只掌握各自分管的数据 。形成“信息孤岛”;有了大数据分析平台后 。所有的数据信息 。便打通了“任督二脉” 。
文章插图
政府可以充分利用大数据技术打造“一网统管”精准救助场景 。极大提升了社会救助的科学性和精准性 。让城市变得更加温暖 。
其他观点:
这是我通常与想要了解大数据的人进行对话:
问:什么是大数据?
答:大数据是描述庞大数据的术语 。
问:现在 。大数据有多大?
答:如此庞大 。以至于无法用常规工具处理?
问:通常的工具是什么意思?
答:普通文件系统 。数据库等工具 。
所有这些大数据工具都有一个共同的特性:分布式计算 。
因此 。大数据是一个通常只能通过分布式的工具才能解决的问题 。我知道这些天 。每个人都在尝试将他们的BI(商业情报)工具描绘成大数据工具 。但不要被喧闹声所欺骗 。
问:哪些典型的大数据问题?
答:请考虑以下几点:
1 。如何建立存储和保存500 TB电影/视频/文字的存储?
2 。一台机器实际读取500 TB会花费多少时间?
3 。如何建立可以存储数百万列和数十亿行数据而不会像乌龟一样慢的数据存储?
4 。如何提供每秒数百万的读写?
5 。如何解决真正复杂的问题?还记得时间的复杂性吗?想象一下 。电子邮件哦公司 。必须每秒钟来自不同用户30GB 电子邮件自动分类为5个类别(比如是否垃圾邮件) 。
或判断数百万个网站的内容 。您必须准备网站名称的层次树 。以使两个同级彼此非常相似 。这种问题称为分类 。
它们比通常的数据排序更为复杂 。
随着数据的进一步增长 。这些问题变得非常不可能解决 。
解决此类问题需要巨大的计算能力-就RAM 。CPU 。磁盘读取速度而言 。
问:大数据有什么用?
答:如果规模巨大 。几乎每个业务计算问题都可以转换为大数据问题 。
文章插图
其他观点:
就以问答为例说说大数据的故事 。以下说的数字都不是真实的 。都是我的假设 。
比如每天都有1亿的用户在问答上回答问题或者阅读问答 。
每天产生的内容
假设平均有1000万的用户每天回答一个问题 。一个问题平均有1000的字, 平均一个汉字占2个字节byte 。三张图片, 平均一帐图片300KB 。那么一天的数据量就是:
文字总量:10,000,000 * 1,000 * 2 B = 20 GB
图片总量:10,000,000 * 3 * 300KB= 9 TB
为了收集用户行为 。所有的进出问答页面的用户 。点击 。查询 。停留 。点赞 。转发 。收藏都会产生一条记录存储下来 。这个量级更大 。
所以粗略估计一天20TB的数据量. 一般的PC电脑配置大概1TB 。一天就需要20台PC的存储 。
如果一个月的 。一年的数据可以算一下有多少 。传统的数据库系统在量上就很难做到 。
另外这些数据都是文档类型的数据 。需要各种不同的存储系统支持 。比如NoSQL数据库 。
推荐阅读
- 小鱼刺卡喉咙不痛了但是有异物感
- 高原流鼻血怎么办 高原鼻子流血怎么办
- 真菌性中耳炎如何治疗 真菌性中耳炎如何治疗
- 天天说“分付”打击“支付宝”,难道有了分付就不用花呗了吗?
- 鼻炎怎么治疗可以手术吗 鼻炎怎么治能除根,可以做手术吗
- 一睡觉就喉咙干 睡一觉喉咙干是怎么回事
- 游泳后打喷嚏 游泳后打喷嚏流鼻涕是怎么回事?
- 艾柱一般多粗是好艾
- 吃鸡胸肉会长肌肉吗 吃鸡胸肉会长肌肉吗?