大数据核心技术都有哪些? 大数据技术有哪些

大数据技术有哪些(大数据的核心技术有哪些?)
说到大数据的起源,重要的事情说了三遍 。只有需求才能产生市场,只有满足需求的技术才有生命力和价值 。
大数据的技术无疑是有价值的,因为它是因为市场的需求而产生的 。随着移动互联网时代的到来,手机已经成为人们身体的一部分 。人们每天花在手机上的时间比睡觉和工作的时间还多,一举夺得第一 。因此,人们在手机上留下了大量的数据 。这些数据包括购物、聊天、刷短视频、听歌、旅游、理财、玩游戏、看新闻、学习、外卖,甚至工作相关 。这些数不清的数据共同构成了一个又一个鲜活的形象,或者说业内一直流传着一个传说 , 大数据比你自己更懂你 。
但是,把留在移动互联网上的数据加工成有意义的结论需要很多步骤,而这些步骤正是大数据技术的核心 。
第一步是数据收集 。如果不收集数据,就像农田里的庄稼不收割就会烂掉 。移动互联网上的数据收集和庄稼地里的庄稼不太一样 , 因为移动互联网上的数据类型很多,包括结构化数据、非结构化数据、存储在数据库中的数据和日志文件 。大数据技术的第一步就是把这些有用的数据或者看似有用的数据全部收集起来 , 为下一步做准备 。以Hadoop家族为例,请参考下图:
Hadoop家族
常用的工具有Sqoop、Flume等 。他们可以将数据库中的数据导入HDFS , 也可以收集和处理日志 。
接下来 , 我们需要对收集的数据进行预处理 。什么是预处理?就像收获的庄稼一样 , 要晾晒两天才能加工 。数据也是如此 。收集到的数据需要进行清洗、合并、转换等等 。还有一个专门的术语叫ETL,全称是提取-转换-加载,提取-转换-加载 。这里的概念非常不同,包括ETL、数据清理和数据集成 。概念上有些偏差,但基本上都属于预处理步骤,相当于在我们正式下厨之前把菜收拾干净 。
同时还有大数据的存储 。大数据的核心思想来了,分布式 。发行的想法可以追溯到很久以前 , 具体发明者无从考证 。但历史上没有任何一个时代能像今天这样在技术上使用分布式思想 。大数据的存储是通过分布式存储实现的 。实际上,我们通常使用分布式思想来工作:例如,如果我们要交付一批煤炭,一辆汽车需要一个月才能交付 。时间不够怎么办?然后用两辆车运输;半个月需要运两辆车 , 时间还是有点来不及 。我该怎么办?再加一辆车 , 10辆够吗?如果有10辆车 , 3天就运完了 。这就是分配的思想 。同样,Hadoop中最重要的发明HDFS是分布式文件系统,这也是Hadoop技术中实现分布式存储的关键 。有了HDFS,数据可以轻松存在于大量的分布式存储集群中 , 而且都是通用存储设备,价格简直不要太甜 。
分布式存储打破了垄断 。
换句话说,大数据技术之所以能发展起来,除了移动互联网的到来和使用数据的爆炸 , 还有一点就是成本的压力 。无论是谷歌、脸书、AWS,还是中国的阿里巴巴腾讯,它们本质上都是互联网公司 。和传统行业一样,他们是IT行业的客户 。他们还想购买服务器、存储和数据库 。而且 , 他们还是大客户,因为他们的需求是巨大的,巨大的,不可想象的 。
众所周知,互联网巨头虽然很赚钱 , 但都是从小人成长起来的 。更何况互联网赚钱的方式无非就是会员和广告 。你看不到有多少互联网公司还在苦苦盈利 。所以互联网公司很有动力去研究各种省钱的方法 。
好吧,这一次大数据技术使得整个架构能够部署在廉价的通用服务器上,这样就不用再被某些it巨头卡住 , 也不用再背负为传统IT巨头打工的命运 。
我刚才跑题了,回到大数据 。然后是数据开发 。根据业务的不同,大致可以分为线下开发和实时开发两大类 。用哪一个取决于业务的时效性 。这个不用你说太多,对时效性的需求基本上一眼就能看出来 。实现的工具更加丰富 , 从开源软件到商业软件应用,甚至已经隐约出现了内卷的迹象 。以开源Hadoop为例 。MapReduce、Spark、Storm是开发者最常用的开发工具 。
你认识多少人?
然后是数据服务 。严格来说,数据服务本质上不属于大数据平台的范畴 。更多的是数据平台的概念,是玩大数据的终极目标 。大数据的最终目的是让数据被持续使用,让数据来源于业务,反哺业务 。当然,这是传统行业拥抱大数据时的行动方向 , 但互联网公司没有这种问题,或者说很多互联网公司根本不需要强调数据反哺业务的目标,因为互联网公司本来就是这样设计的 , 从业务属性,到公司的组织架构,再到具体的IT架构 。一切都是为了更好的数据收集 , 整合,存储,分析,挖掘,然后建模和预测,最后 。

推荐阅读