大数据（big|大数据测试扫盲（一） big|data|人工智能|机器学习|da

一，什么是大数据？大数据(BigData) :指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
主要解决，海量数据的存储和海量数据的分析计算问题。
顺序给出所有数据存储单位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB
1Byte = 8bit1K = 1024Byte
1MB = 1024K 1G = 1024M
1T = 1024G1P = 1024T

二，大数据三大类公司和大数据业务
大数据公司三大分类专业第三方数据公司：收集数据，分析数据，卖分析后的数据，如，友盟（了解玩家的消费环节）
海量数据处理型公司：淘宝、上亿用户发数据，由于数据量大，处理一个指标也是上亿的数据，就要用到hadoop架构
企业内部：数据不是海量的，但是指标多种多样的。

大数据业务分类报表
预测分析
数据监控

三，大数据的应用领域

文章图片

四、大数据业部门组织结构

文章图片

五，大数据技术生态体系

文章图片

图中涉及的技术名词解释如下：
1）Sqoop：Sqoop是一款开源的工具，主要用于在Hadoop、Hive与传统的数据库（MySql）间进行数据的传递，可以将一个关系型数据库（例如：MySQL，Oracle 等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。
2）Flume：Flume是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；
3）Kafka：Kafka是一种高吞吐量的分布式发布订阅消息系统；
4）Spark：Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。
5）Flink：Flink是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。
6）Oozie：Oozie是一个管理Hdoop作业（job）的工作流程调度管理系统。
7）Hbase：HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。
8）Hive：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。
9）ZooKeeper：它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。

【大数据（big|大数据测试扫盲（一）】

大数据（big|大数据测试扫盲（一）

推荐阅读

安卓数据恢复神器,电脑上数据恢复软件可免费下载

宝宝拉肚子应该怎么办

跑完步之后喝糖水还是盐水好？

花甲泡着不动是死了吗

新冠疫苗|定了！新冠疫苗谁能打？去哪打？什么时候打？

只需1个链接 iPhone 13 Pro 1秒被破解

那些以爱的名誉被慢慢毁掉的孩子（一）

女性头发长油怎么办？，女性头发出油怎么办

中考体育免考需要什么条件怎么才能在中考免考体育

二年级文明礼仪用语讲文明树新风

每天几个开合跳可以瘦身

烤箱油垢如何清理

空调睡眠1 2 3什么意思

麦粒肿有传染性吗？

佳能18—200镜头适合拍什么佳能18-200镜头什么时候上市的

甲亢皮肤过敏还能吃药吗,甲亢吃药过敏怎么办

电脑找不到realtek音频管理器配置解决办法

胡杏儿带全家去游乐园被偶遇，膀大腿粗普通似路人，老公魁梧壮硕

阿里斯顿壁挂炉开机显示112度怎么办？解决方法及故障排查方法

怎么制作海螺肉