大数据|（一）大数据学习引言——大数据概述大数据技术栈学习|#

一、大数据的概念概念

大数据是指：无法在现有的常规软件工具对其内容进行抓取、管理和处理的数据集合。

特征

【大数据|（一）大数据学习引言——大数据概述】Volume：数据量足够大
Variety：数据的种类多样
Velocity：数据的增长速度快
Value：数据蕴藏价值大

二、大数据的行业价值 1. 分析用户的行为，建立数据模型，并进行预测

在用户行为分析方面，最典型的是美国沃尔玛公司将尿不湿和啤酒放在一起销售的策略，通过对客户的购物习惯进行关联分析，得出用户会经常一起买哪些商品。还有一个著名的例子就是怀孕预测的案例，将数据库里数万类商品和女性顾客的商品购买记录进行分析，可以精准的预测客户想在什么时候想要小孩，推测孕妇的预产期，从而抢先一步给女性推荐相关的产品。

2. 提升企业的资产管理，优化企业的业务流程

企业利用实时数据能够实现预测性的维护并减少故障，推动产品和服务开发。（比如利用实时交通数据定制更加优化的路线）

3. 大数据服务智慧城市、指挥交通

代表性案例：智能电表，智能交通（灯）、预定停车位（实时跟踪停车位数据变化）

4. 大数据对疾病进行预测

疾病预测、医疗领域的计算

5. 在金融行业利用大数据进行战略决策和精准营销

银行计算每位客户的利润贡献度，做到个性化定价和个性化服务；在证券行业，主要用在股价预测、客户关系管理和投资景气指数；在保险行业，大数据主要应用在这些方面：客户细分和精细化营销、欺诈行为分析、精细化运营。

6. 利用大数据保障公共安全

对可能出现犯罪的重点区域、重要时段进行预测、安排巡警巡逻，减少犯罪案件的发生。

7. 大数据改善每个人的生活

比如：电商网站能通过用户的性别、年龄、购物偏好、职业、收入、生活习惯、对用户的浏览内容进行记录，分析到用户对物品、价格的需求，向用户推荐相应的物品，可以节省用户时间、提高交易成功率；还有天气预测、婚恋网站等。

三、大数据问题的爆发为什么传统的IT基础架构不能适应大数据的快速增长？
1. 速度方面的问题

传统的RDBMS一般都是集中式的存储和处理，没有分布式架构，对于大数据量的导入导出、统计分析、检索查询方面就显得无能为力了。

2. 数据的种类和架构问题

RDBMS对于结构化的、固定的模式的数据，有着相当成熟的存储和查询处理方式，但随着物联网、互联网、以及移动通信网络的飞速发展，所涉及到的数据可能包含文本、日志、图片、视频、矢量图等结构化、半结构化、非结构化的数据。需要新型的分布式文件系统和分布式NoSQL数据库架构。

3. 体量和灵活性问题

大数据体量巨大，存储需要分布式、可扩展架构，还要考虑计算资源的动态调度问题。

4. 成本问题

新型的分布式存储架构、分布式数据库如HDFS、HBase等都采用了去中心化、海量并行处理的架构。

5. 数据挖掘问题

传统的数据挖掘一般数据量较小、算法相对复杂、收敛速度慢。而大数据则需要应对大数据量的需求和挑战。

6. 存储和安全问题

一是要保障数据不丢失、二是要保障数据不被非法访问和窃取。

四、大数据处理流程数据源 —— 数据抽取与整合 —— 数据分析 —— 数据可视化

整个大数据的处理流程可以定义为：在合适的工具辅助下，对广泛异构的数据源进行抽取和集成，结果按照一定的标准进行统一存储，并利用合适的数据分析技术对存储的数据进行分析，从中提取有益的知识并利用恰当的方式将结果展现给终端用户。

五、大数据技术栈

文章图片

六、项目流程网上对大数据项目有个非常形象的比喻——西红柿炒鸡蛋，我就拿来借鉴一下，当然，这只是对批处理的处理过程，流处理其实也有很大借鉴作用。

西红柿炒鸡蛋	大数据项目
种植西红柿，养只老母鸡	数据源
采摘西红柿，捡鸡蛋	数据采集
西红柿放进蔬菜篮子，鸡蛋放进鸡蛋篮子	数据存储
西红柿清洗？去不去皮？鸡蛋去壳?	需求分析
西红柿清洗，鸡蛋去壳，起锅烧油	数据预处理
翻炒、制作	数据计算
装入餐盘	数据结果存储
端上餐桌	数据结果展示