大数据|(一)大数据学习引言——大数据概述

一、大数据的概念 概念

大数据是指:无法在现有的常规软件工具对其内容进行抓取、管理和处理的数据集合。
特征
  • 【大数据|(一)大数据学习引言——大数据概述】Volume:数据量足够大
  • Variety:数据的种类多样
  • Velocity:数据的增长速度快
  • Value:数据蕴藏价值大
二、大数据的行业价值 1. 分析用户的行为,建立数据模型, 并进行预测
在用户行为分析方面,最典型的是美国沃尔玛公司将尿不湿和啤酒放在一起销售的策略,通过对客户的购物习惯进行关联分析,得出用户会经常一起买哪些商品。还有一个著名的例子就是怀孕预测的案例,将数据库里数万类商品和女性顾客的商品购买记录进行分析,可以精准的预测客户想在什么时候想要小孩,推测孕妇的预产期,从而抢先一步给女性推荐相关的产品。
2. 提升企业的资产管理,优化企业的业务流程
企业利用实时数据能够实现预测性的维护并减少故障,推动产品和服务开发。(比如利用实时交通数据定制更加优化的路线)
3. 大数据服务智慧城市、指挥交通
代表性案例:智能电表,智能交通(灯)、预定停车位(实时跟踪停车位数据变化)
4. 大数据对疾病进行预测
疾病预测、医疗领域的计算
5. 在金融行业利用大数据进行战略决策和精准营销
银行计算每位客户的利润贡献度,做到个性化定价和个性化服务;在证券行业,主要用在股价预测、客户关系管理和投资景气指数;在保险行业,大数据主要应用在这些方面:客户细分和精细化营销、欺诈行为分析、精细化运营。
6. 利用大数据保障公共安全
对可能出现犯罪的重点区域、重要时段进行预测、安排巡警巡逻,减少犯罪案件的发生。
7. 大数据改善每个人的生活
比如:电商网站能通过用户的性别、年龄、购物偏好、职业、收入、生活习惯、对用户的浏览内容进行记录,分析到用户对物品、价格的需求,向用户推荐相应的物品,可以节省用户时间、提高交易成功率;还有天气预测、婚恋网站等。
三、大数据问题的爆发 为什么传统的IT基础架构不能适应大数据的快速增长?
1. 速度方面的问题
传统的RDBMS一般都是集中式的存储和处理,没有分布式架构,对于大数据量的导入导出、统计分析、检索查询方面就显得无能为力了。
2. 数据的种类和架构问题
RDBMS对于结构化的、固定的模式的数据,有着相当成熟的存储和查询处理方式,但随着物联网、互联网、以及移动通信网络的飞速发展,所涉及到的数据可能包含文本、日志、图片、视频、矢量图等结构化、半结构化、非结构化的数据。需要新型的分布式文件系统和分布式NoSQL数据库架构。
3. 体量和灵活性问题
大数据体量巨大,存储需要分布式、可扩展架构,还要考虑计算资源的动态调度问题。
4. 成本问题
新型的分布式存储架构、分布式数据库如HDFS、HBase等都采用了去中心化、海量并行处理的架构。
5. 数据挖掘问题
传统的数据挖掘一般数据量较小、算法相对复杂、收敛速度慢。而大数据则需要应对大数据量的需求和挑战。
6. 存储和安全问题
一是要保障数据不丢失、二是要保障数据不被非法访问和窃取。
四、大数据处理流程 数据源 —— 数据抽取与整合 —— 数据分析 —— 数据可视化
整个大数据的处理流程可以定义为:在合适的工具辅助下,对广泛异构的数据源进行抽取和集成,结果按照一定的标准进行统一存储,并利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识并利用恰当的方式将结果展现给终端用户。
五、大数据技术栈 大数据|(一)大数据学习引言——大数据概述
文章图片

六、项目流程 网上对大数据项目有个非常形象的比喻——西红柿炒鸡蛋,我就拿来借鉴一下,当然,这只是对批处理的处理过程,流处理其实也有很大借鉴作用。
西红柿炒鸡蛋 大数据项目
种植西红柿,养只老母鸡 数据源
采摘西红柿,捡鸡蛋 数据采集
西红柿放进蔬菜篮子,鸡蛋放进鸡蛋篮子 数据存储
西红柿清洗?去不去皮?鸡蛋去壳? 需求分析
西红柿清洗,鸡蛋去壳,起锅烧油 数据预处理
翻炒、制作 数据计算
装入餐盘 数据结果存储
端上餐桌 数据结果展示

    推荐阅读