一、大数据的概念 概念
大数据是指:无法在现有的常规软件工具对其内容进行抓取、管理和处理的数据集合。特征
- 【大数据|(一)大数据学习引言——大数据概述】Volume:数据量足够大
- Variety:数据的种类多样
- Velocity:数据的增长速度快
- Value:数据蕴藏价值大
在用户行为分析方面,最典型的是美国沃尔玛公司将尿不湿和啤酒放在一起销售的策略,通过对客户的购物习惯进行关联分析,得出用户会经常一起买哪些商品。还有一个著名的例子就是怀孕预测的案例,将数据库里数万类商品和女性顾客的商品购买记录进行分析,可以精准的预测客户想在什么时候想要小孩,推测孕妇的预产期,从而抢先一步给女性推荐相关的产品。2. 提升企业的资产管理,优化企业的业务流程
企业利用实时数据能够实现预测性的维护并减少故障,推动产品和服务开发。(比如利用实时交通数据定制更加优化的路线)3. 大数据服务智慧城市、指挥交通
代表性案例:智能电表,智能交通(灯)、预定停车位(实时跟踪停车位数据变化)4. 大数据对疾病进行预测
疾病预测、医疗领域的计算5. 在金融行业利用大数据进行战略决策和精准营销
银行计算每位客户的利润贡献度,做到个性化定价和个性化服务;在证券行业,主要用在股价预测、客户关系管理和投资景气指数;在保险行业,大数据主要应用在这些方面:客户细分和精细化营销、欺诈行为分析、精细化运营。6. 利用大数据保障公共安全
对可能出现犯罪的重点区域、重要时段进行预测、安排巡警巡逻,减少犯罪案件的发生。7. 大数据改善每个人的生活
比如:电商网站能通过用户的性别、年龄、购物偏好、职业、收入、生活习惯、对用户的浏览内容进行记录,分析到用户对物品、价格的需求,向用户推荐相应的物品,可以节省用户时间、提高交易成功率;还有天气预测、婚恋网站等。三、大数据问题的爆发 为什么传统的IT基础架构不能适应大数据的快速增长?
1. 速度方面的问题
传统的RDBMS一般都是集中式的存储和处理,没有分布式架构,对于大数据量的导入导出、统计分析、检索查询方面就显得无能为力了。2. 数据的种类和架构问题
RDBMS对于结构化的、固定的模式的数据,有着相当成熟的存储和查询处理方式,但随着物联网、互联网、以及移动通信网络的飞速发展,所涉及到的数据可能包含文本、日志、图片、视频、矢量图等结构化、半结构化、非结构化的数据。需要新型的分布式文件系统和分布式NoSQL数据库架构。3. 体量和灵活性问题
大数据体量巨大,存储需要分布式、可扩展架构,还要考虑计算资源的动态调度问题。4. 成本问题
新型的分布式存储架构、分布式数据库如HDFS、HBase等都采用了去中心化、海量并行处理的架构。5. 数据挖掘问题
传统的数据挖掘一般数据量较小、算法相对复杂、收敛速度慢。而大数据则需要应对大数据量的需求和挑战。6. 存储和安全问题
一是要保障数据不丢失、二是要保障数据不被非法访问和窃取。四、大数据处理流程 数据源 —— 数据抽取与整合 —— 数据分析 —— 数据可视化
整个大数据的处理流程可以定义为:在合适的工具辅助下,对广泛异构的数据源进行抽取和集成,结果按照一定的标准进行统一存储,并利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识并利用恰当的方式将结果展现给终端用户。五、大数据技术栈
文章图片
六、项目流程 网上对大数据项目有个非常形象的比喻——西红柿炒鸡蛋,我就拿来借鉴一下,当然,这只是对批处理的处理过程,流处理其实也有很大借鉴作用。
西红柿炒鸡蛋 | 大数据项目 |
---|---|
种植西红柿,养只老母鸡 | 数据源 |
采摘西红柿,捡鸡蛋 | 数据采集 |
西红柿放进蔬菜篮子,鸡蛋放进鸡蛋篮子 | 数据存储 |
西红柿清洗?去不去皮?鸡蛋去壳? | 需求分析 |
西红柿清洗,鸡蛋去壳,起锅烧油 | 数据预处理 |
翻炒、制作 | 数据计算 |
装入餐盘 | 数据结果存储 |
端上餐桌 | 数据结果展示 |
推荐阅读
- 人工智能|干货!人体姿态估计与运动预测
- Python专栏|数据分析的常规流程
- 读书笔记|《白话大数据和机器学习》学习笔记1
- 网络|一文彻底搞懂前端监控
- html5|各行业工资单出炉 IT类连续多年霸占“榜首”位置
- 数据结构和算法|LeetCode 的正确使用方式
- 人工智能|【机器学习】深度盘点(详细介绍 Python 中的 7 种交叉验证方法!)
- 网络|简单聊聊压缩网络
- 数据库|效率最高的Excel数据导入---(c#调用SSIS Package将数据库数据导入到Excel文件中【附源代码下载】)...
- r语言|手把手(R语言文本挖掘和词云可视化实践)