数据挖掘|数据挖掘——第一章（概述）数据分析|big|data|数据挖掘

文章目录

1. 数据分析与数据挖掘
- 1.1 数据分析
- 1.2 数据挖掘
- 1.3 知识发现（KDD）的过程
- 1.4 数据分析与数据挖掘的区别
- 1.5 数据分析与数据挖掘的联系
2. 分析与挖掘的数据类型
- 2.1 数据库数据
- 2.2 数据仓库数据
- 2.3 事务数据
- 2.4 数据矩阵
- 2.5 图和网状结构
- 2.6 其他类型数据
3. 数据分析与数据挖掘的方法
- 3.1 频繁模式
- 3.2 分类与回归
- 3.3 聚类分析
- 3.4 离群点分析
4. 数据分析与数据挖掘使用的技术
- 4.1 统计学方法
- 4.2 机器学习
- 4.3 数据库与数据仓库
- 4.4 模式识别
- 4.5 高性能计算
5. 应用场景及存在的问题
- 5.1 应用场景
- 5.2 存在的问题

1. 数据分析与数据挖掘 1.1 数据分析定义：数据分析是指采用适当的统计分析方法对收集到数据进行、概括和总结，对数据进行恰当地描述提取出有用的信息过程
例：连锁超市对上季度各种商品的销售量进行统计和分析，得出各种商品需求量和销售曲线，采购部门依次为依据进行采购策略调整
常见图：排列图，因果图，散布图，直方图，控制图

文章图片

文章图片

1.2 数据挖掘数据挖掘 (Data Mining，DM) 是指从海量的数据中通过相关算法来发现隐藏在数据中的规律和知识过程。
为什么进行数据挖掘？

数据的爆炸式增长 : 从TB 到PB
数据是丰富的，急需发现知识数据是丰富的，急需发现知识 !

【数据挖掘|数据挖掘——第一章（概述）】通常将数据挖掘视为中“知识发现 ”的同义词，也可以认为数据挖掘是知识发现中的一个步骤。
1.3 知识发现（KDD）的过程重点

文章图片

1.4 数据分析与数据挖掘的区别

文章图片

1.5 数据分析与数据挖掘的联系

数据分析的结果往需要进一步挖掘才能得到更加清晰，而数据挖掘发现知识的过程也需要对先验约束进行一定调整而再次进行数据分析。
数据分析可以将变成信息，而挖掘知识如果需要从数据中发现知识，往需要分析和挖掘相互配合共同完成任务。

2. 分析与挖掘的数据类型 2.1 数据库数据数据库系统（DataBase System，DBS）由一组内部相关的数据（称作数据库）和用于管理这些数据的程序组成，通过软件程序对数据进行高效的存储和管理。

文章图片

2.2 数据仓库数据数据仓库（Data Warehouse，DW）是一个面向主题的、集成的、时变的、非易失的数据集合，支持管理者决策过程。

文章图片

2.3 事务数据事务数据库的每个记录代表一个事务，比如一个车次的订票、顾客的一个订单等等。

文章图片

2.4 数据矩阵数据矩阵中的数据对象的所有属性都是具有相同性质的数值型数据。

文章图片

文章图片

2.5 图和网状结构图和网状结构通常用来表达不同结点之间的联系，比如人际关系网、网站之间的相互链接关系等。

文章图片

2.6 其他类型数据

与时间相关的序列数据：不同时刻的气温、股票市场的历史交易数据
数据流数据：监控中的视频数据
多媒体数据：视频、音频、文本和图像数据

3. 数据分析与数据挖掘的方法 3.1 频繁模式

频繁模式：数据中频繁出现的模式
频繁项集：频繁在事务数据集中一起出现的商品集合
例如：在超市的销售中哪些商品会频繁地一起被购买?
关联与相关性
例如：典型的关联规则
尿不湿——啤酒

3.2 分类与回归

分类与标签预测是找出描述和区分数据类或概念的模型或函数，以便能够使用模型预测类标号未知的对象的类标号
分类预测类别（离散的、无序的）标号，回归建立连续值函数模型，也就是用来预测缺失的或难以获得的数值数据值。
典型方法：决策树，朴素贝叶斯分类，支持向量机，神经网络，规则分类器，基于模式的分类，逻辑回归 …

文章图片

3.3 聚类分析聚类就是把一些对象划分为多个组或者“聚簇”，从而使得同组内对象间比较相似而不同组对象间差异较大。
例如：通信公司根据“工作时间通话时长”、“其他时间通话时长”、“本地通话时长”等属性对用户进行聚类分析，可以将用户划分为“商务用户”、“普通用户”以及“较少使用用户”。
3.4 离群点分析离群点是指全局或局部范围内偏离一般水平的观测对象。
例如：当发现某个人的信用卡在不经常消费的地区短时间内消费了大量的金额，则可以认定这张卡的使用情况异常，可以作为离群点数据。
4. 数据分析与数据挖掘使用的技术

文章图片

4.1 统计学方法

统计学是通过对数据进行收集、整理、分析和描述，来达到对研究对象本质的理解和表示。
在实际生活中，通常有一些过程无法通过理论分析直接获得模型，但可以通过直接或间接测量的方法获得描述目标对象的相关变量的具体数据，用来刻画这些变量之间关系的数学函数称为统计模型。

4.2 机器学习

机器学习主要研究计算机如何像人类学习知识那样自主地分析和处理数据，并作出智能的判断，并通过获得的新的知识对自身进行发展和完善。
文章图片
机器学习方法：包括监督学习、无监督学习、半监督学习等。
监督学习需要在有标记的数据集上进行。

文章图片
无监督学习：可以在没有标记的数据集上进行学习，实质上无监督学习是一个聚类的过程。
半监督学习：半监督学习主要考虑如何利用少量有标记的数据和大量未标记的数据来进行学习，其中标记的数据用来学习模型，而未标记的数据用来进一步改进类的边界。

文章图片