采集阶段产生的数据通常会先存入数据库 , 广义上称为数据仓库 , 然后进行处理 。
2. 特征提取和数据清洗
上述采集阶段得到的数据 , 其格式往往不适合直接进行处理 。例如 , 采集来的数据可能是使用复杂编码的日志或自由格式的文档 , 并在许多情况下 , 各种类型的数据又任意地混合在一起 , 形成自由格式的文档 。
要使这样的数据适合进一步加工 , 有必要把它们转化为对数据挖掘算法较为合适的格式 , 比如多维数据、时序数据或者半结构化数据等 。
多维数据是最常见的格式 , 其不同的字段对应于可以称为特征、属性或维度的各种测量属性 。抽取这些特征是数据挖掘的一个至关重要的阶段 , 而特征提取阶段通常与数据清洗阶段并行进行 , 以便估计或校正丢失的数据以及错误的数据 。
另外 , 在许多情况下 , 数据可能从多个
3. 分析处理和算法
数据挖掘过程的最后一步是为处理过的数据设计有效的分析 ***。在许多情况下 , 不太可能将手头的应用直接转化成一个标准的数据挖掘问题 , 比如转化成关联模式挖掘、聚类、分类以及异常检测这四个“超级问题”中的某一个 。
但这四个超级问题具有很广泛的覆盖性 , 可以构成数据挖掘任务的基本模块 , 而大多数应用都能由这些作为基本模块的组件拼搭起来实现 。
整个数据挖掘过程可由图1-1表示 。请注意 , 图中的分析处理模块显示了对特定应用设计的、由多个基本模块组合而成的解决方案 , 这一部分依赖于分析师的技能 。通常的做法是使用四个主要问题中的一个或多个作为基本模块来搭建 。
文章插图
▲图1-1 数据处理流水线
需要承认的是 , 并非所有的数据挖掘应用都能用这四个主要问题来搭建解决方案 , 但许多应用可以这样解决 , 因此有必要给予这四个主要问题一个特殊的地位 。下面我们使用一个有关推荐的应用实例来解释数据挖掘的整个过程 。
- 示例1.2.1考虑这样一个网上零售商的场景 , 此零售商保存了客户访问其网站的访问日志 , 还收集了客户的基本情况信息 。假设网站的每个网页对应一个商品 , 客户访问一个网页可能表明对相应的商品感兴趣 。零售商希望通过对客户的个人资料及其购买行为的分析 , 有针对性地给客户推荐商品 。
日志中可能包含成千上万个这种条目 , 上面这一条目显示IP地址为98.206.207.157的客户访问了productA.htm这一网页 。要确认使用一个IP地址的客户是谁 , 可以通过之前的登录信息 , 或者通过网页的cookie记录 , 甚至直接通过IP地址本身 , 但这个确认过程可能充满噪声 , 不可能总是产生准确的结果 。
作为数据清洗和提取过程的一部分 , 分析师还需要设计算法对不同的日志条目进行有效的过滤 , 以便只使用那些提供准确结果的数据段 , 因为原始日志中包含很多对零售商可能没有任何用处的额外信息 。
在特征提取阶段 , 零售商决定从网页访问日志中提取特征 , 为每个客户创建一条记录 , 其中将每个商品设置为一个属性 , 记录此客户对相应商品网页的访问次数 。
推荐阅读
- 濒危物种华南虎的资料 华南虎的资料简介英文
- 误解的意思和造句 笔误的意思
- 美丽风光伴你入眠 宁波十大露营的好地方有哪些
- 寓教于乐,融学于趣,化教于心 寓教于乐是什么意思解释
- 2014年女排世锦赛中国队 2014年女排世锦赛半决赛
- 有必要等855版本的小米mix3吗?现款mix3与855版有何区别?
- 中国美术学院研究生专业 中国美术学院研究生院
- 河南省农村信用社招聘2023_河南省农村信用社招聘信息
- 过期的蚊香对人体有害吗