因此 , 这个特征抽取需要对每条原始日志进行处理 , 并将多条日志中抽取的特征进行聚合 。之后在数据集成时 , 再将这些属性数据添加到零售商的客户数据库中去 。这个客户数据库包含客户个人资料 , 倘若个人资料记录中缺少某些条目 , 则需要为其进行进一步的数据清洗 。
最终 , 我们得到一个数据集 , 将客户个人资料的属性及客户对商品访问次数的属性整合在一起 。
此时 , 分析师需要决定如何使用此清洗过的数据集 , 为客户提供推荐 。分析师可以将类似的客户分成几类群体 , 并根据每类群体的购买行为提出推荐意见 。
聚类分析在这里可以作为一个基本模块 , 用于确定类似客户的群体 。对每一个客户 , 可以为其推荐该客户所在群体作为一个整体访问最多次的商品(这里指的是商品网页) 。这个案例包含了一个完整的数据挖掘流程 。
有许多优美的提供推荐的 *** , 它们在不同的情况下各有优劣 , 因此 , 整个数据挖掘过程是一门艺术 , 很大程度由分析师的技能所决定 , 而不完全由特定的技术或基本模块所左右 , 这种技能只能通过在不同应用需求下处理各类不同数据的实践中获得 。
02 数据预处理阶段数据预处理阶段也许是数据挖掘过程中最关键的一个阶段 , 然而 , 这个阶段很少得到应有的探讨 , 因为大部分数据挖掘讨论的重点放在了数据分析方面 。这一阶段在数据采集后就开始 , 包括以下步骤 。
1. 特征提取
分析师可能面临大量的原始文件、系统日志、商业交易 , 但几乎没有任何指导性的快速入门 *** 将这些原始数据转化为有意义的数据 。这一步骤高度依赖于分析师的抽象能力 , 以找出与手头应用最相关的特征 。
例如 , 在信用卡欺诈检测应用中 , 收费金额、重复频率以及位置信息往往是找出欺诈的有效指标 , 而许多其他特征信息也许就用处不大 。因此 , 提取正确的特征往往是个技术活 , 需要对手头应用相关的领域有充分的了解 。
2. 数据清洗
上述特征提取得到的数据中可能含有错误 , 也有些条目可能在采集及提取时丢失 。因此 , 我们可能要丢弃一些含有错误的数据记录 , 或者对缺失的条目进行估计填充 , 并剔除数据中的不一致性 。
3. 特征选择与转换
当数据维度很高时 , 很多数据挖掘算法就会失效 。而且当数据维度很高时 , 数据噪声会增加 , 可能带来数据挖掘的错误 。因此 , 需要使用一些 *** , 移除与应用无关的特征 , 或者将数据变换到一个新的维度空间中 , 使数据分析更容易进行 。
另一个相关的问题是数据转换 , 将一些属性转换为另一种相同或类似数据类型的属性 。比如将年龄数值转化成年龄段 , 可能对分析更有效也更便利 。
数据清洗过程中通常需要使用对缺失数据进行估计的统计 *** , 此外 , 为确保挖掘结果的准确性 , 通常需要剔除错误的数据条目 。
由于特征选择和数据转换高度依赖于具体的分析问题 , 不应视为数据预处理的一部分 , 甚至在某些情况下 , 特征选择可能与具体算法或 *** 紧密结合 , 以一种包装模型或嵌入模型的形式出现 。但在一般情况下 , 会在应用具体挖掘算法之前执行特征选择阶段 。
推荐阅读
- 濒危物种华南虎的资料 华南虎的资料简介英文
- 误解的意思和造句 笔误的意思
- 美丽风光伴你入眠 宁波十大露营的好地方有哪些
- 寓教于乐,融学于趣,化教于心 寓教于乐是什么意思解释
- 2014年女排世锦赛中国队 2014年女排世锦赛半决赛
- 有必要等855版本的小米mix3吗?现款mix3与855版有何区别?
- 中国美术学院研究生专业 中国美术学院研究生院
- 河南省农村信用社招聘2023_河南省农村信用社招聘信息
- 过期的蚊香对人体有害吗