聚类、缺失处理、特征分析模型几个重要处理过程 聚类分析模型的优缺点( 二 )



聚类、缺失处理、特征分析模型几个重要处理过程 聚类分析模型的优缺点

文章插图

编辑切换为居中
添加图片注释,不超过 140 字(可选)
图4 样本数据前10
对样本特征的缺失情况进行统计汇总,python代码实现与结果输出分别如图5、图6所示 。

聚类、缺失处理、特征分析模型几个重要处理过程 聚类分析模型的优缺点

文章插图

编辑切换为居中
添加图片注释,不超过 140 字(可选)
图5 缺失情况汇总

聚类、缺失处理、特征分析模型几个重要处理过程 聚类分析模型的优缺点

文章插图

编辑切换为居中
添加图片注释,不超过 140 字(可选)
图6 特征缺失分布
从特征缺失情况可知,字段“年龄”与“月收入”均存在缺失,且缺失比例较低,分别为2.3%和3.7%,这种情况可以采用平均值进行填充 。为了使得填充后效果更符合实际业务,我们首先需要选取字段进行聚类,这里需要特别注意的是,聚类字段必须是非缺失字段,至于字段数量多少没有限定,但最好是选取区分度较好,且业务解释意义较强的特征 。本例根据以上描述分析,则采用剩余2个分析字段进行聚类,即“信用等级”与“消费等级” 。
(2)特征工程
从图4样本可知,字段“信用等级”与“消费等级”均属于字符型,需要将其转换为数值型,可以采用标签编码实现此过程 。另外,由于聚类算法DBSCAN是基于样本的距离进行模型训练的,因此为了排除各特征量纲的影响,还需要对特征进行标准化,这里采用z-score标准化(归一化) 。具体实现代码如图7所示,输出结果如图8所示 。

聚类、缺失处理、特征分析模型几个重要处理过程 聚类分析模型的优缺点

文章插图

编辑切换为居中
添加图片注释,不超过 140 字(可选)
图7 特征工程代码

聚类、缺失处理、特征分析模型几个重要处理过程 聚类分析模型的优缺点

文章插图

编辑
添加图片注释,不超过 140 字(可选)
图8 数据处理结果
(3)特征聚类
根据特征标准化后的数据,采用K-means算法对特征“信用等级”与“消费等级”进行聚类分析,模型的聚类数量设置为3,具体代码与结果分别如图9-11所示 。

聚类、缺失处理、特征分析模型几个重要处理过程 聚类分析模型的优缺点

文章插图

编辑切换为居中
添加图片注释,不超过 140 字(可选)
图9 特征K-means聚类

聚类、缺失处理、特征分析模型几个重要处理过程 聚类分析模型的优缺点

文章插图

编辑切换为居中
添加图片注释,不超过 140 字(可选)
图10 特征聚类结果

聚类、缺失处理、特征分析模型几个重要处理过程 聚类分析模型的优缺点

文章插图

编辑切换为居中
添加图片注释,不超过 140 字(可选)
图11 聚类特征均值
(4)缺失填充
通过特征聚类分析,将样本数据划分为3个类别,并输出每类群体的特征分布指标,即“年龄”与“月收入”的平均值(图11) 。从结果来看,对于每类用户群体,在“信用等级”和“消费等级”指标相似的情况下,平均“年龄”和平均“月收入”还是有着较明显差异,尤其是“月收入”指标,类别1与类别2相差较大 。接下来我们根据不同样本类别的分布情况,针对性进行字段缺失值填充,具体代码的实现过程如图12所示 。

聚类、缺失处理、特征分析模型几个重要处理过程 聚类分析模型的优缺点

文章插图

编辑切换为居中
添加图片注释,不超过 140 字(可选)
图12 特征缺失填充

推荐阅读