聚类、缺失处理、特征分析模型几个重要处理过程聚类分析模型的优缺点( 二 ) _经验知识

文章插图

编辑切换为居中
添加图片注释，不超过 140 字（可选）
图4 样本数据前10
对样本特征的缺失情况进行统计汇总，python代码实现与结果输出分别如图5、图6所示。

文章插图

编辑切换为居中
添加图片注释，不超过 140 字（可选）
图5 缺失情况汇总

文章插图

编辑切换为居中
添加图片注释，不超过 140 字（可选）
图6 特征缺失分布
从特征缺失情况可知，字段“年龄”与“月收入”均存在缺失，且缺失比例较低，分别为2.3%和3.7%，这种情况可以采用平均值进行填充。为了使得填充后效果更符合实际业务，我们首先需要选取字段进行聚类，这里需要特别注意的是，聚类字段必须是非缺失字段，至于字段数量多少没有限定，但最好是选取区分度较好，且业务解释意义较强的特征。本例根据以上描述分析，则采用剩余2个分析字段进行聚类，即“信用等级”与“消费等级” 。
（2）特征工程
从图4样本可知，字段“信用等级”与“消费等级”均属于字符型，需要将其转换为数值型，可以采用标签编码实现此过程。另外，由于聚类算法DBSCAN是基于样本的距离进行模型训练的，因此为了排除各特征量纲的影响，还需要对特征进行标准化，这里采用z-score标准化（归一化）。具体实现代码如图7所示，输出结果如图8所示。

文章插图

编辑切换为居中
添加图片注释，不超过 140 字（可选）
图7 特征工程代码

文章插图

编辑
添加图片注释，不超过 140 字（可选）
图8 数据处理结果
（3）特征聚类
根据特征标准化后的数据，采用K-means算法对特征“信用等级”与“消费等级”进行聚类分析，模型的聚类数量设置为3，具体代码与结果分别如图9-11所示。

文章插图

编辑切换为居中
添加图片注释，不超过 140 字（可选）
图9 特征K-means聚类

文章插图

编辑切换为居中
添加图片注释，不超过 140 字（可选）
图10 特征聚类结果

文章插图

编辑切换为居中
添加图片注释，不超过 140 字（可选）
图11 聚类特征均值
（4）缺失填充
通过特征聚类分析，将样本数据划分为3个类别，并输出每类群体的特征分布指标，即“年龄”与“月收入”的平均值（图11）。从结果来看，对于每类用户群体，在“信用等级”和“消费等级”指标相似的情况下，平均“年龄”和平均“月收入”还是有着较明显差异，尤其是“月收入”指标，类别1与类别2相差较大。接下来我们根据不同样本类别的分布情况，针对性进行字段缺失值填充，具体代码的实现过程如图12所示。