机器学习|Python机器学习---2.聚类分析代码部分
1. 手写?个简单的Kmeans算法 导入所需要的包
# 导入一些包
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn.datasets import make_blobs
模拟数据
# 模拟出一些数据集出来
#r = np.random.randint(1,100)
r = 4
#print(r)
k = 3
x , y = make_blobs(n_samples = 300,
cluster_std = [0.3, 0.3, 0.3],
centers = [[0,0],[1,1],[-1,1]]
,random_state = r
)
sim_data = https://www.it610.com/article/pd.DataFrame(x, columns = ['x1', 'x2'])
sim_data['label'] = y
sim_data.head(5)datasets = sim_data.copy()plt.scatter(sim_data['x1'], sim_data['x2'])
文章图片
因为聚类分析是无监督学习方式,所以在代码中不需要y值,都只有x值就好了。所以drop弹出y
取出最大值与最小值
data_content = datasets.drop('label',axis=1)
range_info =data_content.describe().loc[['min','max'],:]
随机产生3个介于最大值与最小值之间的数(这样写代码更有拓展性,实用性强)
#这样的代码实用性会更强,上面只适用于X1和X2
# 这个代码可以适用于所有数据
l = []
for i in data_content.columns:
l.append(np.random.uniform(range_info[i]['min'],range_info[i]['max'],3))
l
这个作为初始的聚类中心点的位置,介于最大值与最小值之间
文章图片
转成表格DataFrame
pd.DataFrame(l,index = data_content.columns).T
文章图片
这3个初始值的聚类中心点就是
(1.796770 ,-0.384921)
(-0.119144, -0.497739)
(1.258498, -0.322896)
因为for循环有对大数据不采用,所以这里教一种减少循环次数的方法
# 列表解析式
[np.random.uniform(range_info[i]['min'],
range_info[i]['max'],3) for i in data_content.columns]
文章图片
这个是取出k个随机的介于最大值和最小值之间的数
# 从i的最大最小中随机生成k个数
np.random.uniform(range_info[i]['min'],range_info[i]['max'],k)
这个比上一个更有拓展性,可以外部设置K值(聚类点数)
# 使用列表解析式写出一个更加有拓展性的代码
k = 4
k_randoms = [np.random.uniform(range_info[i]['min'],
range_info[i]['max'], k) for i in data_content.columns]
k_randoms
转成表格形式
# 将最后的k_randoms转化成dataframe的格式
centers = pd.DataFrame(k_randoms, index = data_content.columns).T
centers
文章图片
封装成函数,之后就可以直接用了,datasets是数据集
# 上面的都测试好之后,我们就可以把它写出一个函数
def initial_centers(datasets, k = 3):
data_content = datasets.drop('label', axis = 1)
range_info = data_content.describe().loc[['min', 'max'], :]
k_randoms = [np.random.uniform(range_info[i]['min'],
range_info[i]['max'], k) for i in data_content.columns]
centers = pd.DataFrame(k_randoms, index = data_content.columns).T
return centers
测试一下封装好的包
centers = initial_centers(datasets = datasets, k = 3)
centers
【机器学习|Python机器学习---2.聚类分析代码部分】
文章图片
推荐阅读
- 由浅入深理解AOP
- 继续努力,自主学习家庭Day135(20181015)
- python学习之|python学习之 实现QQ自动发送消息
- 逻辑回归的理解与python示例
- 一起来学习C语言的字符串转换函数
- python自定义封装带颜色的logging模块
- 【Leetcode/Python】001-Two|【Leetcode/Python】001-Two Sum
- 定制一套英文学习方案
- 漫画初学者如何学习漫画背景的透视画法(这篇教程请收藏好了!)
- 《深度倾听》第5天──「RIA学习力」便签输出第16期