机器学习|机器学习之入门但门被焊死分类KNN算法实现算法|分类|机器学习

机器学习之入门但门被焊死分类KNN算法实现

前言
算法简介
代码实现
- 计算距离
- 引入和切分数据集
- 分类器（预测目标点属于哪个分类）
- 测试
总结

前言对于一个马上要毕业的大四学生来说，突然由后端转学机器学习，学起来好难，尤其是回归那里，数学好难！！！！！！！！

文章图片

因为回归的公式太难搞了，这里先整理一手分类的入门算法，KNN。
算法简介 KNN是啥?
官方的话咱就不整了，通俗来说就是找出距离某个点最近的k个点（这k个点已经分好类了），找出k个点中出现次数最多的分类，就是我们预测的分类。
从上面的描述可以直到，算法总共有这几个步骤

计算出目标点到其他点的距离
将所有的距离值正序排序
在排序结果中找出前k个值，并找出出现次数最多的分类

感觉还是蛮简单的，接下来来写代码吧。
代码实现计算距离两个计算距离的方法，分别是曼哈顿公式，欧拉公式
这里介绍一下几个函数
np.sum
求和函数，相比其他的求和公式，这个求和公式支持向量和向量的加法，也支持矩阵和向量的加法（前提是矩阵的列数应该等于向量的维数）。
axis=1表示最终的矩阵应该是一列的，即在进行向量加法之后的结果为[1,2,4]时，设置了axis之后结果就是[7].
【机器学习|机器学习之入门但门被焊死分类KNN算法实现】np.abs
求绝对值

# 距离函数的定义曼哈顿公式 def distance1(a, b): # 当a是矩阵时，b是向量，即a的每一行都与b乡间，然后再合成一列 sum = np.sum(np.abs(a - b), axis=1)# 因为ab是向量，所以a-b之后还是向量，axis是保存一列，即在运算结束之后再将所有列的数据加和 return sum; # 欧拉公式 def distance2(a, b): sum = np.sqrt(np.sum(np.abs(a - b) ** 2, axis=1)) return sum;

引入和切分数据集用惯了java之后，再用python，就会觉得，python，你是我的神！
切分数据集不需要自己写代码，引入一个库就完事了

from sklearn.model_selection import train_test_split# 切分训练集和测试集 from sklearn.datasets import load_iris#引入一个分类的数据集 # 数据加载和预处理 iris = load_iris()df = pd.DataFrame(data=https://www.it610.com/article/iris.data, columns=iris.feature_names) df['target'] = iris.target df['target'] = df['target'].map({0: iris.target_names[0], 1: iris.target_names[1], 2: iris.target_names[2]})x = iris.data y = iris.target y = y.reshape(-1, 1) # testsize 测试集大小randomstate 是否随机切分stratify 按照等比例分层就是y的比例是多少，分出的测试集中的比例也是多少 x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=1, stratify=y)

分类器（预测目标点属于哪个分类）

# 分类器 class KNN(object): # 定义初始化方法 self指类的示例 def __init__(self, k_neighbors=1, disufunc=distance1): self.k_neighbors = k_neighbors self.disufunc = disufunc# 训练模型这里可以直接在构造函数一起设置了，看大家想怎么搞了 def fit(self, x, y): self.x_train = x self.y_train = y# 模型预测 def predict(self, x): y_pred = np.zeros((x.shape[0], 1), dtype=self.y_train.dtype)# 初始化数组(x.shape[0], 1)是设置数组的行数和列数dtype设置数组中元素的类型 for index,x_val in enumerate(x):#enumerate函数将数组中的对象包装为索引，值的形式 distance=self.disufunc(self.x_train,x_val)#直接调用前面的距离函数 #排序取出索引值 nn_index=np.argsort(distance)# argsort就是将数组内的数据排序，将原来的索引值作为数组返回 #统计频率 nn_y=self.y_train[nn_index[:self.k_neighbors]].ravel()#取出前k个索引所对应的类别 y_pred[index]=np.argmax(np.bincount(nn_y))#bincount 统计每个值出现的次数即内容为a[3]=4 3 为值 4 为出现的次数argmax次数最大值的索引值 return y_pred

测试