机器学习|基于特征选择（PSO+CTree）的网络入侵检测特征选择|机器学习|python|算法

针对KDD数据集采用onehot编码进行特征值转换，存在冗余特征的问题，本文提出采用粒子群算法结合决策树实现特征选择以及检测分类。
1、数据准备
采用KDD20%(就是KDD数据中取了20%出来形成的数据集)，其中训练集为25192x41，即每个样本含有41个特征值，其中部分特征为字符型特征，如下图所示，因此首先需要进行数据的预处理。

文章图片

2、数据预处理
KDD数据作为常用的网络入侵检测数据集，原始数据集共41个特征值，包括部分字符型特征，通常我们会常用onehot编码的方法将这些字符型特征转为onehot数值型特征，举个列就是：特征1包含【A B C】三种字符型特征值，采用one-hot处理就删掉特征1，然后新增3个特征，原来含A的就变成了1 0 0 含B的变成了0 1 0 含C的变成了0 0 1 ,如下图所示：

文章图片

经过上述处理之后，每个样本由原来的41个特征变为118个特征，但是因为维度过高，存在部分冗余特征，因此直接采用这样的特征进行分类，精度不会太高，因此本文采用粒子群算法实现特征筛选，目的是找到一组特征子集使得分类器的分类精度最高。
3、PSO最优特征子集筛选
我们知道，如果原始特征中冗余特征，则会增加分类模型的建模复杂度，且会影响分类精度，因此我采用PSO进行特征子集的筛选，简单来说就是从原来的118个特征中，利用PSO筛选出部分特征，用于分类器（我采用的是决策树分类器）的建模，筛选出一组特征子集使得分类器的分类准确率最高，这个筛选出的特征子集叫做最优特征子集。
结果如下：如果直接用全部118个特征作为输入，即直接采用决策树进行分类，分类精度只有74%，采用PSO筛选出其中的67个特征，即PSO-决策树分类，分类精度有83%，精度提高了9个百分点。

文章图片

最后，再做一个对比算法，采用遗传算法进行特征选择，因为遗传算法是最老的优化算法之一，效果没有PSO好。

文章图片

【机器学习|基于特征选择（PSO+CTree）的网络入侵检测】部分文件已上传到github仓库：https://github.com/fish-kong/Network-intrusion-detection-based-on-feature-selection-PSO-CTree-

机器学习|基于特征选择（PSO+CTree）的网络入侵检测

推荐阅读

银耳煮不烂是什么原因银耳怎么煮容易烂

萝卜羊肉馅水饺怎么做羊肉萝卜馅饺子怎样做

计算机进银行后悔死了银行考试都考什么

佳能5dmark3新手入门图解佳能5dmark3评测

空洞骑士梦之门怎么用

手机淘宝删除的订单还能找到吗

腰围80厘米是几尺几呀

安卓模拟器手机型号,安卓模拟器怎么用?

眼皮抽脂几天能碰水

英冠联赛积分榜比分_英冠联赛积分榜比分表最新

微信朋友圈跟qq空间同步设置

兔子养在外面会冻死吗

想做一个农家乐有什么建议？做垂钓怎么样？

如何购买钻石呢

spring|spring security 之自定义表单登录源码跟踪

如何为战术战队设置服务器？战术战队怎么设置服务器

奥克斯空调显示e5是什么意思

“人生最大的幸福,是发现自己爱的人正好也爱着自己”,你怎么看？

光谱图像分析,多光谱图像融合

c高级编程第11版，unix环境高级编程程序清单117简化加解锁的问题有个问题APUE