1. 解释有监督和无监督机器学习的区别?
在有监督的机器学习算法中,我们必须提供有标签的数据,例如,预测股票市场价格,而在无监督的机器学习算法中,我们不需要有标签的数据,例如,将电子邮件分类为垃圾邮件和非垃圾邮件。
2. 解释KNN和k.means聚类之间的区别吗?
K最近临近:是一种监督式机器学习算法, 我们需要将标记的数据提供给模型, 然后再根据该点与最近点的距离对这些点进行分类。
而另一方面,K-Means聚类是一种无监督的机器学习算法,因此我们需要为模型提供无标记的数据,该算法根据不同点之间距离的均值将点分类成簇
3. 分类和回归的区别是什么?
分类用于产生离散的结果,分类用于将数据分类到某些特定类别。例如,将电子邮件分类为垃圾邮件和非垃圾邮件类别。
然而,当我们处理连续数据时,我们使用回归分析,例如预测某个时间点的股票价格。
4. 如何确保你的模型不过度拟合?
保持模型的设计简单。通过考虑更少的变量和参数来减少模型中的噪声。
交叉验证技术,如k -fold交叉验证,可以帮助我们控制过拟合。
正则化技术,如套索,帮助避免过拟合通过惩罚某些参数,如果他们可能导致过拟合。
5. “训练集”和“测试集”是什么意思?
我们将给定的数据集分为两个不同的部分,即‘训练集’和‘测试集’。
训练集是数据集中用来训练模型的部分。
“测试集”是用于测试训练模型的数据集的一部分。
6. 列出Navie Bayes的主要优势?
朴素贝叶斯分类器与其他模型(如逻辑回归)相比收敛非常快。因此,在使用朴素贝叶斯分类器的情况下,我们需要的训练数据较少。
7. 解释集成学习。
在集成学习中, 会生成许多基本模型(例如分类器和回归器)并将其组合在一起, 以便提供更好的结果。当我们构建准确且独立的组件分类器时使用它。有顺序的和并行的合奏方法。
8. 说明减少机器学习的维度。
降维是将特征矩阵的尺寸减小的过程。我们试图减少列的数量,这样我们就可以通过合并列或删除额外的变量来获得更好的特征集。
9. 当你的模型存在低偏差和高方差时,你应该怎么做?
当模型预测值与实际值非常接近时,这种情况称为低偏倚。在这种情况下,我们可以使用bagging算法,如随机森林回归。
10. 解释随机森林和梯度增强算法之间的区别。
Random forest使用套袋技术,而GBM使用增强技术。
【10个基本的机器学习面试问题分享】随机森林主要是为了减少方差,而GBM则同时减少了模型的偏差和方差
推荐阅读
- 使用30分钟快速入门机器学习时间
- 7个必备的移动应用程序准备在线面试
- win10 序列号最新推荐
- 本图文详细教程教你win10如何更新显卡驱动
- 本图文详细教程教你win10如何关闭防火墙
- 本图文详细教程教你win10如何增加虚拟内存
- windows10 家庭版激活最新推荐
- 本图文详细教程教你win10扩大虚拟内存
- win10镜像最新推荐