1. 问题提出 如果你想要预测房价,下图是一些收集的数据,横轴是房子的面积,纵轴是房子的价格。
文章图片
如果你的朋友有一栋 750 平方英尺的房子,他要卖掉这栋房子,想知道能卖多少钱,怎么使用算法来预测价格?
如果在图中使用一条直线来拟合数据,如下图,这栋房子可以卖大约 15000 美元。
文章图片
这不是最好的或者唯一的方法,除了使用直线,也可能使用二次函数能更好的拟合数据,那么我们接下来要讨论的问题是如何来选择拟合数据的方法。
2. 监督学习定义
- 正确的答案已经给定。对于房价数据集中的每一个样本,都能给出正确的价格,算法的目的是给出更多争取的答案
下图是另一个例子,通过肿瘤(Tumor)的大小,来预测肿瘤是否为恶性(Malignant)。
文章图片
肿瘤恶性的预测输出值只能为 0(良性)和 1(恶性),这是另一种监督学习问题:分类问题,即预测离散的数值输出。
分类问题可以有更多的输出,例如 0(良性)、 1(第一种癌症)、2(第二种癌症)等,还可以下图的方式来表示分类。其中,“o”代表良性,“×”代表恶性,与上图的表示一一对应。
文章图片
下图是另一个例子,通过肿瘤(Tumor)的大小和年龄(Age)两个特征,来预测肿瘤是否为恶性(Malignant)。其中,“o”代表良性,“×”代表恶性。这时我们可以用如图所示的黑色直线来区分两种类型,位于直线下方为良性肿瘤,位于上方为恶性肿瘤。
文章图片
预测肿瘤的分类还可以有其他特征,例如:
- 肿块的厚度
- 肿瘤细胞大小的均匀性
- 肿瘤细胞形状的均匀性
4. 一个问题 你正在经营一家公司,并且你想开发学习算法来解决下面两个问题:
- 问题1:你有很多相同的货物的库存要卖,你想预测在接下来的三个月里,这些货物能销售多少。
- 问题2:你想要写一个软件来检查每一个客户的账户,是否被入侵或破坏
答案:问题1应该被看做回归问题,问题2应该被看做分类问题。
推荐阅读
- 算法|三维重建——相机几何参数标定
- 人工智能|下一代社交平台(三维重建万物)
- Python面向对象编程(OOP)(教程)
- 物体检测入门权威指南
- Tidyverse入门开发(教程)
- R教程中的逻辑回归
- GFLASSO(R中的图形引导融合LASSO)
- 在Python教程中读写文件
- 在Mac OS X上安装Anaconda