1 绪论

统计学习在科学、金融和工业的许多领域发挥着关键作用。以下是一些学习问题的例子:

预测因心脏病发作住院的患者是否会再次心脏病发作。该预测将基于该患者的人口统计学、饮食和临床测量。

根据公司业绩指标和经济数据,预测未来6个月的股票价格。

从数字化图像中识别手写邮政编码中的数字。

根据糖尿病患者血液的红外吸收光谱,估计该患者血液中的葡萄糖含量。

根据临床和人口统计学变量,确定前列腺癌的危险因素。

学习科学在统计、数据挖掘和人工智能领域发挥着关键作用,与工程和其他学科领域交叉。

这本书是关于从数据中学习的。在一个典型的场景中,我们有一个结果测量,通常是定量的(如股票价格)或分类的(如心脏病发作/无心脏病发作),我们希望基于一组特征(如饮食和临床测量)来预测。我们有一个训练数据集,在其中我们观察结果和特征对一组对象(如人)的测量。使用这些数据,我们建立了一个预测模型,或学习者,这将使我们能够预测新的看不见的物体的结果。一个好的学习者能够准确预测这样的结果。

上面的例子描述了所谓的监督学习问题。它被称为“监督的”,因为结果变量的存在指导了学习过程。在无监督学习问题中,我们只观察特征,没有结果的度量。我们的任务是描述数据是如何组织或聚集的。我们把这本书的大部分时间用于监督学习;无监督问题在文献中发展较少,是第14章的重点。

以下是本书讨论的一些真实学习问题的例子。

例1:垃圾邮件
这个例子的数据由来自4601封电子邮件的信息组成,这项研究试图预测这封电子邮件是正常邮件还是垃圾邮件。目标是设计一个自动垃圾邮件检测器,它可以在用户邮箱堵塞之前过滤掉垃圾邮件。对于所有4601电子邮件消息,可以知道真实结果是(即电子邮件类型)正常邮件还是垃圾邮件,以及电子邮件消息中最常见的57个单词和标点符号的相对频率。这是一个监督学习问题,其结果是类变量正常邮件/垃圾邮件。也叫分类问题。

表1.1列出了显示垃圾邮件和正常邮件之间最大平均差异的单词和字符。

1 绪论
文章图片

表1.1. 电子邮件中与指定单词或字符相同的单词或字符的平均百分比。我们选择了显示垃圾邮件和正常邮件之间最大差异的单词和字符。
我们的学习方法必须决定使用哪些特性以及如何使用:例如,我们可以使用一个规则,如下
if(%george < 0.6)&(&you>1.5)then垃圾邮件 else正常邮件.

另一种形式的规则可能是:
if(0.2·&you - 0.3·%george) > 0then垃圾邮件 else正常邮件.

【1 绪论】对于这个问题,不是所有的误差都相等;我们希望避免过滤掉正常的电子邮件,而让垃圾邮件通过是不可取的,但后果不那么严重。我们在书中讨论了解决这个学习问题的许多不同方法。
例2:前列腺癌症 图 1.11 中显示的此示例的数据来自 Stamey 等人的一项研究。 (1989) 在 97 名即将接受根治性前列腺切除术的男性中检查了前列腺特异性抗原 (PSA) 水平与许多临床指标之间的相关性。1 绪论
文章图片

图1.1. 前列腺癌数据的散点图矩阵。第一行依次显示了对每个预测值的响应。svi和gleason这两个预测因子是绝对的。
我们的目标是通过一系列测量值来预测前列腺特异性抗原(lpsa)的对数,这些测量包括肿瘤体积的对数(lcavol)、前列腺重量对数(lweight)、年龄、良性前列腺增生量的对数(lbph)、精囊侵袭(svi)、荚膜渗透的对数(lcp)、Gleason评分(Gleason)以及Gleason评分4或5(pgg45)的百分比。图1.1是变量的散点图矩阵。一些测量值与lpsa的相关性是明显的,但是一个好的预测模型很难通过肉眼来构建。
这是一个监督学习问题,被称为回归问题,因为结果测量是定量的。
例3:手写数字识别 这个例子中的数据来自美国邮政信封上的手写邮政编码。每张图片都是一个五位数字的邮政编码的一部分,切分成一个单独的数字。这些图像是$16×16$的8-bit灰度图,每个像素的亮度范围从$0$到$255$。一些示例图像如图1.2所示。1 绪论
文章图片

图1.2. 美国邮政信封中的手写数字示例。
图像已被归一化为具有大致相同的大小和方向。任务是从$16 × 16$像素强度矩阵中快速准确地预测每个图像的身份$(0,1, . . . ,9)$。如果它足够准确,则生成的算法将用作信封自动分类程序的一部分。这是一个分类问题,需要将错误率保持在非常低的水平以避免邮件误传。为了实现这种低错误率,可以将一些对象分配到“不确定”类别,并手动分类。
例4:DNA表达微阵列 DNA代表脱氧核糖核酸,是构成人类染色体的基本物质。DNA微阵列通过测量基因的信使核糖核酸(mRNA)的数量来测量基因在细胞中的表达。微阵列被认为是生物学中的一项突破性技术,它有助于从单个细胞样本中同时对数千个基因进行定量研究。

以下是DNA微阵列的工作原理。几千个基因的核苷酸序列印在载玻片上。目标样品和参考样品用红色和绿色染料标记,每一个都与载玻片上的DNA混合。通过荧光透视,测量每个位点的核糖核酸混合的对数(红/绿)强度。结果是几千个数字,通常范围从$-6$到$6$,测量每个基因在目标样品中相对于参考样品的表达水平。正值表示目标值比参考值高,负值表示目标值比参考值低。

基因表达数据集收集了一系列基因微阵列实验的表达值,每列代表一个实验。因此,有几千行(一行代表单个基因),几十列(一列代表单个样本):在图1.3的特定例子中,有6830个基因(行)和64个样本(列),尽管为了清楚起见,只显示了一个随机样本的$100$行。该图将数据集显示为热图,范围从绿色(负)到红色(正)。样本是来自不同患者的64个癌症肿瘤。

1 绪论
文章图片

图1.3. DNA微阵列数据:6830个基因(行)和64个样本(列)的表达矩阵,用于人类肿瘤数据。只显示了随机样本的100行。显示为一个热图,范围从亮绿色(负,表达不足)到亮红色(正,表达过度)。缺失值为灰色。行和列以随机选择的顺序显示。
这里的挑战是理解基因和样本是如何组织的。典型问题包括以下内容:

(a)就跨基因表达谱而言,哪些样本彼此最相似?

(b)就样本间的表达谱而言,哪些基因彼此最相似?

(c)对于某些癌症样本,某些基因是否表现出非常高(或低)的表达?

我们可以将这项任务视为一个回归问题,有两个分类预测变量——基因和样本——响应变量是表达水平。但是,将其视为 无监督学习 问题可能更有用。例如,对于上面的问题(a),我们把样本看成是$6830$维空间中的点,我们希望以某种方式将它们聚集在一起。
数据集及其他资源文件

    推荐阅读