【机器学习|【李航统计学习】第 1 章 统计学习方法概论 笔记】
文章目录
- 1. 监督学习(Supervised learning)
-
- 1.1 监督学习的实现步骤:
- 1.2 训练集
- 1.3 实例x x x 的特征向量
- 1.4 模型
- 2. 统计学习三要素(Element of statistical learning)
- 3. 模型评估与选择
- 4. 多项式拟合问题
- 5. 正则化与交叉验证
- 6. 泛化能力(Generalization ability)
- 7. 生成模型与判别模型(Generative model and discriminant model)
- 8. 分类问题(Classification)
- 9. 标注问题(Tagging)
- 10. 回归问题(Regression)
- 总结(Summarization):
1. 监督学习(Supervised learning) 1.1 监督学习的实现步骤:
- 得到一个有限的训练数据集合
- 确定模型的假设空间,也就是所有的备选模型
- 确定模型选择的准则,即学习的策略
- 实现求解最优模型的算法
- 通过学习方法选择最优模型
- 利用学习的最优模型对新数据进行预测或分析
文章图片
1.2 训练集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ( x N , y N ) } T=\lbrace (x_1,y_1),(x_2,y_2),(x_N,y_N) \rbrace T={(x1?,y1?),(x2?,y2?),(xN?,yN?)}
1.3 实例x x x 的特征向量 x = ( x ( 1 ) , x ( 2 ) , . . . , x ( n ) ) T x=(x^{(1)},x^{(2)},...,x^{(n)})^T x=(x(1),x(2),...,x(n))T
1.4 模型
- 决策函数 Y = f ( X ) \quad Y=f(X) Y=f(X)
预测形式 y = f ( x ) \quad y=f(x) y=f(x) - 条件概率分布 P ( Y ∣ X ) \quad P(Y|X) P(Y∣X)
预测形式 a r g m a x P ( y ∣ x ) \quad argmaxP(y|x) argmaxP(y∣x)
- 模型(假设空间):
- 决策函数
F = { f ∣ Y = f θ ( X ) , θ ∈ R n } F=\lbrace f|Y=f_\theta(X),\theta\in R^n \rbrace F={f∣Y=fθ?(X),θ∈Rn} - 条件概率分布
F = { P ∣ P θ ( Y ∣ X ) , θ ∈ R n } F=\lbrace P|P_\theta(Y|X),\theta\in R^n \rbrace F={P∣Pθ?(Y∣X),θ∈Rn}
- 决策函数
- 策略:
- 0 - 1 损失函数
L ( Y , f ( X ) ) = { 1 , Y ≠ f ( X ) 0 , Y = f ( X ) L(Y,f(X))=\begin{cases} 1,Y\neq f(X)\\ 0,Y= f(X)\end{cases} L(Y,f(X))={1,Y=f(X)0,Y=f(X)? - 平方损失函数
L ( Y , f ( X ) ) = ( Y ? f ( X ) ) 2 L(Y,f(X))=(Y-f(X))^2 L(Y,f(X))=(Y?f(X))2 - 绝对损失函数
L ( Y , f ( X ) ) = ∣ Y ? f ( X ) ∣ L(Y,f(X))=|Y-f(X)| L(Y,f(X))=∣Y?f(X)∣ - 对数损失函数
L ( Y , P ( Y ∣ X ) ) = ? l o g P ( Y ∣ X ) L(Y,P(Y|X))=-logP(Y|X) L(Y,P(Y∣X))=?logP(Y∣X) - 经验风险最小化
m i n f ∈ F 1 N ∑ i = 1 n L ( y i , f ( x i ) ) \underset {f \in F}{min} \frac{1}{N}\sum_{i=1}^nL(y_i,f(x_i)) f∈Fmin?N1?∑i=1n?L(yi?,f(xi?)) - 结构风险最小化
m i n f ∈ F 1 N ∑ i = 1 n L ( y i , f ( x i ) ) + λ J ( f ) \underset {f \in F}{min} \frac{1}{N}\sum_{i=1}^nL(y_i,f(x_i))+\lambda J(f) f∈Fmin?N1?∑i=1n?L(yi?,f(xi?))+λJ(f)
- 0 - 1 损失函数
- 算法:
挑选一个合适的算法,使得可以求解最优模型
- 训练误差: 1 N ∑ i = 1 N L ( y i , f ^ ( x i ) ) \frac{1}{N}\sum_{i=1}^NL(y_i,\widehat f(x_i)) N1?∑i=1N?L(yi?,f ?(xi?))
- 测试误差: 1 N ′ ∑ i = 1 N ′ L ( y i , f ^ ( x i ) ) \frac{1}{N'}\sum_{i=1}^{N'}L(y_i,\widehat f(x_i)) N′1?∑i=1N′?L(yi?,f ?(xi?))
文章图片
5. 正则化与交叉验证
- 最小化结构风险:
1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) \frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i))+\lambda J(f) N1?∑i=1N?L(yi?,f(xi?))+λJ(f) - 交叉验证:
数据集随机划分为以下三部分,
训练集:模型的训练
测试集:模型的选择
验证集:模型的评估
- 定理 1.1 泛化误差上界
对于二分类问题,当假设空间是有限个函数的集合F = { f 1 , f 2 , . . . , f d } F=\lbrace f_1,f_2,...,f_d \rbrace F={f1?,f2?,...,fd?} 时,对任意一个函数f ∈ F f\in F f∈F,至少以概率1 ? δ 1-\delta 1?δ,以下不等式成立:
R ( f ) ≤ R ^ ( f ) + ? ( d , N , δ ) R(f)\leq \widehat R(f)+\epsilon(d,N,\delta) R(f)≤R (f)+?(d,N,δ)
其中, ? ( d , N , δ ) = 1 2 N ( l o g d + l o g 1 δ ) \epsilon(d,N,\delta)=\sqrt {\frac{1}{2N}(logd+log\frac{1}{\delta})} ?(d,N,δ)=2N1?(logd+logδ1?) ?
- 生成方法:
P ( Y ∣ X ) = P ( X , Y ) P ( X ) P(Y|X)=\frac{P(X,Y)}{P(X)} P(Y∣X)=P(X)P(X,Y)? - 判别方法:
f ( X ) 或 P ( Y ∣ X ) f(X)或P(Y|X) f(X)或P(Y∣X)
- TP - 将正类预测为正类数
- FN - 将负类预测为负类数
- FP - 将负类预测为正类数
- TN - 将负类预测为负类数
P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP?
召回率:在实际正类中,有多少正类被模型发现了
R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP?
F1 值:
2 F 1 = 1 P + 1 R \frac{2}{F_1}=\frac{1}{P}+\frac{1}{R} F1?2?=P1?+R1?
F 1 = 2 T P 2 T P + F P + F N F_1=\frac{2TP}{2TP+FP+FN} F1?=2TP+FP+FN2TP?
9. 标注问题(Tagging) 输入:
x = ( x ( 1 ) , x ( 2 ) , . . . , x ( n ) ) T x=(x^{(1)},x^{(2)},...,x^{(n)})^T x=(x(1),x(2),...,x(n))T
输出:
y = ( y ( 1 ) , y ( 2 ) , . . . , y ( n ) ) T y=(y^{(1)},y^{(2)},...,y^{(n)})^T y=(y(1),y(2),...,y(n))T
10. 回归问题(Regression) 总结(Summarization):
- 统计学习路线:设计模型 -> 训练 -> 预测
- 监督学习与非监督学习的联系区别
- 统计学习三要素:模型、策略、算法
- 模型的评估:训练误差、验证误差、测试误差
- 正则化与交叉验证
- 泛化能力:泛化误差上界
- 生成模型与判别模型的联系与区别
- 分类问题:准确率、精确率、召回率、F1 值
- 标注问题:序列标注
- 回归问题:输出为连续值
推荐阅读
- 算法|深度学习实战篇之(二)----- 梯度下降算法代码实现
- NJU-计算机系统基础PA0-搭建开发环境
- NJU|NJU 2019 计算机拔尖(算法)测试 解题报告
- 机器学习系列文章|利用随机森林对特征重要性进行评估(公式原理)
- C语言|【九日集训】《LeetCode刷题报告》题解内容 Ⅳ
- 算法学习笔记【day3】
- 机器学习|(8)机器学习——SVM、决策树、朴素贝叶斯、KNN、K-means、随机森林、Adaboost
- 机器学习|神经网络(二)回归与线性模型
- 机器学习|机器学习(八)KNN,SVM,朴素贝叶斯,决策树与随机森林