机器学习|正则化与数据先验分布的关系机器学习|机器学习

过拟合的原因：使用的模型过于复杂，根据VC维理论：VC维很高的时候，就容易发生bias很低，但variance很高的情形.
解决过拟合最常用的方法就是regularization, 常用的有：L1正则, L2正则等.L1正则会使得参数稀疏化, L2正则可以起到平滑的作用, 从贝叶斯理论的角度审视下正则化.
从贝叶斯的角度来看, 正则化等价于对模型参数引入先验分布.(先验概率可理解为统计概率，后验概率可理解为条件概率)
一. Linear Regression
我们先看下最原始的Linear Regression:
此处以 http://www.cnblogs.com/ljygoodgoodstudydaydayup/p/6738597.html 为准

文章图片

文章图片

由最大似然估计,

文章图片

取对数:

文章图片

即：

文章图片

【机器学习|正则化与数据先验分布的关系】 这就导出了我们原始的 least-squares 损失函数，但这是在我们对参数 w 没有加入任何先验分布的情况下。在数据维度很高的情况下，我们的模型参数很多，模型复杂度高，容易发生过拟合。这个时候，我们可以对参数 w 引入先验分布，降低模型复杂度。
Ridge Regression
我们对参数w引入协方差为a的零均值高斯先验.（每一个分量都服从该分布）

文章图片
左式有点问题，参数w的高斯先验项的系数少了个连乘符号
取对数:

文章图片

等价于:

文章图片

上式即Ridge Regression.对参数引入高斯先验等价于L2正则化
ridge regression 并不具有产生稀疏解的能力，也就是说参数并不会真出现很多零。假设我们的预测结果与两个特征相关，L2正则倾向于综合两者的影响，给影响大的特征赋予高的权重；而L1正则倾向于选择影响较大的参数，而舍弃掉影响较小的那个。实际应用中 L2正则表现往往会优于 L1正则，但L1正则会大大降低我们的计算量。
拉普拉斯分布：

文章图片

重复之前的推导过程我们很容易得到：

文章图片

该问题通常被称为 LASSO (least absolute shrinkage and selection operator) 。LASSO 仍然是一个 convex optimization 问题，不具有解析解。它的优良性质是能产生稀疏性，导致 w 中许多项变成零。对参数引入拉普拉斯先验等价于 L1正则化总结：
正则化参数等价于对参数引入先验分布，使得模型复杂度变小（缩小解空间），对于噪声以及 outliers 的鲁棒性增强（泛化能力）。整个最优化问题从贝叶斯观点来看是一种贝叶斯最大后验估计，其中正则化项对应后验估计中的先验信息，损失函数对应后验估计中的似然函数，两者的乘积即对应贝叶斯最大后验估计的形式。

转自：
https://www.zhihu.com/question/23536142

机器学习|正则化与数据先验分布的关系

推荐阅读

教你pdffactory如何批量打印

东北地区包括哪些地方我国东北地区包括哪几个省

好主板和差主板性能上差别区分

mysql 创建user mysql如何创建管理员并提供权限

锦心似玉在哪个台播什么时候播锦心似玉是在哪个台播出的

泡沫多的奶粉好不好

荷包蛋烧肉怎么做荷包蛋烧肉怎么做才好吃

win10打印机在哪（win10打印机在哪查看）

dnf周年庆是几号

班级班长申请书怎么写

on开还是off开闹钟是on开还是off开

120长40宽的鱼缸能养龙鱼吗

星期六左眼跳代表什么

乔迁之喜送什么礼物好

遇到三菱3匹空调显示06怎么办？3个处理方法帮助你

老王教你如何夜观天象夜观天象

尼康单反显示err 尼康单反显示clock

小编教你溜云库模型怎么导入3DMax

爱普生l1119废墨怎么更换

蚊子为什么会耳朵里