深度学习|正则化方法笔记机器学习|深度学习|算法

能解决过拟合的方法都叫-正则化
L1和L2正则化只针对W进行正则化，减少过拟合，重点还是W。
权重W，可以理解为一个高维的向量，也可以理解为高维空间中的一个点，这个点到原点的距离，这个距离如果是欧氏距离，就是L2范数，高维的勾股定理得到的。

文章图片

文章图片

文章图片

p大于等于1的时候，构成这个集合才是一个凸集，可行域是凸集的话，对应的是一个凸优化问题，凸优化是一个简单问题，L1、L2正则化，某种程度上，就是利用凸集特性，

文章图片

a的l-1次幂，上一层的输出结果，经过W，b，得到线性的结果Z的l次幂，经过softmax非线性的计算，得到a的l次幂，
损失函数相同，w和b不同，全集来训练神经网络，没问题，或者说，神经网络训练好了，只在训练集里用，相当于要判断猫，把所有猫的照片拿来，都打好标签，这时候只要查询结果就行了。训练的目的，不只在训练集里好用，拿来一个新的样本，依然判断出结果。
如果来了一个新的数据，参数数值是大还是小，影响就很大了，比如取了一个数值比较大的参数，这时候来了一个新的数据，新数据和大参数相乘后，就得到一个大的数值，如果没有误差，没有噪声，这完全没问题，但是，不可能嘛，肯定是有误差、有噪声的，误差和噪声经过大参数相乘后也会被放大，误差和噪声被放大后，就更容易出问题，本来是一只猫，被判断出狗
解决办法，给一个可行域，在可行域之内求最值，w只要被约束好了，b就自然而然的能被调整好，

文章图片

J 损失函数，x固定的，左边曼哈顿距离，右边欧几里得距离/L2距离，w到原点的距离是小于等于c的。

文章图片

拉格朗日乘数的形式表现出来，约束条件前面加上lamda，拉格朗日乘子，

文章图片

损失函数的等高线，中间是最小值对应的点，绿色框代表可行域范围，只要确定了可行域范围，我们就能找到在约束条件下的那个最值点，
L1范数和L2范数对应的可行域是一个凸集，

文章图片

文章图片

【深度学习|正则化方法笔记】L1容易在角上，只看胡子特征， L1带来稀疏性，特征和特征之间的关系去耦合了，去耦合的过程，也恰恰就是减少过拟合的过程，

深度学习|正则化方法笔记

推荐阅读

小雪时节，再忙也别忘记吃这6种美食，顺应时节好过冬

掉下单边桥……

深圳晚报官方公众号关注，深圳晚报官方公众号关注电话

开发者们，【Innovation 2021】网易应用创新开发者大赛正式开赛了！

冰酒石怎么存放

非全日制用工的扣税标准非全日制用工的扣税标准是多少

大数据时代下，App数据隐私安全你真的了解么（）

油蜡皮跟青皮有什么区别

miui开发版和稳定版有什么区别（miui开发版和稳定版的区别是什么）

正宗杨梅汤的做法怎么做杨梅汤

怎么对待老是抱怨不停的人（）

描写祖国风光的语句

个人所得税住房贷款利息扣除个税住房贷款利息怎么扣

盘踞是什么意思

血沉高是类风湿吗

切割时间工具

遗嘱与遗赠区别具体有哪些遗嘱与遗赠有什么区别

半夏种植难度半夏种植技术和栽培

商州有那些好玩的地方

惠普服务器红灯闪烁如何解决？惠普服务器闪红灯怎么回事