深度学习(二)从统计学角度看Loss公式

损失函数(Loss function)可以用来衡量模型在给定数据上的表现。
一、 似然函数 假设有一个训练集

  • 样本
  • 对应的标签
  • 条件概率密度公式为,给定输入,得到的概率是
  • 两个事件的联合概率密度是两个条件概率的乘积,如果他们互相独立且均匀分布的话
【深度学习(二)从统计学角度看Loss公式】所有观察到标签的概率为,这个就是似然函数。
在神经网络里这个概率也与权值有关,训练的目的是为了让观察到正确标签的概率最大,即

出于数学计算上的考虑,算最大值不如算最小值,所以我们的目标变成了
二、回归 回归分析(Regresion)是建立因变量Y与自变量间X关系的模型,假设现在有一个单变量的高斯模型

把这个概率公式代入上面的目标公式,可以得到
深度学习(二)从统计学角度看Loss公式
文章图片

这个式子里除去常数和系数,剩下的就是

平方也可以写成L2范数(L2 Norm), 这也就是L2 loss的样子:

三、分类 分类问题就是给输入X归到最适合的类别Y里。假设神经网络的输出是输入归为某类的概率。对于多分类的问题,假设满足多项分布

带入到上面的目标公式里
深度学习(二)从统计学角度看Loss公式
文章图片

得到了和的交叉熵,也就是交叉熵损失函数(cross-entopy loss)。
四、总结
  • L2 loss一般用于回归问题
  • 交叉熵损失函数一般用于分类问题
  • 这两种都可以看做是来自一定概率假设的极大似然估计
  • 适用于多变量
五、附带 1、范数是什么
2、其他的loss公式以及数学背景
深度学习天坑系列,觉得还行就点个赞吧

    推荐阅读