概率论|KL散度和极大似然估计

KL散度 和 极大似然估计
信息量:不是知不知道的问题,而是能给你带来多少确定性的问题
有8球队参加世界杯,如果每个球队的夺冠概率都是一样的,那么其中一只球队夺冠的概率就是1/8,那么进决赛呢,就是1/2概率
f(x)=信息量
概率论|KL散度和极大似然估计
文章图片

我们的信息量与方式无关,只与结果有关,如果斤了决赛,那么不管是以何种路径走的,我们都获得相同的信息量。
f(阿根廷夺冠)=f(阿根廷进决赛)+f(阿根廷赢了决赛)
f(1/8)=f(1/4)+f(1/2)
p(阿根廷夺冠)=p(阿根廷进决赛).p(阿根廷赢了决赛)
我必须满足上述两种方式,才能让我们的公式自恰,或者完整全面。一个是相加一个是相乘,那么就利用log。还有一点就是概率越小,信息量就越大。!!故事就越长。那么我们加-,-logx,x越小整个值就越大。我们一般以2为底,单位是比特。也可以以e为底。
那么信息量就可以理解成
一个时间从不确定变为确定,他的难度有多大
概率论|KL散度和极大似然估计
文章图片

是第一种情况从不确定到确定难度更大呢,还是第二种情况难度更大呢。
概率论|KL散度和极大似然估计
文章图片

信息量 熵就是信息量的期望,为什么不直接相加呢。第一种情况如果是1+1,第二种情况是0.0143+6.6 那么是第二种情况更加不确定吗?其实不是的,我们法国队伍获胜的概率是99%,所以说这个系统更加的确定,。所以我们利用期望,即乘上他的比例。
概率论|KL散度和极大似然估计
文章图片

我们的熵就定义成信息量的期望
概率论|KL散度和极大似然估计
文章图片

p在前说明是以p为基准的,去考虑p和q相差有多少。那么如果q和p是完全相等的,那就是结果为0。上述公式可以理解为,如果q想和p达到一样分布的时候,我们还差了多少信息量。如果不齐了,那他们就一样了。公式最后一部分就是p的熵啊,前面有p有q的就是hi交叉熵了,即H(p,q)。KL大于0还是小于零取决于交叉熵,所以我们的交叉熵本身也可以作为loss函数。
概率论|KL散度和极大似然估计
文章图片

损失函数最小二乘法
概率论|KL散度和极大似然估计
文章图片

我们的损失函数就是想找到人脑中猫的概率分布和神经网络里面的有多少差别,那么最简单的就是把结果做比较,就用x-y的绝对值,但是绝对值不可导就加上平方取最小,这就是“最小二乘”法
极大似然估计
概率论|KL散度和极大似然估计
文章图片

现实世界的抛硬币是一半一半概率,我们在计算机(理念世界,前提也是理念世界会指导现实世界)中可以写成0.5 0.5 但是如果我们现实情况是7次正面 3次反面呢。也就是说,我们在突破次元壁的时候,那么有些事请就不是板上钉钉的了。如果我们现实世界的情况是8和2,那么我们的概率分布能是80%和20%吗?肯定不能呀。
概率论|KL散度和极大似然估计
文章图片

如果是三反七正,那我们的理念模型,有可能是7 3、1 9、8 2任何一种。那么哪种情况概率最大呢?利用条件概率
概率论|KL散度和极大似然估计
文章图片

现在是假设1 9是我们硬币的概率模型的可能性。 我们继续计算所有可能性
概率论|KL散度和极大似然估计
文章图片

我们可以看出来 7 3的那个是概率最大的,因为我们是从真实世界反退回来的,所以我们那就叫做似然值。我们硬币的真实分布无法确定,但是选择可能性最大的,可能性也就越高。我们在图像识别的时候,就相当于一个一个的抛出去的硬币,极大似然估计就是在计算神经网络里面的概率模型的似然值,找到极大似然值。
概率论|KL散度和极大似然估计
文章图片

人脑是有一个“模型”能够完全的区分所有的猫,我们的神经网络就是去尽量的接近我们人脑的分布。总结起来,最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
概率论|KL散度和极大似然估计
文章图片

上述公式其实就是极大似然估计。“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。
概率论|KL散度和极大似然估计
文章图片

【概率论|KL散度和极大似然估计】上述公式符合伯尼利分布,跟前面的猫的情况是一样的,
概率论|KL散度和极大似然估计
文章图片

我们求取log变成加法(我们更喜欢)log不改变单调性,求负的最小值。
1、熵
熵,是一个物理学概念,它表示一个系统的不确定性程度,或者说是一个系统的混乱程度。
是一个叫香农的美国数学家,将熵引入信息论中,并将它命名为:“香农熵”或“信息熵”。
熵与信息熵=“帅哥”与“靓仔”
概率论|KL散度和极大似然估计
文章图片

n : 表示随机变量可能的取值数(i=1.,2,…n)
x : 表示随机变量
p(x):表示随机变量x的概率函数

    推荐阅读