nndl|nndl 读书笔记 附录 E 信息论

github开源:https://nndl.github.io/
nndl作者:邱锡鹏
笔记作者:Isaac.(原创)

本书其他章节的笔记目录
信息论(Information Theory)是数学、物理、统计、计算机科学等多个学科的交叉领域。
这里,“信息”是指一组消息的集合。假设在一个噪声通道上发送消息,我们需要考虑如何对每一个信息进行编码、传输以及解码,使得接收者可以尽可能准确地重构出消息。
目录结构 E.1 熵
E.1.1 自信息和熵
E.1.2 联合熵和条件熵
E.2 互信息
E.3 交叉熵和散度
E.3.1 交叉熵
E.3.2 KL散度
E.3.3 JS散度
E.3.4 Wasserstein距离
E.1 熵 E.1.1 自信息和熵
在信息论中,熵(Entropy) 用来衡量一个随机事件的不确定性。
假设对一个随机变量 X(取值集合为 X,概率分布为 p(x), x ∈ X)进行编码,
自信息(Self Information)I(x) 是变量 X = x 时的信息量或编码长度,定义为
nndl|nndl 读书笔记 附录 E 信息论
文章图片
随机变量 X 的平均编码长度,即熵定义为
nndl|nndl 读书笔记 附录 E 信息论
文章图片
熵是一个随机变量的平均编码长度,即自信息的数学期望。
熵越高,则随机变量的信息越多;熵越低,则信息越少。
如果变量 X 当且仅当在 x时 p(x) = 1,则熵为 0。也就是说,对于一个确定的信息,其熵为 0,信息量也为 0。如果其概率分布为一个均匀分布,则熵最大。
nndl|nndl 读书笔记 附录 E 信息论
文章图片
E.1.2 联合熵和条件熵
对于两个离散随机变量 X 和 Y ,假设 X 取值集合为 X; Y 取值集合为 Y,其联合概率分布满足为 p(x, y),则
X 和 Y 的联合熵(Joint Entropy)为
nndl|nndl 读书笔记 附录 E 信息论
文章图片
X 和 Y 的条件熵(Conditional Entropy)为
nndl|nndl 读书笔记 附录 E 信息论
文章图片
根据其定义,条件熵也可以写为
nndl|nndl 读书笔记 附录 E 信息论
文章图片
通俗理解信息熵
为什么有一个负号?信息熵公式里的负号是为了确保信息一定是正数或者是0。
为什么底数为2?这是因为,我们只需要信息量满足低概率事件x对应于高的信息量。那么对数的选择是任意的。我们只是遵循信息论的普遍传统,使用2作为对数的底。
通俗理解条件熵
条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。
E.2 互信息 互信息(Mutual Information)是衡量已知一个变量时,另一个变量不确定性的减少程度。两个离散随机变量 X 和 Y 的互信息定义为
nndl|nndl 读书笔记 附录 E 信息论
文章图片
互信息的一个性质为
nndl|nndl 读书笔记 附录 E 信息论
文章图片
如果 X 和 Y 互相独立,即 X 不对 Y 提供任何信息,反之亦然,因此它们的互信息为零。
E.3 交叉熵和散度 E.3.1 交叉熵
对应分布为 p(x)的随机变量,熵 H(p)表示其最优编码长度。
交叉熵(Cross Entropy)是按照概率分布 q 的最优编码对真实分布为 p的信息进行编码的长度,定义为
nndl|nndl 读书笔记 附录 E 信息论
文章图片
在给定 p的情况下,如果 q 和 p越接近,交叉熵越小;如果 q 和 p越远,交叉熵就越大。
采用错误的分布q来表示来自真实分布p的平均编码长度。
交叉熵是衡量两个概率分布p,q之间的相似性。
交叉熵——我们如何评估差异
深度学习 | 透彻理解交叉熵的本质
E.3.2 KL散度
KL 散度(Kullback-Leibler Divergence),也叫KL 距离或相对熵(Relative Entropy),是用概率分布 q 来近似 p时所造成的信息损失量。
nndl|nndl 读书笔记 附录 E 信息论
文章图片
E.3.3 JS散度
JS散度(Jensen–Shannon Divergence)是一种对称的衡量两个分布相似度的度量方式,定义为
nndl|nndl 读书笔记 附录 E 信息论
文章图片
其中 m = ?(p + q)。
E.3.4 Wasserstein距离
Wasserstein距离(Wasserstein Distance)也用于衡量两个分布之间的距离。对于两个分布 q1, q2,pth-Wasserstein距离定义为
nndl|nndl 读书笔记 附录 E 信息论
文章图片
【nndl|nndl 读书笔记 附录 E 信息论】本书其他章节的笔记目录

    推荐阅读