信息熵、条件熵、相对熵、交叉熵

  • 自信息
    简单来说,自信息表述的是随机变量的某个事件发生带来的信息量(一个事件)
    信息熵、条件熵、相对熵、交叉熵
    文章图片
    image-20200403221749825.png
  • 信息熵
    信息熵表述的是随机变量所有事件发生产生的信息量的期望(所有时间)
    使用更短的编码来描述更可能的事件,使用更长的编码来描述不太可能的事件。可以引出熵和最短编码长度的关系:熵是传输一个随机变量状态所需的最短平均编码长度。
    信息熵、条件熵、相对熵、交叉熵
    文章图片
    image-20200403221954543.png
  • 条件熵
    信息熵、条件熵、相对熵、交叉熵
    文章图片
    image-20200403222333383.png 条件熵?相当于联合熵?减去单独的熵?,可以理解做:描述X本身所需的信息,加上给定X条件下具体化Y所需要的额外信息
    信息熵、条件熵、相对熵、交叉熵
    文章图片
    image-20200403222444993.png
  • 相对熵,也称KL散度
    信息熵、条件熵、相对熵、交叉熵
    文章图片
    image-20200403222709737.png
    相对熵可以用来衡量两个概率分布之间的差异
  • 交叉熵
    信息熵、条件熵、相对熵、交叉熵
    文章图片
    image-20200403222850066.png
    而使用非真实分布?来表示来自真实分布?样本的平均编码长度则为:
    信息熵、条件熵、相对熵、交叉熵
    文章图片
    image-20200403222957092.png
    信息熵、条件熵、相对熵、交叉熵
    文章图片
    image-20200403223049960.png
    • 以下也是我们在机器学习中使用交叉熵作为损失函数的原因,由于真实分布是定值,因此最小化相对熵等价于最小化交叉熵,我们最小化交叉熵来使模型逼近真实分布

      信息熵、条件熵、相对熵、交叉熵
      文章图片
      image-20200403223305349.png
  • 信息熵、条件熵、相对熵、交叉熵
    文章图片
    image-20200403223517907.png
  • 参考
    【信息熵、条件熵、相对熵、交叉熵】详解机器学习中的熵、条件熵、相对熵和交叉熵

    推荐阅读