事件 $X$ 发生的概率为 $p$,那么其自信息(信息量)为 $I(X)=-\log_2(p)$
可以从用二进制编码该事件的角度理解
也可以从信息量要求的性质进行理解
自信息仅衡量单个离散事件的信息量,我们需要一种更为广泛的度量来适用于离散或连续分布的随机变量,随机变量的信息量是其每个事件信息量的期望。
对于任意服从概率分布 $P$ 的随机变量 $X$,其概率密度函数或概率质量函数为 $p(x)$,我们通过熵(或香农熵)来衡量期望的信息量:$H(X) = - E_{x \sim P} [\log p(x)]$
具体来说,如果 $X$ 是离散的,$H(X) = - E_{x \sim P} [\log p(x)]$
如果 $X$ 是连续的,我们称熵为微分熵:$H(X) = - \int_x p(x) \log p(x) \; dx$
$H(X)$ 给了一个编码从分布 $P$ 抽取变量的平均比特数的下界
定义一对随机变量 $(X, Y)$ 的联合熵 $H(X, Y)$ 为 $H(X, Y) = -E_{(x, y) \sim P} [\log p_{X, Y}(x, y)]$
我们可以将联合熵视为告诉我们这对随机变量的总随机性。作为两个极端的例子,如果 $X=Y$ 是两个相同的随机变量,则该对变量中的信息正好是其中一个变量的信息,我们有 $H(X, Y)=H(X)=H(Y)$。
另一个极端是,如果 $X$ 和 $Y$ 独立,则 $H(X, Y)=H(X)+H(Y)$。
事实上,成对的随机变量中包含的信息总是不会小于任一随机变量的熵,且不会大于两者熵的总和:$H(X), H(Y) \le H(X, Y) \le H(X) + H(Y)$ 在适当的条件下成立