熵是隨機變量不確定性的度量,不確定性越大,熵值越大,若隨機變量退化成定值,熵為0,均勻分布是最不確定的分布。熵其實定義了一個函數(概率分布函數)到一個值(信息熵)的映射。
熵的定義公式如下:
在經典熵的定義中,底數是2,此時熵的單位是bit,若底數是e,則熵的單位是nat(奈特)
兩個隨機變量X, Y的聯合分布,可以形成聯合熵Joint Entropy,用H(X,Y)表示,那么我們不禁要問:H(X,Y) - H(Y)代表什么呢?
事實上,(X,Y)發生所包含的熵,減去Y單獨發生包含的熵,在Y發生的前提下,X發生的新帶來的熵。于是有了條件熵:H(X|Y)的定義
下面是條件熵的推導公式:
相對熵,又稱為互熵,交叉熵,鑒別信息,KL散度,假設p(x), q(x)是X中取值的兩個概率分布,則p對q的相對熵是:
對于相對熵,可以度量兩個隨機變量的距離,一般的p對q的相對熵和q對p的相對熵不相等。
對于已知的隨機變量p,要使得相對簡單的隨機變量q,盡量接近p,那么我們可以采用相對熵進行求解:
假定使用KL(Q||P),為了讓距離最小,則要求在P為0的地方,Q盡量為0。會得到比較“窄”的分布曲線;
假定使用KL(P||Q),為了讓距離最小,則要求在P不為0的地方,Q也盡量不為0。會得到比較“寬”的分布曲線;
互信息
兩個隨機變量X,Y的互信息,定義為X,Y的聯合分布和獨立分布乘積的相對熵。
對于互信息,我們可以有如下的推導公式: