【正文】
. 計算公式 令X ,Y 為離散的隨機變量。 證畢 在條件熵中,條件越少,熵值越大。 注:鏈法則與熵的可加性是等價的。 證畢 定理(熵的鏈法則)對于隨機變量序列X 1,X 2,…和任何N ≥1 112111 ()()(|)(| ) N N N H X X H X H X X H X X X =+++L L L 簡記為 12? () N N H X H H H =++?+ 其中H 1=H (X 1),H 2=H ( X 2|X 1),…,H N =H (X N |X 1X 2 …X N1)。X 相對于Y 的條件熵H (X|Y ) 定義為條件自信息I (X|Y )的期望,即 ,(|)()(|) x y H X Y p xy I x y =∑ 物理意義:H (X|Y )表示在已知Y 取值的前提下,X 取值的不確定性,亦即X 的每個取值平均所提供的與Y 無關(guān)的信息量。 設對于XY 的聯(lián)合分布為p (xy ),X 和Y 的概率分布簡記為p (x ),p (y )。 聯(lián)合熵的性質(zhì): 聯(lián)合熵熵函數(shù)的一種特殊形式,所以熵函數(shù)的任何數(shù)學性質(zhì)都適用于聯(lián)合熵,包括:非負性、可加性、嚴格上凸性和最大離散熵原理,等等。 定義 一組隨機變量12,N X X X L 的聯(lián)合熵定義為 121212,12()()() N N N N x x x H X X p x x x I x X x x = ∑L L L L 注:為了簡化記號,我們有時把12N X X X L 記為X N ,把12N x x x L 記為x N 。我們把它理解為X 和Y 取值的總的不確定性。我們拓展信息熵H(X)的概念,考慮兩個隨機變量X 和Y 的聯(lián)合熵H(XY)和條件熵H(Y|X)。當X 是常量時,其信息熵最小,等于0;當X 有n 個取值時,當且僅當這些取值的機會均等時,信息熵H(X)最大,等于log