【正文】
物理意義: (1)12()N X H X X L 是這一組隨機變量平均每一批取值 1212,{,}N N x X x X X x ===L 所傳遞的信息量。因此,若該信源產(chǎn)生一個長度為N 的消息,則在不知道其它條件的情況下,對該消息所含信息量的最優(yōu)估計為N維信息熵12()N X H X X L 。 當然,聯(lián)合熵還有自己的特殊性質(zhì)。 證明:這里僅證明()()()H Y X X H H Y ≤+,一般情形可類似證明。 由于 ()()()(), ,y x p x p x y p y p x y ==∑∑ 我們有 ()(),=log ()() x y p x x x p y y p y p ∑左右 注意,()()p x p y 構(gòu)成一個概率分布。 證畢 2. 條件熵
條件自信息:1(|)log (|) I y x p y x = 對于任何取值x ,|Y X x =是一個帶條件的隨機變量,其信息熵為 (|)(|)log (|)y H Y X x p y x p y x ==∑ 再對所有x 求熵的平均值可得如下條件熵: 定義 設(shè)X ,Y 是兩個離散型隨機變量,聯(lián)合分布為p (xy )。 定理(條件熵非負性)對于任何離散型隨機變量X 與Y ,都有H(Y|X) ≥0,其中等號成立當且僅當Y 是X 的函數(shù),即X 的取值可確定Y 的取值。這表明當X 的取值確定時,Y 的取值隨即確定,即Y 是X 的函數(shù)。