【正文】
? 信息論與大數(shù)據(jù)。0( YXIYXI ???小結(jié) ? 信息的度量 —— 熵,信息量 ? 熵的極大性 ? 熵,平均互信息的關(guān)系 ? 條件熵,聯(lián)合熵,條件互信息,聯(lián)合互信息 ? 互信息的凸性 ? 信息處理定理 討論 ? 10個(gè)硬幣中有一個(gè)重量偏輕,其他 9個(gè)為標(biāo)準(zhǔn)重量。1(1010uuuuppppipappipappYXIaaaaaiiaiia??????????????)。因?yàn)榇藭r(shí) uuuuppppipappipappYXIaaaaaiiaiial o g)1(l o g)1(2l o g)0|1(2l o g)0|1())0|0(2(l o g)0|0()|1()0|1(l o g)0|1()|0()0|0(l o g)0|0()。 當(dāng) X服從等概分布( a0=P(X=0)=1/2; a1=P(X=1)=1/2)時(shí), I(X。()。(的概率向量的時(shí)候,為以。 CaCYkXIaYXIXaKkkKkk ???? ???? 11)。(互信息的凸性 I(X=k。 Y)對(duì)所有滿足 ak=0的 k都取值不超過(guò)上述的相同值 C 。 Y)是 p(y | x)的下凸函數(shù) 互信息的凸性 定理 K維概率向量 a=(a1, a2, …, aK)使得 當(dāng)且僅當(dāng):以 a為 X的概率向量的時(shí)候, I(X=k。(p(y | x)給定, I(X。偏導(dǎo)數(shù) 存在且連續(xù), f(a)在 R上為極大的 充分必要條件 其中 l為一常數(shù)。 Y)達(dá)到最大。 Y)是概率向量 q=(q1, q2, …, qK)的函數(shù)。(互信息的凸性 互信息的凸性 設(shè)條件概率 {p(j|k), k=1~K, j=1~J}被確定。 記條件概率 P(Y=j|X=k)=p(j|k)。 記 X的概率分布為 P(X=k)=qk, k=1~K。 ?????????),(,0),(,1)(baxbaxabxf X)(l o g)(l o g1)(1l o g)()( abdxababdxxfxfXH abaaXaXc ?????? ??????正態(tài)隨機(jī)變量的相對(duì)熵 }2 )(e xp{2 1)( 222 ???mxxfX???222222222221( ) ( ) l o g()1 ( ) ( )l o g e x p { }{l n 2 }222l o g l n 2 l o g211l o g 2 l o g l o g ( 2 )22c X aXaaaa a aH X f x d xfxx m x me d xeeee??????????? ? ? ????????????? ? ???? ? ???例 設(shè) X~N(m, σ2),求 X的 相對(duì)熵(我們將發(fā)現(xiàn), X的 相對(duì)熵未必非負(fù))。 Y)= HC(X)- HC(X | Y)= HC(Y)- HC(Y | X) = HC(X)+HC(Y)- HC(X, Y) HC(X, Y)= HC(X)+HC(Y)- I(X 。因此只能定義所謂“相對(duì)熵”,而“相對(duì)熵”的直觀合理性大打折扣) 相對(duì)熵的定義 給定連續(xù)型隨機(jī)變量 {X, fX(x)}。(XZYIZXIZXYIYXIZXIZXYIZYXIXYIYXIYXI??????非負(fù)性 對(duì)稱性 數(shù)據(jù)處理定理 關(guān)系 連續(xù)隨機(jī)變量的相對(duì)熵 ( ) ( ) l og ( )c X XH X p x p x dx????? ?(連續(xù)型隨機(jī)變量為什么不能類似地定義平均自信息量 —— 熵?這是因?yàn)椋B續(xù)型隨機(jī)變量的事件有無(wú)窮多個(gè),每個(gè)事件發(fā)生的概率無(wú)窮小。()。()|。()。()。 X與 Y的平均互信息量定義為 性質(zhì) )|。 Y | Z) I(XY。事件 x∈ X與事件 y∈ Y的互信息量定義為 連續(xù)隨機(jī)變量的平均互信息 ? ???????? d x d yypxpxypxypYXIYXXYXY )()()(l o g)()。 | )I x y z( 。()|()|(YXIZXIYXHZXH?? 連續(xù)隨機(jī)變量的互信息和相對(duì)熵 連續(xù)隨機(jī)變量的互信息