freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于信息理論的鑒別信息測量_畢業(yè)論文(完整版)

2025-08-29 23:41上一頁面

下一頁面
  

【正文】 ,一個恢復(fù)的系統(tǒng)僅通過用戶的查詢是不能 25 被期望產(chǎn)生理想的結(jié)果。則對 )(tPA 的討論也類似,在文獻 [40]中詳細(xì)地討論了估計詞分配問題。 TM的實例 TM 通常指的是提取新的、以前并不知道的知識的過程 ,它是通過從文本信息源中自動提取關(guān)鍵詞, TM 的一個典型例子發(fā)生在基因組學(xué)領(lǐng)域:蛋白質(zhì)與其他蛋白質(zhì)相互作用,為預(yù)測它們的相互作用,現(xiàn)有一些統(tǒng)計模型學(xué)習(xí)方法可以在討論蛋白質(zhì)文件中確定詞共 現(xiàn)模型。 正如第三節(jié)所提到的, ),( 21 ?? ?trelD 是兩個相反的 ),( 1?trelD 和 ),( 2?trelD的代數(shù)加權(quán)和: 當(dāng) t在文件 A 中也出現(xiàn)的時候, 它提供的不僅是 1?與t 的關(guān)聯(lián)性,而且還是 2?與t 的關(guān)聯(lián)性 。 ??? ittVt ,則有 ),(),( 139。 b. )()1()()1( 22 tPtP AA ?? ??? ,也就是 )()()( 21 tPtPtP AAA ?? ?? ,因此0)|:( 2 ?? tHHi , t也傳達(dá)支持 2H 反對 ?H 的信息,且 t有助于支持 2H 反對 ?H的 )(22 tifdifd II ?? ?。 因此, 0)()}(),(m a x {212112* ??? tif dtif dtif d III?,且 ):(s up 12 HHtJ ? ,因此與第二點比較, 0)( ?tifdJ 表明 t支持 2H 比 ?H 更多一些。 評論 注意,從上面的三點我們不能找到 t的 ssc和 ??)(tsscD ,在這三點的情況下,我們也不能說 t有助于支持 2H 反對 1H 的 0??Iifd,因為)()|:()()|:()()( 2112 1212 tif dtHHitPtHHitPtif d IAAI ???? 。 現(xiàn)在回到式( 6),定向散度 ):( AA PPI 可以看成是)|:()|()( 211 tHHiHtPtifd I ? ,其中 )|: 21 tHHi 可看作是 t支持 1H 反對 2H 的鑒別力 ,幅度概率 )|( 1HtP 測量 t在類 A中的決策力,因此,根據(jù)定義 ,01 21 ?? ?? 且 ,則 )(tifdI 表示支持 1H 反對 2H 的信息,因此我們可以得到下列的正式定義: 定義 設(shè)對 Vt? 時 )()( tPtP AA ?? ,對于每個 Vt? ,則支持 1H 反對 2H 的鑒 14 別信息為: )( )(log)()()()1( tP tPtPtif dtif d AAAII ?? (9) )|:()|( 211 tHHiHtP? 接著 回到式( 7), 同樣的散度 ):( AA PPJ 可表達(dá)成 )(tifdJ 的和 ,每個都有兩個子項: )|:()|( 21112 tHHiHtPifd I ?和 )|:()|()( 12221 tHHiHtPtif d I ?,在式( 9)中我們討論了 )()(12 tifdtifd II ?,類似的討論可以應(yīng)用到第二個子項中,因此通過定義 ,消去 2121 ????,則我們可以得到下列的正式定義: 定義 設(shè) )()( tPtP AA ?? ,對每個 Vt? 有 )()( tPtP AA ?? ,支持 1H 反對 2H 的鑒別信息可以由下式定義: )()()(12)1( tifdtifdtifd IIJ ?? 此式在式( 9)已給出,支持 2H 反對 1H 的鑒別信息可以由下式定義: )( )(l og)()()( 21)2( tP tPtPtif dtif d AAAIJ ?? (10) )|:()|( 122 tHHiHtP? 且 t傳達(dá)的剩余信息由下式定義: )()()( )2()1( tifdtifdtifd JJJ ?? (11) 現(xiàn)在進一步假設(shè) 21 HH和 是 t以先驗概率 21 ??和 從 A和A 中提取,設(shè) ?H 是 t從 CAA ??? ? 中提取的,且 )|()()( 21 ?? ??? HtPtPtPP AA ?? 。 如果對所有 Vt? 都有 )()( tPtP AA ? ,則 0):( ?AA PPI 、 0):( ?AA PPJ 和0),。 ):( AA PPJ 是關(guān)于 )(tPA 和 )(tPA 對稱的,但是 它需要對每個 Vt? 都滿足 )()( tPtP AA ?? 和 )()( tPtP AA ?? ,當(dāng)我們從不同的類別中取出兩個詞分布,這樣的要求在實際應(yīng)用中很難達(dá)到。 在定義 鑒別信息的一般形式 )()2,1)(()( tifditifd DiD 和? ,從信息理論和相應(yīng)的正式表達(dá)得出三種散度測量,從而有了一系列的鑒別測量,接下來,都將設(shè) 00 21 ?? ?? 或 。 從上面兩個定義中,我們可以很清晰地得 出 “詞和對象的關(guān)聯(lián)性”和“詞之間的關(guān)聯(lián)性” 是兩個不同的概念。設(shè) )(ti? 作為反映每個詞的重要性的加權(quán)函數(shù),其中就 i? 而言, Vt? 。 K1: 一個 正數(shù) 的剩余支持度可能不會表明 iVt? 在 iC 中 就有更多的信息 而在其他類 C 中就沒有什么信息。 在下列敘述中,已知 t,我們把 )(tsscD 當(dāng)作是所有 t 的最強支持類的集合,同時對于一個已知的類別 iC ,我們把 *iV 當(dāng)作所有其他詞在 C 中最強支持 iC 的集合。({)( )()( jjiiD PDtif d ?? , (2) 上式稱為 t對 iC 的支持程度,且剩下的鑒別信息由下式定義: }){}。({}){}。正如前面所提到的,詞有較強的識別力,也就是說它比其他詞在預(yù)期信息量上貢獻更多,則它應(yīng)該被當(dāng)作是更有信息的。 設(shè) t是一個詞, V是在 C 中指出各自文件的所有詞的一個詞匯表且 nV? , 5 設(shè) iV 為包含至少在 iC 中出現(xiàn)一次的詞的分詞匯表,其中 Mi ,...,2,1? 。第二, 我們集中于 MDI,并討論了鑒別測量 方法 的性能和 闡述 (第 4 節(jié) ),接著我們集中在 MSR,并為關(guān)聯(lián)性測量給出了表示法(第 5節(jié))。 許多應(yīng)用程序被當(dāng)作 MSR是 其主要關(guān)系的 情況,例如,問 答 [7]、修飾語對 [8]、同義詞識別 [9]、語義關(guān)系相似性測量 [3]、語篇銜接的測量 [10]、潛在的語義分析 [11]、文本挖掘 [12]和詞義消歧 [13]。相似的詞由于它們詞義的相似(同義)通常被認(rèn)為是相關(guān)的;不相似的詞通過詞典的關(guān)系(上下文的關(guān)系、部分 整體的關(guān)系等),或者從 語料庫 [5]中得到的同現(xiàn)統(tǒng)計 也讓其在語義上有關(guān)系。根據(jù)這個觀點,類別應(yīng)該能明確地判定,類別之間相互排斥,文件分類是信息科學(xué)的另一個基本問題,本文的研究是一個獨特但相關(guān)的工作。研究的目的的本文的一個組成部分,它是建立一個以鑒別信息的測量為核心 的統(tǒng)一理論框架,并實現(xiàn)有效的語義關(guān)聯(lián)的測量。 根據(jù)各自的鑒別測量,關(guān)聯(lián)性度量可以自然地確定。一個信息詞,也常稱為 一個好的鑒別器,它對分類文件應(yīng)該有很好的性能。能夠計算的潛在數(shù)學(xué)結(jié)構(gòu)是從信息理論中提取出的散度測量,他們從詞的分布 情況判斷預(yù)期散度,因此它為估算預(yù)期信息量提供一個有力的工具。 統(tǒng)計學(xué)上,密切相關(guān)的詞在分類上彼此往往有相同的最強支持類,并比其他詞提供更高的 相關(guān)性值到最強支持類中。然后, 我們集中到 MSR,根據(jù)各自的鑒別 措施 給出了一系列關(guān)聯(lián)性 測定方法 的表達(dá)。設(shè)想 , M??? ,..., 21 是不相關(guān)的成對出現(xiàn)的 主體 ,設(shè) C為文件的語料庫且 NC? ,并 c 是 C 的一類,并 NMc ?? 。 很明顯,如果我們知道信息中包含 iVt? 的數(shù)量,我們就很容易識別每個詞 t的 ssc,其中 Mi ,...,2,1? 。為定量 t依照它的鑒別信息支持 iC 的信息量,我們僅僅需要作一個假設(shè)(聲明而非正式):語句 “ 表達(dá)類 iC 上下文關(guān)系的信息量 ” 可以被重聲明為 “ 詞 t 的鑒別力是支持假設(shè) iH 而反對所有其他假設(shè)), . . . ,1,1, . . . ,2,1( MiijH j ??? 。其實 ,一個詞中的信息就是支持一些類別的鑒別信息 。圖 2說明了我們的觀點。 潛在的問題 在很多應(yīng)用中所使用的鑒別測量是 )(tifdD 而不是 )()( tifdiD ,但是使用 )(tifdD存在很多潛在的問題。 以上的兩點對本文研究必不可少,它們將在第三節(jié)中表達(dá)鑒別測量)(), . . . ,2,1)(()( tifdMitifd DiD 和? 時得到更清楚的解釋。 10 很明顯, ),( iD trel ? 是估計特定對象 i? 關(guān)于 iC 的 t 關(guān)聯(lián)性程度,個別的關(guān)聯(lián)性程度可以相互抵消,最后剩余關(guān)聯(lián)性程度 )...,( 21 MD trel ??? ??? ,它是個別關(guān)聯(lián)值在 C 上的加權(quán)代數(shù)和。 已知 21 ??和 這種簡化的一個重要應(yīng)用 是從兩個類別 },{},{ 21 AACCC ??? 中分類文件,其中 1CA?? 關(guān)于 1? 的分類, 而 12 CCCA ???? 不是 1? 的分類,在這種情況下,我們可以設(shè) 2? 是“虛無”對 象,即 2? =“不是 1? 的任何對象”。 ):( AA PPI 可看成是支持 )(tPA 而反對 )(tPA 的期望信息增益, kullback[33]稱為定向散度的測量,則表示 ):( AA PPI 可以測量從 )(tPA 中的 )(tPA 的期望散度,在應(yīng) 12 用 ):( AA PPI 時有一個必要條件就是 )(tPA 必須關(guān)于 )(tPA 的完全連續(xù), 也就是)()( tPtP AA ?? ,對于每個 Vt? , ):( AA PPI 都不能關(guān)于 )(tPA 和 )(tPA 的對稱。,( 21 AA PPK ?? 可以用來比較任意詞分布,因為這個突出特性,信息半徑貌似就有一些新的興趣點,很明顯 ),。注意當(dāng) 1H 準(zhǔn)確,則有: )( )()|( )|(l og)|( )|(l og)( )(l og 212121 HP HPtHP tHPHtP HtPtP tP AA ?? ))()|(lo g ( 11 HOtHO? )|:( 21 tHHi?? , 上式成為鑒別因子,其中 )|( 1 tHO 是 在已知 t 時 支持 1H 反對 2H 的幾率 ,且)( 1HO 是支持 1H 反對 2H 的幾率。 鑒別測量的闡述 取決于他們的屬性的個別的鑒別測量的闡述是不同的,在這節(jié)中,在表達(dá) A的上下文關(guān)系時,我們將明白 t是否是最有信息的或不取決于 A是否是 ssc( 也就是 , *1Vt? ),而不是剩余支持度的標(biāo)志。 因此,由定義 ,我們可得 17 0)()}(),(m a x { 122112* ??? tif dtif dtif d III? ,且 ):(sup 1 ?? HHtK , 因此 0)( ?tifdK 表明 t支持 1H 比 ?H 更多一些。 b. )()1()()1( 22 tPtP AA ?? ??? ,也就是 )()()( 21 tPtPtP AAA ?? ?? ,因此0)|:( 2 ?? tHHi , t也傳達(dá)支持 2H 反對 ?H 的信息,且 t有助于支持 2H 反對 ?H的 )(22 tifdifd II ?? ??。 通過以上定義 , 我們很容易給出任意兩個詞關(guān)于 },{ AAC? 的關(guān)聯(lián)性定義,它是定義 。2 ?? treltrel DiD ? 。 3. ),( 21 ?? ?trelK 是 ),( 1?trelK 和 ),( 2?trelK 的代數(shù)加權(quán)和 , 因此0),( 211 ?? ??trelK 和 0),( 212 ?? ??trelK 這兩個值并不能保證 21 tt和 兩個密切相關(guān),而式( 16)可為每個詞進行查證。 在這 個例子中,我們將演示用戶是如何通過我們的系統(tǒng)從樹基 [43]文本中提取分類名和關(guān)鍵詞。 24 圖 3 提取分類名和關(guān)鍵詞的例子 在我們的初步實驗中,幾乎所有的類群名都有非常高的關(guān)聯(lián)值,并位于榜首,我們也認(rèn)為 20個排名第一的并不是類群名。q )的重新加權(quán)函數(shù)為39。 圖 4的實驗結(jié)果由平均檢索性能(超過 50個查詢)組成,分別取自(表示21 ??? ?? ):原始查詢(基準(zhǔn)),和從第一、第二組 關(guān)聯(lián)測定詞取得的擴展查詢 。 如前所述, 許多優(yōu)秀的研究實驗驗證,采用散度測定方法去建立為選擇信息詞的關(guān)聯(lián)性測定方法是很有益的,本文的重點是在理論分析和正式討論,讀者感興趣的是我們的正式討論是如何能被一些經(jīng)驗證據(jù)所支持,這些經(jīng)驗證據(jù)是來自所引用的一些文獻的性能實驗。前者關(guān)心的僅僅是 )()(0 tifdiD 和 *0iV中感興趣的詞;而后
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1