freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于信息理論的鑒別信息測(cè)量_畢業(yè)論文-文庫吧資料

2025-07-10 23:41本頁面
  

【正文】 準(zhǔn)確的描述 用戶的信息需求。有趣的是,具有高文件頻率的詞(如,細(xì)胞群, DNA測(cè)序,細(xì)胞核,葉綠體 rbcl基因,系統(tǒng)進(jìn)化,簡(jiǎn)約,分支, 核糖體 RNA基因,屬,基因序列,核苷酸,祖先 ) 具有相對(duì)較低的關(guān)系值,因?yàn)槲覀兊姆椒ㄕJ(rèn)為它們并不富有信息。 24 圖 3 提取分類名和關(guān)鍵詞的例子 在我們的初步實(shí)驗(yàn)中,幾乎所有的類群名都有非常高的關(guān)聯(lián)值,并位于榜首,我們也認(rèn)為 20個(gè)排名第一的并不是類群名。設(shè) A(也就是 1?A )是用戶取自樹基的,例如式 (23)已知的),( 1* ?trelI ,關(guān)聯(lián)性測(cè)定方法可用于類群名和關(guān)鍵詞的提取。 樹基是我們使用的語料庫之一,它是系統(tǒng)進(jìn)化的關(guān)系型數(shù)據(jù)庫。, ??? 和ba )(tfd 為 t在文件 d中出現(xiàn)的頻率,)(tfddVt d??? 是 d的長(zhǎng)度; )(Cave 是語料庫 C 的平均文件長(zhǎng)度 。 在這 個(gè)例子中,我們將演示用戶是如何通過我們的系統(tǒng)從樹基 [43]文本中提取分類名和關(guān)鍵詞。 ,且取自 iD 的 iP 為: iDVt?,將 )(*ii DD VV ?記為詞的集合,這些詞將 iD 為它們的 ssc; b. 對(duì)每個(gè) *iDVt?估計(jì) t與 iP 的關(guān)聯(lián)性,并記 )( **ii DP VV ?為高度相關(guān)詞的集合(根據(jù)預(yù)定閾值),其中 2,1?i 。 統(tǒng)計(jì)模式學(xué)習(xí)方法已經(jīng)在 TM 領(lǐng)域取得了顯著的成效,我們的正式方法可以很容易應(yīng)用到提取關(guān)鍵詞的有效技術(shù),這個(gè)方法的基本思想是很簡(jiǎn)單的 。因此我們選擇的例子是在 TM 和 IR環(huán)境中。 3. ),( 21 ?? ?trelK 是 ),( 1?trelK 和 ),( 2?trelK 的代數(shù)加權(quán)和 , 因此0),( 211 ?? ??trelK 和 0),( 212 ?? ??trelK 這兩個(gè)值并不能保證 21 tt和 兩個(gè)密切相關(guān),而式( 16)可為每個(gè)詞進(jìn)行查證。因此僅查證 0),( 1 ??trelI ,就足以為每個(gè)選定的詞有效鑒定它們?cè)?1V 中密切相關(guān)。注意當(dāng) )(11 ?VVt ??而 0)(1 ?t? 時(shí), 0),( 21 ?? ??trelD 表明 0)( ?tifdD ,但是 0),( 21 ?? ??trelD 并不能保證 A是 t的 ssc,這是因?yàn)橛啥ɡ?,僅因?yàn)?0)( ?tifdD 而推出 ):(sup 21 HHtD ?是不夠的,因此理解 0),( 211 ?? ??trelD 和 0),( 212 ?? ??trelD 這兩個(gè)值并不代表 21 tt和 兩個(gè)密切相關(guān)是非常重要的。 評(píng)論 假設(shè)我們關(guān)注于類 A:我們從 1V 中選擇一些彼此密切相關(guān)的詞,當(dāng)),( 21 ?? ?trelD 使用了(這種情況在實(shí)際運(yùn)用中并不常見),我們強(qiáng)調(diào)的是下面的點(diǎn)必不可少。2 ?? treltrel DiD ? 。2,1,*2 ?? iVti 2. 對(duì)所有(或大部分) 2,1},{ 21*239。1 ?? treltrel DiD ? 。2,1,*1 ?? iVti (或大部分) 2,1},{ 21*139。 通過以上定義 , 我們很容易給出任意兩個(gè)詞關(guān)于 },{ AAC? 的關(guān)聯(lián)性定義,它是定義 。 因此,為判斷是否有 ):(s up 1 ?? HHtK ,我們必須進(jìn)行更深入的考慮,從以上第 二點(diǎn)我們可以很容易得到,若存在 ):(s up 1 ?? HHtK ,只有在: 0)(i f d21 21 ?? ?? II i f dt ?? (16) 方法 已給出了 MDI的正式分析后,現(xiàn)在我們是要考慮如何將它運(yùn)用到實(shí)際問題中 —— 測(cè)量詞之間的語義關(guān)聯(lián)程度。 因此, 0)()}(),(m a x {221* ??? ??? tif dtif dtif d III?,且 ):(s u p 2 ?? HHtK ,因此 與第二點(diǎn)比較 , 0)( ?tifdK 表明 t支持 2H 比 ?H 更多一些。 )()( tPtP AA ? ,則 a. )()1()()1( 11 tPtP AA ?? ??? ,也就是 )()()( 21 tPtPtP AAA ?? ?? ,因此0)|:( 1 ?? tHHi , t傳達(dá)支持 1H 反對(duì) ?H 的信息,且 t有助于支持 1H 反對(duì) ?H 的)(11 tifdifd II ?? ?? 。 b. )()1()()1( 22 tPtP AA ?? ??? ,也就是 )()()( 21 tPtPtP AAA ?? ?? ,因此0)|:( 2 ?? tHHi , t也傳達(dá)支持 2H 反對(duì) ?H 的信息,且 t有助于支持 2H 反對(duì) ?H的 )(22 tifdifd II ?? ??。 18 從上面的定理,我們了解到對(duì)每個(gè) Vt? 都有 0)(21 ?? ?? II if dtif d,因此我們有下列的定量表示: 1. 如果 )()( tPtP AA ? ,則 0)|:()|:( 21 ?? ?? tHHitHHi ,即 t在分類 C 到 c中不能提供鑒別信息。 評(píng)論 從以上三點(diǎn),我們能明白當(dāng) 1Vt? ,剩余支持度 0)( ?tifdJ 并不表示):(s up 12 HHtJ ? ,這是因?yàn)?)(tifdJ 為正是 受 021?Iifd 所決定的, 在第二節(jié)中的已經(jīng)給出了 21 KK和 這兩個(gè)實(shí)例清晰地闡述了我們的觀點(diǎn)。 b. 0)|:( 21 ?tHHi , t也傳達(dá)支持 2H 反對(duì) 1H 的信息,且它有助于支持 2H 反對(duì) 1H 的 )(2121 tifdifd II ?。 因此,由定義 ,我們可得 17 0)()}(),(m a x { 122112* ??? tif dtif dtif d III? ,且 ):(sup 1 ?? HHtK , 因此 0)( ?tifdK 表明 t支持 1H 比 ?H 更多一些。 2. 如果 )()( tPtP AA ? ,則 a. 0)|:( 21 ?tHHi ,則 t傳達(dá)支持 1H 反對(duì) 2H 的信息,且 t有助于 支持 1H 反對(duì) 2H 的 )(1212 tifdifd II ?。 )(tifdJ 的闡述 在給出定量表示之前,首先讓我們通過下列的定 理 [42]考慮 )(tifdJ 的屬性: 定量 對(duì)任意 Vt? ,若滿足 0)()( ?? tPtP AA ,則我們 通常有 0)( ?tifdJ 且 )()( tPtP AA ? ,則 0)(12 ?tifdI,也就是 0)(21 ?tifdI; 2. 有且只有當(dāng) )()( tPtP AA ? ,則 0)(12 ?tifdI,也就是 0)(21 ?tifdI。 )()( tPtP AA ? ,則 0)|:( 21 ?tHHi , 且 t傳達(dá)支持 1H 反對(duì) 2H 的信息, 16 因此由定義 : 0)()()}(m a x {* ???? tif dtif dtif d III? 且 ):(sup 21 HHtI ? 3. 如果 )()( tPtP AA ? ,則 0)|:( 21 ?tHHi ,且 t傳達(dá)支持 1H 反對(duì) 2H 的信息,因此 0)()()}(m a x {* ????? tif dtif dtif d III? ,如第 2節(jié)中所提, t應(yīng)該馬上丟棄。 鑒別測(cè)量的闡述 取決于他們的屬性的個(gè)別的鑒別測(cè)量的闡述是不同的,在這節(jié)中,在表達(dá) A的上下文關(guān)系時(shí),我們將明白 t是否是最有信息的或不取決于 A是否是 ssc( 也就是 , *1Vt? ),而不是剩余支持度的標(biāo)志。 首先考慮第一個(gè)子項(xiàng),它類似于 )(tifdI , )|:( 1 tHHi ? 是鑒別兩個(gè)相反的假設(shè) ?HH和1 的能力, )|( 1HtP 測(cè)量 t關(guān)于 A在決策力上的意義,因此,由定義 , 00 21 ?? ?? 或 ,)(1 tifdI ? 表明 支持 1H 反對(duì) ?H 的信息。 接著回到式( 8),信息半徑 ),。 圖靈機(jī) 介紹表達(dá)“貝葉斯因子在假設(shè)條件下成立”,Kullback[33]把貝葉斯因子對(duì)數(shù) )|:( 21 tHHi 作為支持 1H 反對(duì) 2H 的“鑒別信息”,Good[41]也給了一個(gè)相似的定義,即將 )|:( 21 tHHi 當(dāng)作 t 關(guān)于 1H 而反對(duì) 2H 的“衡量證據(jù)的份量”(在這種情況下, 詞的發(fā)生率當(dāng)作是證據(jù)的分量 ) ,因此鑒別因子 )|:( 21 tHHi 可以測(cè)量 t支持 1H 反對(duì) 2H 的信息量。注意當(dāng) 1H 準(zhǔn)確,則有: )( )()|( )|(l og)|( )|(l og)( )(l og 212121 HP HPtHP tHPHtP HtPtP tP AA ?? ))()|(lo g ( 11 HOtHO? )|:( 21 tHHi?? , 上式成為鑒別因子,其中 )|( 1 tHO 是 在已知 t 時(shí) 支持 1H 反對(duì) 2H 的幾率 ,且)( 1HO 是支持 1H 反對(duì) 2H 的幾率。因此,在原則上一些正式方法討論的的信息半徑和熵增益是同一回事,交互信息的測(cè)量期望是定 13 向 散度的特殊情況,我們已經(jīng)在 MDI[39][40]中討論了這兩個(gè)測(cè)量的應(yīng)用。,( 21 ?AA PPK ?? ,這個(gè) 性質(zhì)表明從所有詞中所得到的信息期望都是非負(fù)的,如果詞的分布信息是相同的,則將沒有信息期望,也就是說他們都滿足分類標(biāo)準(zhǔn)。在}21,21{},{ 21 ?? ???P 時(shí),一個(gè)對(duì)稱的信息半徑可以很容易被引出。,( 21 AA PPK ?? 可以用來比較任意詞分布,因?yàn)檫@個(gè)突出特性,信息半徑貌似就有一些新的興趣點(diǎn),很明顯 ),。,( 21 AA PPK ?? 看成是支持 )(tPA 而反對(duì))(tPA 的信息增益期望 [37][34], 與 ):( AA PPI 和 ):( AA PPJ 相比, ),。 進(jìn) 一 步設(shè) 21 ??和 分 別 有先 驗(yàn) 概率 分布 )(tPA 和 )(tPA ,也設(shè))()()( 21 tPtPtP AA ?? ??? 是從語料庫 AA??? 中提取的混合分布(注意 ?P 與)(tPC 不同)。 ):( AA PPJ 可看成是支持 )(tPA 而反對(duì) )(tPA 的信息期望, 且信息期望是支持)(tPA 而反對(duì) )(tPA [33]。 ):( AA PPI 可看成是支持 )(tPA 而反對(duì) )(tPA 的期望信息增益, kullback[33]稱為定向散度的測(cè)量,則表示 ):( AA PPI 可以測(cè)量從 )(tPA 中的 )(tPA 的期望散度,在應(yīng) 12 用 ):( AA PPI 時(shí)有一個(gè)必要條件就是 )(tPA 必須關(guān)于 )(tPA 的完全連續(xù), 也就是)()( tPtP AA ?? ,對(duì)于每個(gè) Vt? , ):( AA PPI 都不能關(guān)于 )(tPA 和 )(tPA 的對(duì)稱。,( 21 AA PPK ?? [34],杰森差異 [35],這就是通常所說的信息增益,現(xiàn) 在已經(jīng)被許多研究者所熟悉,文獻(xiàn) [33]詳細(xì)介紹了散度的概念,文獻(xiàn)[36]中可以找到公理表征,下列將簡(jiǎn)略地進(jìn)行介紹: 本研究中所使用的三個(gè)散度測(cè)量為: )( )(log)():( tP tPtPPPI AAVt AAA ???, (6) ):():(),( AAAAAA PPIPPIPPJ ?? (7) )( )(log))()(( tP tPtPtP AAVt AA?? ?? ):():(),。 散度測(cè)量 方法 設(shè) )()( 1 tPtPA ? 和 )()( 2 tPtPA ? 都是分別從類 A和類 A 中提取的離散詞分布。 在下一節(jié),基于類別 },{ AAC? 的一些散度測(cè)量,我們集中討論鑒別信息測(cè) 11 量。 已知 21 ??和 這種簡(jiǎn)化的一個(gè)重要應(yīng)用 是從兩個(gè)類別 },{},{ 21 AACCC ??? 中分類文件,其中 1CA?? 關(guān)于 1? 的分類, 而 12 CCCA ???? 不是 1? 的分類,在這種情況下,我們可以設(shè) 2? 是“虛無”對(duì) 象,即 2? =“不是 1? 的任何對(duì)象”。 為簡(jiǎn)單起見, 下面的討論我們只是在兩個(gè)對(duì)象 21 ??和 ,且 2?? MC 。前者是詞和個(gè)別類別 iC 的關(guān)系,在這種關(guān)系中,支持度看成是 )()( tifdiD 并不超過 CV? 。事實(shí)上,在介紹了鑒別測(cè)量和 關(guān)聯(lián)性測(cè)量后,第二個(gè)問題的答案就相當(dāng)簡(jiǎn)單了,則我們可以下列的正式定義: 定義 設(shè) D 是式( 1)給出的一些散度測(cè)量,對(duì)于任意的 Vtt ?21, ,它們相互緊密聯(lián)系,且存在一些類 cCi ?0,則能得到理想的情況: 1.0iC就是它們的 ssc, 也就是 *210, iVtt ? 2. 與 },{ 21*0 ttVi ?的 ),(0iD trel ?相比,0i
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1