freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于信息理論的鑒別信息測量_畢業(yè)論文-wenkub

2023-07-07 23:41:59 本頁面
 

【正文】 J 是關(guān)于 )(tPA 和 )(tPA 對(duì)稱的,但是 它需要對(duì)每個(gè) Vt? 都滿足 )()( tPtP AA ?? 和 )()( tPtP AA ?? ,當(dāng)我們從不同的類別中取出兩個(gè)詞分布,這樣的要求在實(shí)際應(yīng)用中很難達(dá)到。,( 2121 ?? ?? PPIPPIPPK AAAA ???? (8) ?? ???? Vt AA AAAA AAAA tPtP tPtPtPtP tPtP tPtP ))()( )(l og)()()( )(l og)( )(l og)(( 2122111 ??????? 在散度測量中對(duì)數(shù)的底數(shù)是不重要的,在整個(gè)文中,對(duì)數(shù)都是取底數(shù)為 2,除非有特殊說明。 在定義 鑒別信息的一般形式 )()2,1)(()( tifditifd DiD 和? ,從信息理論和相應(yīng)的正式表達(dá)得出三種散度測量,從而有了一系列的鑒別測量,接下來,都將設(shè) 00 21 ?? ?? 或 。這樣的設(shè)置很容易推廣到任何有限數(shù)目的類別中,此外,為了完善我們的想法,在本研究中每個(gè) Vt? 都是與兩個(gè)對(duì)立的猜測聯(lián)系(如 12 HH ? ,是 1H 的補(bǔ)充)。 從上面兩個(gè)定義中,我們可以很清晰地得 出 “詞和對(duì)象的關(guān)聯(lián)性”和“詞之間的關(guān)聯(lián)性” 是兩個(gè)不同的概念。因而關(guān)聯(lián)性 的 測量應(yīng)該是一個(gè)由 )()( )()( tifdt iDii 和、 ??決定的復(fù)合函數(shù);在先驗(yàn)概率 },...,{ 21 MP ???? ? 下, 剩余的關(guān)聯(lián)性測量應(yīng)該是個(gè)別 C 中 si)(? 的加權(quán)代數(shù)和,則我們下列形式定義得到一些聲明: 定義 設(shè) D是式( 1)中給出的散度測量,對(duì)于已知 Vt? , t和 i? 的關(guān)聯(lián)性由下式?jīng)Q定 : ))(),((),( )()( tif dttrel iDiiiD ?? ?? , (4) 則余下的 t與 M??? ??? ...21 的關(guān)聯(lián)性由下式?jīng)Q定: ),()...,(121 iDMi iMD tr e ltr e l ????? ????? ?? (5) ))(),(( )()(1 tifdtiDiiMi i ?? ??? ??, 其中鑒別測量 ), . . . ,2,1(),()( Mitifd iD ? 在式( 2 )中給出了,所有). . .,(), . . . ,2,1)(,( 21 MDiD tr e lMitr e l ???? ???? 和都成為關(guān)聯(lián)性測量。設(shè) )(ti? 作為反映每個(gè)詞的重要性的加權(quán)函數(shù),其中就 i? 而言, Vt? 。 ) 例如,如果 )()1( ?tifdD 且 )()2( ??tifd D , 則 )()( ????????tifd D ,很明顯 得到 ):(s up 21 HHtD ?和 *1Vt? 。 K1: 一個(gè) 正數(shù) 的剩余支持度可能不會(huì)表明 iVt? 在 iC 中 就有更多的信息 而在其他類 C 中就沒有什么信息。 注意已知詞的 ssc 的概念是在 C 上而非 V 上, 且在 )(tsscD 的所有類別都接收相 同的最強(qiáng)支持度 *? ,根據(jù)統(tǒng)計(jì)特性分類, 0*?? 跟詞之間很大的不同。 在下列敘述中,已知 t,我們把 )(tsscD 當(dāng)作是所有 t 的最強(qiáng)支持類的集合,同時(shí)對(duì)于一個(gè)已知的類別 iC ,我們把 *iV 當(dāng)作所有其他詞在 C 中最強(qiáng)支持 iC 的集合。 很明顯, )()( tifdiD 是 估計(jì)詞 t 支持的某個(gè)特定種類的信息量 ,每個(gè)類別自己所支持的信息量可以相互抵消,最后我們得到余下的信息量 )(tifdD ,它是類 C中各自支持程度的加權(quán)代數(shù)和。({)( )()( jjiiD PDtif d ?? , (2) 上式稱為 t對(duì) iC 的支持程度,且剩下的鑒別信息由下式定義: }){}。 以上的討論已經(jīng)回答了第一個(gè)問題。({}){}。 現(xiàn)在設(shè) MHHH ,..., 21 是互不相容的, iH 就是假設(shè) —— 詞 t 傳達(dá) iC 的上下文信息( Mi ,...,2,1? )。正如前面所提到的,詞有較強(qiáng)的識(shí)別力,也就是說它比其他詞在預(yù)期信息量上貢獻(xiàn)更多,則它應(yīng)該被當(dāng)作是更有信息的。 擁有最大可觀量的類別稱為這個(gè)類別中詞的最強(qiáng)支持類( ssc) 。 設(shè) t是一個(gè)詞, V是在 C 中指出各自文件的所有詞的一個(gè)詞匯表且 nV? , 5 設(shè) iV 為包含至少在 iC 中出現(xiàn)一次的詞的分詞匯表,其中 Mi ,...,2,1? 。 一個(gè)設(shè)想 首先,我們引入符號(hào)。第二, 我們集中于 MDI,并討論了鑒別測量 方法 的性能和 闡述 (第 4 節(jié) ),接著我們集中在 MSR,并為關(guān)聯(lián)性測量給出了表示法(第 5節(jié))。 接著,我們通過 正式 判讀 集中于 MDI 和按照從分類測量中得到的鑒別 措施 而對(duì)第一個(gè)概念進(jìn)行定量表達(dá)。 許多應(yīng)用程序被當(dāng)作 MSR是 其主要關(guān)系的 情況,例如,問 答 [7]、修飾語對(duì) [8]、同義詞識(shí)別 [9]、語義關(guān)系相似性測量 [3]、語篇銜接的測量 [10]、潛在的語義分析 [11]、文本挖掘 [12]和詞義消歧 [13]。直觀上,互相緊密聯(lián)系的詞應(yīng)該在同類文件的相似上下文同時(shí)出現(xiàn),這個(gè)說法是可接受的。相似的詞由于它們?cè)~義的相似(同義)通常被認(rèn)為是相關(guān)的;不相似的詞通過詞典的關(guān)系(上下文的關(guān)系、部分 整體的關(guān)系等),或者從 語料庫 [5]中得到的同現(xiàn)統(tǒng)計(jì) 也讓其在語義上有關(guān)系。詞可能貢獻(xiàn)的程度被當(dāng)作是詞的信息量測量策略, 用于計(jì)算程度的公式稱為識(shí)別 力測量。根據(jù)這個(gè)觀點(diǎn),類別應(yīng)該能明確地判定,類別之間相互排斥,文件分類是信息科學(xué)的另一個(gè)基本問題,本文的研究是一個(gè)獨(dú)特但相關(guān)的工作。 本文中所 用的詞鑒別信息指的是屬于某一種類關(guān)于確定主題的興趣點(diǎn)并拒絕其他種類的詞所傳達(dá)的信息量。研究的目的的本文的一個(gè)組成部分,它是建立一個(gè)以鑒別信息的測量為核心 的統(tǒng)一理論框架,并實(shí)現(xiàn)有效的語義關(guān)聯(lián)的測量。我們?cè)噲D回答兩個(gè)重要問題: 1)鑒別信息中詞所所傳達(dá)的信息是什么以及我們?nèi)绾螠y量它? 2)什么是詞之間 的關(guān)聯(lián)性以及怎樣去判斷? 我們專注于第一個(gè)問題的研究,基于多種信息測量我們對(duì)鑒別測量進(jìn)行了深入地調(diào)查研究,這個(gè) 研究如今 已經(jīng)在很多領(lǐng)域得到 了應(yīng)用。 根據(jù)各自的鑒別測量,關(guān)聯(lián)性度量可以自然地確定。由于它的普遍性,我們的方法將被期待在多個(gè)領(lǐng)域被廣泛應(yīng)用。一個(gè)信息詞,也常稱為 一個(gè)好的鑒別器,它對(duì)分類文件應(yīng)該有很好的性能。 詞 t’比其他詞含有更多的信息量,這個(gè)觀點(diǎn)很含糊。能夠計(jì)算的潛在數(shù)學(xué)結(jié)構(gòu)是從信息理論中提取出的散度測量,他們從詞的分布 情況判斷預(yù)期散度,因此它為估算預(yù)期信息量提供一個(gè)有力的工具。 實(shí)際上,不見得一個(gè)詞所支持的信息只出現(xiàn)在一個(gè)類別中 。 統(tǒng)計(jì)學(xué)上,密切相關(guān)的詞在分類上彼此往往有相同的最強(qiáng)支持類,并比其他詞提供更高的 相關(guān)性值到最強(qiáng)支持類中。 我們努力地提出了多種 相關(guān)性 測定方法 :一些是應(yīng)用了詞典(手動(dòng)建立詞庫)[14][15],一些是應(yīng)用了共現(xiàn)統(tǒng)計(jì) (非監(jiān)督學(xué)習(xí)語料庫 )[16][17][18][19][20][21][22][23][24][25][26][27],和一些是應(yīng)用了混合技術(shù) (結(jié)合統(tǒng)計(jì)和詞匯的綜合信息 )[28][29][30][25][31]。然后, 我們集中到 MSR,根據(jù)各自的鑒別 措施 給出了一系列關(guān)聯(lián)性 測定方法 的表達(dá)。第三,我們考慮了兩個(gè)實(shí)際應(yīng)用實(shí)例(第 6節(jié)),最后我們得出結(jié)論(第 7節(jié)) 。設(shè)想 , M??? ,..., 21 是不相關(guān)的成對(duì)出現(xiàn)的 主體 ,設(shè) C為文件的語料庫且 NC? ,并 c 是 C 的一類,并 NMc ?? 。通常??ji VV? ,其中 Mji ???1 。 很明顯,如果我們知道信息中包含 iVt? 的數(shù)量,我們就很容易識(shí)別每個(gè)詞 t的 ssc,其中 Mi ,...,2,1? 。因此,如果我們有鑒別措施去估計(jì)詞的貢獻(xiàn)程度,則我們就有方法去測量詞的信息量和定量詞所含有的信息量。為定量 t依照它的鑒別信息支持 iC 的信息量,我們僅僅需要作一個(gè)假設(shè)(聲明而非正式):語句 “ 表達(dá)類 iC 上下文關(guān)系的信息量 ” 可以被重聲明為 “ 詞 t 的鑒別力是支持假設(shè) iH 而反對(duì)所有其他假設(shè)), . . . ,1,1, . . . ,2,1( MiijH j ??? 。({ jjVtjjPDPD ?? ???? (1) ? ?? ? ?? Vt jjiMi i PD } ) ){}。其實(shí) ,一個(gè)詞中的信息就是支持一些類別的鑒別信息 。({)()( )(11)( jjiMi iMiiDiD PDtif dtif d ??? ???? ???? (3) }){}。圖 2說明了我們的觀點(diǎn)。 我們也將通過下列 表達(dá)引出聲明“與其他的假設(shè)相比, t 更是支持假設(shè)的0iH ”。 潛在的問題 在很多應(yīng)用中所使用的鑒別測量是 )(tifdD 而不是 )()( tifdiD ,但是使用 )(tifdD存在很多潛在的問題。 例如,設(shè)取 )()1( ??tifdD 且 )()2( ?tifdD 。 以上的兩點(diǎn)對(duì)本文研究必不可少,它們將在第三節(jié)中表達(dá)鑒別測量)(), . . . ,2,1)(()( tifdMitifd DiD 和? 時(shí)得到更清楚的解釋。一般,當(dāng) VVVt ii ??? ?, 則 0)( ?ti? ,其中iV?是)(ti? 中詞的集合。 10 很明顯, ),( iD trel ? 是估計(jì)特定對(duì)象 i? 關(guān)于 iC 的 t 關(guān)聯(lián)性程度,個(gè)別的關(guān)聯(lián)性程度可以相互抵消,最后剩余關(guān)聯(lián)性程度 )...,( 21 MD trel ??? ??? ,它是個(gè)別關(guān)聯(lián)值在 C 上的加權(quán)代數(shù)和。前者是詞和個(gè)別類別 iC 的關(guān)系,在這種關(guān)系中,支持度看成是 )()( tifdiD 并不超過 CV? 。 已知 21 ??和 這種簡化的一個(gè)重要應(yīng)用 是從兩個(gè)類別 },{},{ 21 AACCC ??? 中分類文件,其中 1CA?? 關(guān)于 1? 的分類, 而 12 CCCA ???? 不是 1? 的分類,在這種情況下,我們可以設(shè) 2? 是“虛無”對(duì) 象,即 2? =“不是 1? 的任何對(duì)象”。 散度測量 方法 設(shè) )()( 1 tPtPA ? 和 )()( 2 tPtPA ? 都是分別從類 A和類 A 中提取的離散詞分布。 ):( AA PPI 可看成是支持 )(tPA 而反對(duì) )(tPA 的期望信息增益, kullback[33]稱為定向散度的測量,則表示 ):( AA PPI 可以測量從 )(tPA 中的 )(tPA 的期望散度,在應(yīng) 12 用 ):( AA PPI 時(shí)有一個(gè)必要條件就是 )(tPA 必須關(guān)于 )(tPA 的完全連續(xù), 也就是)()( tPtP AA ?? ,對(duì)于每個(gè) Vt? , ):( AA PPI 都不能關(guān)于 )(tPA 和 )(tPA 的對(duì)稱。 進(jìn) 一 步設(shè) 21 ??和 分 別 有先 驗(yàn) 概率 分布 )(tPA 和 )(tPA ,也設(shè))()()( 21 tPtPtP AA ?? ??? 是從語料庫 AA??? 中提取的混合分布(注意 ?P 與)(tPC 不同)。,( 21 AA PPK ?? 可以用來比較任意詞分布,因?yàn)檫@個(gè)突出特性,信息半徑貌似就有一些新的興趣點(diǎn),很明顯 ),。,( 21 ?AA PPK ?? ,這個(gè) 性質(zhì)表明從所有詞中所得到的信息期望都是非負(fù)的,如果詞的分布信息是相同的,則將沒有信息期望,也就是說他們都滿足分類標(biāo)準(zhǔn)。注意當(dāng) 1H 準(zhǔn)確,則有: )( )()|( )|(l og)|( )|(l og)( )(l og 212121 HP HPtHP tHPHtP HtPtP tP AA ?? ))()|(lo g ( 11 HOtHO? )|:( 21 tHHi?? , 上式成為鑒別因子,其中 )|( 1 tHO 是 在已知 t 時(shí) 支持 1H 反對(duì) 2H 的幾率 ,且)( 1HO 是支持 1H 反對(duì) 2H 的幾率。 接著回到式( 8),信息半徑 ),。 鑒別測量的闡述 取決于他們的屬性的個(gè)別的鑒別測量的闡述是不同的,在這節(jié)中,在表達(dá) A的上下文關(guān)系時(shí),我們將明白 t是否是最有信息的或不取決于 A是否是 ssc( 也就是 , *1Vt? ),而不是剩余支持度的標(biāo)志。 )(tifdJ 的闡述 在給出定量表示之前,首先讓我們通過下列的定 理 [42]考慮 )(tifdJ 的屬性: 定量 對(duì)任意 Vt? ,若滿足 0)()( ?? tPtP AA ,則我們 通常有 0)( ?tifdJ 且 )()( tPtP AA ? ,則 0)(12 ?tifdI,也就是 0)(21 ?tifdI; 2. 有且只有
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1