freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于信息理論的鑒別信息測量_畢業(yè)論文-免費閱讀

2025-08-09 23:41 上一頁面

下一頁面
  

【正文】 本文的目的也就是本文的一個部分就是建立一個統(tǒng)一的理論框架,它 是以MDI為核心,并取得有效的 MSR。 從這項研究可以清楚的看到,個別的鑒別信息測量法根據(jù)它們的屬性是不同的,特別是我們能闡明下列兩個關(guān)鍵點: —— 0)( ?tifdD 并不表示 1Vt? 的詞在表達 A是有信息的。 ●與 ),( 1?trelI , ),( 21 ?? ?trelJ 和 ),( 21 ?? ?trelK 相比, ),( 1* ?trelI ,),( 21* ?? ?trelJ 和 ),( 21* ?? ?trelK 包含更好的性能。 圖 4 這個例子顯示的是使用 取自 TREC 專案數(shù)據(jù)中的 50 個查詢 FT 集合(金融時報“ 19911994” ,210,158 號文件 )的檢索性能 。特別是,當擴展詞是選自于一組相關(guān)文件,由 A表示(其中 1?A ),查詢擴展是一種有效的技術(shù):它增加一些詞以便提供更準確的信息需求,它發(fā)生在相關(guān)文件中關(guān)于原始查詢的。 通過接近已發(fā)表的系統(tǒng)進化研究和它們所包含的數(shù)據(jù)和樹, 它 提供一種機制來發(fā)現(xiàn)所謂的系統(tǒng) 進化關(guān)系 。假設(shè)我們得到兩個蛋白質(zhì) 21 PP和 , 21 PP和 通常不同時出現(xiàn)在同一個文件中,則討論 1P 或2P 的文件如下: iD 為 iP 發(fā)生的一組文 件(在這種情況下, iP 通常當作一個對象) ,且在 iD文件中,記iDV為至少發(fā)生在其中一個文件中的一組詞,其中 2,1?i 。 1. ),( 1?trelI 提供的僅僅是 1?與t 的關(guān)聯(lián)性,盡管 t可能出現(xiàn)在文件 A 中。 Case 2: 21 1. ):(s u p 12 HHtiD ?,也就是 。 19 評論 從以上三點,我們能明白當 1Vt? ,剩余支持度 0)( ?tifdK 并不表示):(s up 1 ?? HHtK ,這是因為 )(tifdJ 為正是受 02 ??Iifd 所決定的 (見第二節(jié)中已經(jīng)給出了 21 KK和 ) 。 因此,為判斷是否有 ):(s up 21 HHtJ ? ,我們必須進行更深入的考慮,從以上第二點我們可以很容易得到,若存在 ):(s up 21 HHtJ ? ,只有在: 0)(if d2112 ?? II ifdt (15) )(tifdK 的闡述 注意 )(tifdK 的符號可能正可能負,因為它的兩個子項可能正可能負,因此,類似于 )(tifdJ ,在給出定量表示之前,我們通過下列定理 [32]首先考慮下 )(tifdK 的屬性: 定理 對任意 Vt? ,若滿足 0)()( ?? tPtP AA ,我們常有: )()( tPtP AA ? ,則 0)(1 ?? tifdI,也就是 0)(2 ?? tifdI; 2. 有且只有當 )()( tPtP AA ? ,則 0)(1 ?? tifdI,也就是 0)(2 ?? tifdI。 從上面的定理,我們了解到非對稱散度的每個詞 )(tifdJ 都是非負的,且對每個 Vt? 都有 0)(2112 ?? II ifdtifd,因此我們有下列的定量表示: 1. 如果 )()( tPtP AA ? ,則 0)|:()|:( 1221 ?? tHHitHHi ,即 t在分類 C 到 c中不能提供鑒別信息。,( 21 AA PPK ?? 包含所有的詞,每個都有兩個子項: )|:()|()( 111 tHHiHtPtif d I ???和 )|:()|()( 222 tHHiHtPtif d I ???。 在實踐中,杰森差異 [35]也成為熵增加的措施 ,實際上,當信息熵 [38]使用時它是信息半徑 ,因此另一種方式是尋找信息半徑和杰森的差異?;谛畔⒃鲆娴谋磉_, ),?;谡Z料庫有五種信息測量被廣泛使用: 定向散度 ):( AA PPI [33],散度):( AA PPJ [33],信息半徑 ),。后者是詞之間的關(guān)系, 則支持度在*0iVt? 時僅僅看成是最強支持度 )()(0 tifdiD 。 進一步研究,將 )1( Mjiji ???? ?? 作為對象的復(fù)合體(可以 看成是 ji ??和的聯(lián)合 ) , 若一個文件要么屬于 i? 要么屬于 j? ,則它可表示為 ji ??? 。但是 1Vt? 時,則)()( ???????tifd D ,則我們不能稱 t 更支持 1C 而非 2C ,并且很明顯得到 ):(s up 12 HHtD ? 和 *2Vt? 。 8 ), . . . , . . . ,:(s u p 101010 MiiiD HHHHHt ??? 對于 Mi ,...,2,1? , 它有 0)()( ?tifd iD 。({ jj PD ??? , 上式稱為 t對 MCCCC ...21 ??? 的剩余支持程度。({()(1 ?? 其中 ?D 是 V中的所有 D項和 )(iD 是 C 中每項的子項。 鑒別測量的一般定義 測量詞的鑒別能力的第一次無疑是估計預(yù)期的散度(也就是預(yù)期的信息量),它是由每個詞對期望散度的貢獻所引出的,隱含在其 中的分類準則如下 [32]: 散度的測量應(yīng)該不依賴于附加物或去掉與分類不相關(guān)的詞。 正如前面所提到的, 實際上每個 iVt? 中的 t 不可能只傳達支持 C 中 iC 的信息,為了回答第一個問題,首先我們必須提出下列的假設(shè): 一個信息詞包含的信息不僅支持一種文件類,而且支持其他的類別。 這一節(jié)通過討論詞的鑒別信息的基本概念,嘗試回答在 問題。 本文的研究目的 在實際應(yīng)用的合理、明確環(huán)境中,我們?nèi)院茈y解釋詞所傳達的大量鑒別信息的含義,并且將詞之間的語義關(guān)聯(lián)程度概念成功且有意義地引入到科學討論中也不是那么容易的,本文就嘗試完成這個任務(wù)。本文所研究的主要問題是,在所有類別中的每個詞之間的鑒別中最強支持類的鑒別 (簡稱為 ssc) 。直覺上,具有更強識別力的詞應(yīng)該被認為具有更多的信息,這個觀點是可以接受的。 [索引詞 ] 統(tǒng)計語義分析,鑒別信息的測量,語義關(guān)聯(lián)性的測量, 識別信息術(shù)語,關(guān)鍵詞提取,文本挖掘,信息檢索 本研究中主要有兩個點 :詞的鑒別 信息測量和詞之間的語義關(guān)聯(lián)性度量 。 1 畢業(yè)論文 基于信息理論的鑒別信息 測量 [摘要 ] 至今 , 在實際應(yīng)用的合理、明確環(huán)境中 ,我們?nèi)院茈y解釋 詞所傳達的大量鑒別信息的含義,并且將 詞之間的語義關(guān)聯(lián)程度概念成功且有意義地引入到科學討論中也不是那么容易的,本文就嘗試完成這個任務(wù)。 詞之間的鑒別信息測量 ( MDI) 問題在科學研究的很多領(lǐng)域 充當了重要的角色 , 其中 包括知識表達、機器學習和翻譯、計算機語言學、自然語言處理、文本挖掘和 注釋、信息提取和檢索、觀點挖掘和情感分析、文件分類和綜述、生物信息學和化學信息學等。統(tǒng)計學上,具有更強識別力的詞通常對信息的期望結(jié)果貢獻更多。 詞 t’指的是一些詞 t與其他詞相比更緊密,這個說法還是很含糊。 我們 向有效的 MSR試圖建立一個理論框架 ,以 MDI 為核心,并回答在科學界的多個領(lǐng)域中兩個重要的問題: t’傳達的鑒別信息是什么并怎樣去測量它? t’和 t之間有怎樣的關(guān)聯(lián)性并怎樣去測量它? 我們首先介紹兩個基本概念的 正式 定義: 1)詞的鑒別信息 2)詞之間的關(guān)聯(lián)性。 這個答案對鑒別測量進行了全面的定義, 則這個定義將貫穿整個文章。詞對支持的類別所包含的信息量是 可觀 的或 不可觀 的。所說與分類不想關(guān)的詞在這里是指它們的分類概率相等。 D必須得滿足分類準則:當 )(...)()( 21 tPtPtP M??? ,詞 t 不為 將 C 分類到 c 中提供任何有益的鑒別信息。所有的???? DtifdMiDtifd DiiD )(), . . . ,2,1()( )()( 和都被稱為鑒別測量。在這種情況下,我們可以得到 0?? ,在實際應(yīng)用中,沒有 ssc的詞將被立即丟掉。 K2:如果 *2Vt? ,則 t在類 iC 的表達環(huán)境中更具有信息量( 盡管殘余支持度的代號可能為負。 直覺上, t 與 i? 的關(guān)聯(lián)性由統(tǒng)計的特性決定: 1)關(guān)于 i? 的 t 的重要性, 2)只支持 iC 的 t的鑒別信息。 為簡單起見, 下面的討論我們只是在兩個對象 21 ??和 ,且 2?? MC 。,( 21 AA PPK ?? [34],杰森差異 [35],這就是通常所說的信息增益,現(xiàn) 在已經(jīng)被許多研究者所熟悉,文獻 [33]詳細介紹了散度的概念,文獻[36]中可以找到公理表征,下列將簡略地進行介紹: 本研究中所使用的三個散度測量為: )( )(log)():( tP tPtPPPI AAVt AAA ???, (6) ):():(),( AAAAAA PPIPPIPPJ ?? (7) )( )(log))()(( tP tPtPtP AAVt AA?? ?? ):():(),。,( 21 AA PPK ?? 看成是支持 )(tPA 而反對)(tPA 的信息增益期望 [37][34], 與 ):( AA PPI 和 ):( AA PPJ 相比, ),。因此,在原則上一些正式方法討論的的信息半徑和熵增益是同一回事,交互信息的測量期望是定 13 向 散度的特殊情況,我們已經(jīng)在 MDI[39][40]中討論了這兩個測量的應(yīng)用。 首先考慮第一個子項,它類似于 )(tifdI , )|:( 1 tHHi ? 是鑒別兩個相反的假設(shè) ?HH和1 的能力, )|( 1HtP 測量 t關(guān)于 A在決策力上的意義,因此,由定義 , 00 21 ?? ?? 或 ,)(1 tifdI ? 表明 支持 1H 反對 ?H 的信息。 2. 如果 )()( tPtP AA ? ,則 a. 0)|:( 21 ?tHHi ,則 t傳達支持 1H 反對 2H 的信息,且 t有助于 支持 1H 反對 2H 的 )(1212 tifdifd II ?。 18 從上面的定理,我們了解到對每個 Vt? 都有 0)(21 ?? ?? II if dtif d,因此我們有下列的定量表示: 1. 如果 )()( tPtP AA ? ,則 0)|:()|:( 21 ?? ?? tHHitHHi ,即 t在分類 C 到 c中不能提供鑒別信息。 因此,為判斷是否有 ):(s up 1 ?? HHtK ,我們必須進行更深入的考慮,從以上第 二點我們可以很容易得到,若存在 ):(s up 1 ?? HHtK ,只有在: 0)(i f d21 21 ?? ?? II i f dt ?? (16) 方法 已給出了 MDI的正式分析后,現(xiàn)在我們是要考慮如何將它運用到實際問題中 —— 測量詞之間的語義關(guān)聯(lián)程度。2,1,*2 ?? iVti 2. 對所有(或大部分) 2,1},{ 21*239。因此僅查證 0),( 1 ??trelI ,就足以為每個選定的詞有效鑒定它們在 1V 中密切相關(guān)。 ,且取自 iD 的 iP 為: iDVt?,將 )(*ii DD VV ?記為詞的集合,這些詞將 iD 為它們的 ssc; b. 對每個 *iDVt?估計 t與 iP 的關(guān)聯(lián)性,并記 )( **ii DP VV ?為高度相關(guān)詞的集合(根據(jù)預(yù)定閾值),其中 2,1?i 。設(shè) A(也就是 1?A )是用戶取自樹基的,例如式 (23)已知的),( 1* ?trelI ,關(guān)聯(lián)性測定方法可用于類群名和關(guān)鍵詞的提取。 為調(diào)查每個關(guān)聯(lián)性測定方法對改進性能的貢獻到底有多少,我們 進行了多項實驗。每個查詢都分別產(chǎn)生于 TREC 主題( 351400)之一的標題領(lǐng)域(僅由標題表示),標題和描述域( 描述 +標題)和全文本(純文本表示 ) 。當它們應(yīng)用在描述 +標題或僅僅標題查詢時,性能增加是很有意義的。 27 —— 如果 *1Vt? ,則 t在表達 A時是有情報的,盡管 0)( ?tifdD ●我們介紹一個直觀而正式的定義: 兩詞之間的關(guān)聯(lián)性。 28 參考文獻 [1] C. Fellbaum, 詞匯網(wǎng)絡(luò):一個電子詞匯數(shù)據(jù)庫 . The MIT Press, 1998. [2] G. Miller, “詞匯網(wǎng)絡(luò):一個在線詞匯數(shù)據(jù)庫 ,” Int’l , Special Issue, vol. 3, no. 4, pp. 235244, 1990. [3] . Turney, “相似的語義關(guān)系 ,” 計算機語言學 ,vol. 32, ,pp. 379410, 20xx. [4] I. Dagan, “上下文的詞語相似度 ,”
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1