【正文】
自然語(yǔ)言處理手冊(cè) , pp. 459475, Marcel Dekker, Inc., 20xx. [5] A. Budanitsky and G. Hirst, “基于 WordNet的詞匯語(yǔ)義相關(guān)措施 的 評(píng)價(jià) ,” 計(jì)算機(jī)語(yǔ)言學(xué) ,vol. 4, no. 1, pp. 149, 20xx. [6] A. Budanitsky and G. Hirst, “在 WordNet的語(yǔ)義距離:五項(xiàng)面向應(yīng)用的評(píng)價(jià)實(shí)驗(yàn) ,”P(pán)roc. Workshop WordNet and Other Lexical Resources, Second Meeting of the North Am. Chapter of the Assoc. for Computational Linguistics, pp. 2934, 20xx. [7] D. Moldovan, A. Badulescu, M. Tatu, D. Antohe, and R. Girju, “名詞短語(yǔ)的語(yǔ)義分類(lèi)模型 ,” Computational Lexical Semantics, pp. 6067, 20xx. [8] V. Nastase and S. Szpakowicz, “探索名詞修飾詞的語(yǔ)義關(guān)系 ,” Proc. Fifth Int’l Workshop Computational Semantics, pp. 285301, 20xx. [9] . Turney, . Littman, J. Bigham, and V. Shnayder,“結(jié)合獨(dú)立的模塊來(lái)解決選擇題的同義詞和類(lèi)比問(wèn)題 ,” Proc. Int’l Conf. Recent Advances in Natural Language Processing, pp. 482489, 20xx. [10] J. Morris and G. Hirst, “詞匯銜接詞庫(kù)的關(guān)系作為一個(gè)文本結(jié)構(gòu)的指標(biāo)計(jì)算 ,” Computational Linguistics, vol. 17, no. 1, pp. 2148, 1991. [11] . Landauer and . Dumais, “柏拉圖問(wèn)題的一個(gè)解決方案:獲取的潛在語(yǔ)義分析理論 , 歸納并知識(shí)表示 ,” Psychological Rev.,vol. 104, no. 2, pp. 211240, 1997. [12] K. Frantzi, S. Ananiadou, and H. Mima, “自動(dòng)識(shí)別多字的詞 ,” Int’l J. Digital Libraries, vol. 3, no. 2,pp. 117132, 20xx. [13] R. Florian and D. Yarowsky, “建模共識(shí):詞義消歧的分類(lèi)結(jié)合 ,” Proc. Methods in Natural Language Processing, pp. 2532, 20xx. [14] . Lee, . Kim, and . Lee, “基于繼承 層次結(jié)構(gòu)的概念距離的信息檢 29 索 ,” J. Documentation,vol. 49, pp. 188207, 1993. [15] R. Richardson, A. Smeaton, and J. Murphy, “應(yīng)用 WordNet知識(shí)庫(kù)測(cè)量詞的語(yǔ)義相似性 ,” Proc. Artificial Intelligence and Cognitive Science (AICS)Conf., 1994. [16] C. Corley and R. Mihalcea, “測(cè)量文本的語(yǔ)義相似 ,” Proc. ACL Workshop Empirical Modeling of Semantic Equivalence and Entailment, pp. 1318, 20xx. [17] I. Dagan, L. Lee, and . Pereira, “基于相似性的詞共現(xiàn)概率模型 ,” Machine Learning, special issue on natural language learning, vol. 34, nos. 13, pp. 4369, 1999. [18] G. Hirst and A. Budanitsky, “恢復(fù)詞匯銜接以實(shí)時(shí)糾正單詞拼寫(xiě)錯(cuò)誤 ,” Natural Language Eng.,vol. 11, no. 1, pp. 87111, 20xx. [19] L. Lee, “分布相似的措施 ,” Proc. 37th of the Assoc. for Computational Linguistics, pp. 2532, 1999. [20] I. Marx, Z. Dagan, J. Buhmann, and E. Shamir, “聚類(lèi)群:一個(gè)結(jié)構(gòu)一致的檢測(cè)方法 ,”J. Machine Learning Research, vol. 3, pp. 747780, 20xx. [21] S. Mohammad and G. Hirst, “作為代理的分布式語(yǔ)義相關(guān)措施 ,” 20xx. [22] S. Mohammad and G. Hirst, “概念距離的分配方法:一個(gè)面向任務(wù)的評(píng)價(jià) ,” Proc. Conf. Empirical Methods in Natural Language Processing, 20xx. [23] S. Mohammad and G. Hirst, “利用詞庫(kù)確定詞義優(yōu)勢(shì) ,” Proc. 11th Conf. European Chapter of the Assoc. for Computational Linguistics, pp. 121128, 20xx. [24] P. Pantel and D. Lin, “從文本中發(fā)現(xiàn)詞義 ,” SIGKDD, pp. 613619, 20xx. [25] P. Resnik, “分類(lèi)學(xué)中的語(yǔ)義相似性:基于測(cè)量及其在自然語(yǔ)言中關(guān)于不確定問(wèn)題的應(yīng)用的信息 ,” J. Artificial Intelligence Research, vol. 11, pp. 95130, 1999. [26] N. Seco, T. Veale, and J. Hayes, “在 WordNet中關(guān)于語(yǔ)義相似性的內(nèi)在信息量度量方法 ,” Proc. 16th European Conf. Artificial Intelligence, 20xx. [27] J. Weeds and D. Weir, “共現(xiàn)檢索:詞匯分布相似的靈活框架 ,” Computational Linguistics, vol. 31, no. 4, pp. 439475, 20xx. [28] L. Han, L. Sun, G. Chen, and L. Xie, “ADDS:確定語(yǔ)義相似性的一種方法 ,” Advances in Eng. Software,vol. 37, no. 2, pp. 129132, 20xx. 30 [29] . Jiang and . Conrath, “基于語(yǔ)料庫(kù)的統(tǒng)計(jì)和詞匯分類(lèi)的語(yǔ)義相似性 ,” Proc. 10th Int’l Conf. Research in Computational Linguistics, pp. 1933, 1997. [30] V. Pekar and S. Staab, “基于結(jié)合分布措施和語(yǔ)義相似性的字分類(lèi) ,” Note Sessions of the 10th Conf. European Chapter of the Assoc. for Computational Linguistics, pp. 147150, 20xx. [31] . Rodriguez and . Egenhofer, “從不同的本體論中確定實(shí)體類(lèi)之間語(yǔ)義相似性 ,” IEEE Trans. Knowledge and Data Eng., vol. 15, no. 2, pp. 442456, . [32] D. Cai and . Van Rijsbergen, “從鑒別信息中學(xué)習(xí)語(yǔ)義相關(guān)性 ,” Expert Systems with Applications, vol. 36, no. 2, pp. 18601875, Mar. 20xx. [33] S. Kullback, 信息理論和統(tǒng)計(jì) . Wiley, 1959. [34] R. Sibson, “信息半徑 ,” Z. Wahrsch’Theorie and Verw. Geb,vol. 14, pp. 149160, 1969. [35] . Rao, “多樣性:測(cè)量、分解、分配及分析 ,” Sankhya: Indian J. Statistics, vol. 44, pp. 122, 1982. [36] A. Re180。 ●為鑒定詞之間的密切聯(lián)系,解決上面問(wèn)題的方法為選定的詞查證不等式( 15)或( 16)。通過(guò)散度措施 D中詞 )(tifdD 和子項(xiàng) )()( tifdiD ,我們定量表示了它。 ),( 1?trelI 和 ),( 21 ?? ?trelJ 應(yīng)用在查詢(xún)的不同部分時(shí),它們顯示的性能很相似,當(dāng)與 ),( 21 ?? ?trelK 比較時(shí),在所有的評(píng)估點(diǎn)上,它們都幾乎劣于),( 21 ?? ?trelK 。第二組是 ),( 1* ?trelI ,),( 21* ?? ?trelJ 和 ),( 21* ?? ?trelK ,它們分別在式 (23)(25)給出了。查詢(xún)擴(kuò)展是一門(mén)技術(shù),它 修正用戶(hù)的查詢(xún)以便達(dá)到更準(zhǔn)確的描述 用戶(hù)的信息需求。 樹(shù)基是我們使用的語(yǔ)料庫(kù)之一,它是系統(tǒng)進(jìn)化的關(guān)系型數(shù)據(jù)庫(kù)。 統(tǒng)計(jì)模式學(xué)習(xí)方法已經(jīng)在 TM 領(lǐng)域取得了顯著的成效,我們的正式方法可以很容易應(yīng)用到提取關(guān)鍵詞的有效技術(shù),這個(gè)方法的基本思想是很簡(jiǎn)單的 。注意當(dāng) )(11 ?VVt ??而 0)(1 ?t? 時(shí), 0),( 21 ?? ??trelD 表明 0)( ?tifdD ,但是 0),( 21 ?? ??trelD 并不能保證 A是 t的 ssc,這是因?yàn)橛啥ɡ?,僅因?yàn)?0)( ?tifdD 而推出 ):(sup 21 HHtD ?是不夠的,因此理解 0),( 211 ?? ??trelD 和 0),( 212 ?? ??trelD 這兩個(gè)值并不代表 21 tt和 兩個(gè)密切相關(guān)是非常重要的。1 ?? treltrel DiD ? 。 因此, 0)()}(),(m a x {221* ??? ??? tif dtif dtif d III?,且 ):(s u p 2 ?? HHtK ,因此 與第二點(diǎn)比較 , 0)( ?tifdK 表明 t支持 2H 比 ?H 更多一些。 評(píng)論 從以上三點(diǎn),我們能明白當(dāng) 1Vt? ,剩余支持度 0)( ?tifdJ 并不表示):(s up 12 HHtJ ? ,這是因?yàn)?)(tifdJ 為正是 受 021?Iifd 所決定的, 在第二節(jié)中的已經(jīng)給出了 21 KK和 這兩個(gè)實(shí)例清晰地闡述了我們的觀(guān)點(diǎn)。 )(tifdJ 的闡述 在給出定量表示之前,首先讓我們通過(guò)下列的定 理 [42]考慮 )(tifdJ 的屬性: 定量 對(duì)任意 Vt? ,若滿(mǎn)足 0)()( ?? tPtP AA ,則我們 通常有 0)( ?tifdJ 且 )()( tPtP AA ? ,則 0)(12 ?tifdI,也就是 0)(21 ?tifdI; 2. 有且只有當(dāng) )()( tPtP AA ? ,則 0)(12 ?tifdI,也就是 0)(21 ?tifdI。 接著回到式( 8),信息半徑 ),。,( 21 ?AA PPK ?? ,這個(gè) 性質(zhì)表明從所有詞中所得到的信息期望都是非負(fù)的,如果詞的分布信息是相同的,則將沒(méi)有信息期望,也就是說(shuō)他們都滿(mǎn)足分類(lèi)標(biāo)準(zhǔn)。 進(jìn) 一 步設(shè) 21 ??和 分 別 有先 驗(yàn) 概率 分布 )(tPA 和 )(tPA ,也設(shè))()()( 21 tPtPtP AA ?? ??? 是從語(yǔ)料庫(kù) AA??? 中提取的混合分布(注意 ?P 與)(tPC 不同)。 散度測(cè)量 方法 設(shè) )()( 1 tPtPA ? 和 )()( 2 tPtPA ? 都是分別從類(lèi) A和類(lèi) A 中提取的離散詞分布。前者是詞和個(gè)別類(lèi)別 iC 的關(guān)系,在這種關(guān)系中,支持度看成是 )()( tifdiD 并不超過(guò) CV? 。一般,當(dāng) VVVt ii ??? ?, 則 0)( ?ti? ,其中iV?是)(ti? 中詞的集合。 例如,設(shè)取 )()1( ??tifdD 且 )()2( ?tifdD 。 我們也將通過(guò)下列 表達(dá)引出聲明“與其他的假設(shè)相比, t 更是支持假設(shè)的0iH ”。({)()( )(11)( jjiMi iMiiDiD PDtif dtif d ??? ???? ???? (3) }){}。({ jjVtjjPDPD ?? ???? (1) ? ?? ? ?? Vt jjiMi i PD } ) ){}