【正文】
數(shù)據(jù)。 SENSEVAL3 中文語料實(shí)驗(yàn)結(jié)果與評(píng)測,本文同時(shí)在國際標(biāo)準(zhǔn)的語義評(píng)測平臺(tái)使用的SENSEVAL3中文語料上進(jìn)行了WSD實(shí)驗(yàn)。 SENSEVAL3 中文語料實(shí)WSD驗(yàn)結(jié)果多義詞特征數(shù)迭代次數(shù)封閉測試正確率開放測試正確率把握38630100%%包88850%50%材料352100100%80%沖擊36080%%傳362300100%%地方421200100%%分子43570%75%活動(dòng)426150100%%老616500100%%路605300100%%沒有386200100%%起來513150%75%錢506600100%75%日子56080100%%少510750100%60%突出387500100%%研究38070%%運(yùn)動(dòng)601100100%%走565500100%%做304600100%%平均%% WSD算法和 ZhengYu DongHong Ji.[29] 采用的貝葉斯WSD算法進(jìn)行了對(duì)比實(shí)驗(yàn)。為達(dá)到可比性,實(shí)驗(yàn)中使用的語料同為SENSEVAL3的中文語料;而且WSD模型中的上下文特征的選取也保持一致,即POS特征和一定窗口的詞袋信息。這主要是由于SENSEVAL3中給出的中文語料不夠完善,進(jìn)而導(dǎo)致數(shù)據(jù)不足、特征空間過于稀疏的緣故。AdaBoost在給定的數(shù)據(jù)不充分、弱假設(shè)過度復(fù)雜或弱假設(shè)太弱的情況下,不能表現(xiàn)出很好的性能,這一點(diǎn)與理論一致[21]。但是,從評(píng)測的角度來看,SENSEVAL3的中文語料還是具有它的可行性的,達(dá)到了對(duì)比的效果。,表現(xiàn)出它比一般的學(xué)習(xí)算法有更強(qiáng)的學(xué)習(xí)能力。 算法模型平均開放測試正確率(%)%簡單貝葉斯算法% 算法中迭代次數(shù)的確定、 的迭代次數(shù)列中的數(shù)據(jù)表明:在獲得較高的正確率的情況下,算法對(duì)每個(gè)詞進(jìn)行學(xué)習(xí)的迭代次數(shù)是不同的。這是由于每個(gè)詞所具有的特征屬性不同,而且語料中所包含的句子表征該詞特征屬性的能力也有所不同導(dǎo)致的。每個(gè)詞語有適合它自己的一個(gè)最佳的迭代次數(shù)。Schapire and Singer[21] 指出迭代次數(shù)過多。另一方面從系統(tǒng)的使用角度來看,迭代次數(shù)增多,意味著學(xué)習(xí)所需的時(shí)間和保存學(xué)習(xí)結(jié)果所需的空間的增加。因此在實(shí)際應(yīng)用中,需要確立一個(gè)合適的迭代次數(shù),也即終止迭代的條件。實(shí)驗(yàn)中采用了一個(gè)簡單的終止條件,即當(dāng)封閉訓(xùn)練的正確率達(dá)到95%以后,開放測試的第二個(gè)極大值點(diǎn)處終止迭代過程。然后選擇兩個(gè)極值中的較大者的迭代次數(shù)作為最終的迭代次數(shù)。 迭代次數(shù)與開放測試結(jié)果準(zhǔn)確率的關(guān)系Fig. The number of weak rules related to the accuracy of open test 語義信息的引入對(duì)排歧效果的影響為獲取更為準(zhǔn)確的多義詞詞義信息的知識(shí)源,我們?cè)讷@取多義詞上下文信息的過程中,使用了多種知識(shí)源,即多義詞的詞性標(biāo)注、局部搭配序列和多義詞的語義范疇。前兩部分知識(shí)源在以往的WSD的研究中,已被多次使用,并顯示出比單獨(dú)的詞袋信息更好的效果[29]。本文在這兩種知識(shí)源的基礎(chǔ)上,新引入了第三種新的知識(shí)源,即語義范疇信息。為觀察語義范疇信息在排歧過程中對(duì)排歧結(jié)果的影響,本文分別在人民日?qǐng)?bào)語料庫和SENSEVAL3語料庫上進(jìn)行了測試實(shí)驗(yàn)。實(shí)驗(yàn)情況如下。 人民日?qǐng)?bào)語料實(shí)驗(yàn)在人民日?qǐng)?bào)語料庫上,主要以“材料”一詞的語料為例,在相同的語料情況下(隨機(jī)從語料中選取285句作為訓(xùn)練語料,剩余的作為開放測試語料共63句),分別對(duì)“材料”一詞進(jìn)行結(jié)果的封閉性測試和開放性測試。從圖中數(shù)據(jù)可以看出,語義范疇信息加快算法的學(xué)習(xí)速度和提高排歧的正確率方面的效果比較明顯。對(duì)于封閉測試的情況,標(biāo)注了語義范疇信息的學(xué)習(xí)模型的測試正確率達(dá)到100%需要的迭代次數(shù)比未加入語義范疇信息的模型減少了近20余次,并且在相同的迭代次數(shù)下,加入語義范疇信息的模型的測試正確率比未加入語義范疇信息的模型平均高出2% ~ 7%;同樣對(duì)于開放測試,不僅在同樣的迭代次數(shù)下,標(biāo)注了語義范疇信息的學(xué)習(xí)模型的測試正確率比未加入語義范疇信息的模型提高了2% ~ 10%,而且標(biāo)注了語義范疇信息的學(xué)習(xí)模型的最好結(jié)果比未標(biāo)注語義范疇信息的模型高出約5%。 語義信息對(duì)封閉測試的關(guān)系Fig. The accuracy of close test related to the semantic categorization 語義信息對(duì)開放測試的關(guān)系Fig. The accuracy of open test related to the semantic categorization SENSEVAL3 中文語料實(shí)驗(yàn)在SENSEVAL3 中文語料上,我們對(duì)所有的20個(gè)多義詞進(jìn)行了人工語義范疇信息的標(biāo)注,然后來觀察語義信息對(duì)排歧效果的影響。 的實(shí)驗(yàn)數(shù)據(jù)同樣可以看出,語義范疇信息對(duì)提高排歧的正確率同樣具有明顯的效果(高出8個(gè)百分點(diǎn))。,語義范疇信息對(duì)加快算法的學(xué)習(xí)速度和提高排歧的正確率的可行性。 SENSEVAL3 中文語料實(shí)驗(yàn)結(jié)果多義詞迭代次數(shù)標(biāo)注前開放測試正確率標(biāo)注后開放測試正確率把握30%80%包5050%%材料10080%85%沖擊80%%傳300%%地方200%%分子7075%%活動(dòng)150%75%老500%%路300%%沒有200%%起來15075%80%錢60075%85%日子80%%少75060%65%突出500%%研究70%%運(yùn)動(dòng)100%%走500%%做600%%平均%%5 自動(dòng)建立帶標(biāo)注的語料庫的方法與其它有指導(dǎo)的學(xué)習(xí)算法一樣。,語料的規(guī)模和質(zhì)量(指語料所提供的上下文信息對(duì)排歧的貢獻(xiàn))對(duì)排歧結(jié)果和系統(tǒng)的效率有一定的影響:高正確率高效率的排歧系統(tǒng)有賴于規(guī)模適當(dāng)而且質(zhì)量較高的語料。但是,在人工標(biāo)注的過程中,建立這種量與質(zhì)兼有的大規(guī)模語料是很難的。Ng[30]提及到人工建立一個(gè)這樣的量與質(zhì)兼有的大規(guī)模語料庫大概需要16年的時(shí)間。這也是有指導(dǎo)的學(xué)習(xí)方法面臨的主要問題之一。因此,鑒于上面的事實(shí),最近幾年,研究如何利用其他語義資源(如WordNet[32]或HowNet[33])和相關(guān)方法[34,35,36]來自動(dòng)獲取大規(guī)模的標(biāo)注語料成為詞義排歧研究領(lǐng)域比較關(guān)注的問題。本文提出了一種利用WWW上豐富的資源來自動(dòng)建立適合多義詞排歧的標(biāo)注語料庫的方法。 自動(dòng)構(gòu)建標(biāo)注語料庫的模型自動(dòng)構(gòu)建標(biāo)注語料庫方法的主要思想是:首先利用多義詞的常用搭配作為關(guān)鍵字,借助搜索引擎在WWW上搜索更為豐富的多義詞的搭配信息的語料,其次對(duì)得到的語料進(jìn)行修剪(由于搜索得到的網(wǎng)頁文本的不規(guī)范性和存在冗余性),然后使用搜索關(guān)鍵字所屬的詞義對(duì)得到的語料進(jìn)行詞義標(biāo)注,最終得到適合多義詞排歧的標(biāo)注語料庫。語料集1語料庫建立和修剪語料集2搜索建立搜索關(guān)鍵字 關(guān)鍵字1 ……語料集n 關(guān)鍵字n 自動(dòng)構(gòu)建標(biāo)注語料庫的流程圖Fig The flow diagram of automatical construction of sensetagged corpus 搜索關(guān)鍵字的建立 Yarowsky的兩個(gè)約束Yarowsky[7]針對(duì)多義詞的上下文提出了兩個(gè)約束:1) 每篇文本一個(gè)語義。在任意給定的文本中目標(biāo)詞語義有很強(qiáng)的一致性。也即受話題約束。2) 每個(gè)搭配一個(gè)語義。根據(jù)和目標(biāo)詞之間的相對(duì)距離、次序和句法關(guān)系,相鄰詞提供了可以用來判斷目標(biāo)詞語義的很多線索信息。對(duì)于第一個(gè)限制,我們考慮例子“材料”。這個(gè)約束表明,如果“材料”的第一次出現(xiàn)使用的詞義是“可以直接造成成品的東西”,那么它后面的出現(xiàn)也非常有可能使用詞義“可以直接造成成品的東西”。例如下面是從WWW上下載的一篇網(wǎng)頁中的真實(shí)文本:巨化集團(tuán)公司系浙江省國有資產(chǎn)授權(quán)經(jīng)營單位,法定代表人葉志翔。經(jīng)營范圍:化肥、化工原料及產(chǎn)品,化學(xué)纖維,醫(yī)藥原料、中間體及成品,機(jī)電設(shè)備,金屬材料, 建筑材料,礦產(chǎn)品,包裝材料,針紡織品,服裝、食品、文體用品、發(fā)供電。經(jīng)營范圍:防腐設(shè)備制造、儀表制造和維修、砼構(gòu)件制造,汽車貨運(yùn)、汽車維修,金屬材料、建筑材料、高分子材料、材料加工、聚合物材料,電子信息材料,磷化工材料,鈦、錳、鋁及其合金材料?;ぴ霞爱a(chǎn)品、機(jī)電產(chǎn)品及配件的銷售;建筑設(shè)計(jì)(丙級(jí));室內(nèi)外裝飾等。第二個(gè)約束做了一個(gè)基本假設(shè),大部分統(tǒng)計(jì)排歧研究都要依賴的條件是:語義和某些上下文特征有很強(qiáng)的聯(lián)系,比如相同短語中的其他詞就是一個(gè)上下文特征。在Yarowsky的方法中,只選擇了一個(gè)很強(qiáng)的搭配特征并且在這個(gè)特征的基礎(chǔ)上進(jìn)行了排歧。只根據(jù)一個(gè)強(qiáng)特征有這樣一個(gè)優(yōu)點(diǎn):無需對(duì)不同特征進(jìn)行混合。同樣,李娟子[4]利用多義詞上下文搭配信息實(shí)現(xiàn)了一種具有自組織的詞義消歧方法,也說明了搭配信息的有效性。 詞義表示“觀其伴,知其義”(You shall know a word by the pany it keeps)是語言學(xué)家Firth(1957)[37]對(duì)詞義辨識(shí)的描述。心理學(xué)也認(rèn)為:人們是從語言和語境的聯(lián)系中認(rèn)識(shí)詞義的。這里所說的語境從某種意義上講,就是這個(gè)詞義的上下文。這些充分表明一個(gè)詞的詞義只能在它的具體應(yīng)用中體現(xiàn),同時(shí)說明一個(gè)詞的上下文可以反映該詞此時(shí)的詞義,而且由Yarowsky的兩個(gè)約束可知,一個(gè)詞的詞義也只能在一定的上下文中加以識(shí)別。如果一個(gè)詞在語料庫中出現(xiàn)多次,統(tǒng)計(jì)每次出現(xiàn)時(shí)的上下文,就可以得到該詞與其它詞的搭配關(guān)系,而且同一詞的不同詞義所表現(xiàn)出來的搭配關(guān)系也是不同的。因此,可以用詞的搭配來表示詞義。 利用詞語的搭配建立搜索關(guān)鍵詞集合根據(jù)Yarowsky的兩種約束和搭配信息的有效性,我們采用了兩種搭配關(guān)鍵字進(jìn)行語料的搜索。在關(guān)鍵詞的使用上,主要采用兩種類型的搭配信息。類型Ⅰ根據(jù)詞義受搭配的約束,可以利用搭配作為關(guān)鍵字進(jìn)行搜索得到該搭配所對(duì)應(yīng)的語料庫,然后根據(jù)搭配所對(duì)應(yīng)得詞義標(biāo)注語料庫,如利用“金屬材料”作為關(guān)鍵字搜索到的語料被標(biāo)注為搭配“金屬”所對(duì)應(yīng)的多義詞“材料”的義項(xiàng)(“可以直接造成成品的東西”)。類型Ⅱ根據(jù)詞義受話題的約束,可以利用搭配和多義詞組成多關(guān)鍵詞,如“金屬+材料”,進(jìn)行搜索,通過多關(guān)鍵詞的搜索,可以得到與搭配“金屬”所屬義項(xiàng)相同的其余搭配的語料,如:“包裝”、“建筑”等。通過這種方法,可以擴(kuò)大語料庫的規(guī)模,同時(shí)也會(huì)搜索到少數(shù)與搭配“金屬”所屬義項(xiàng)不同的搭配的語料,如“證明”、“宣傳”等,我們對(duì)針對(duì)這種情況對(duì)得到的語料庫進(jìn)行修剪()。以“材料”為例,對(duì)應(yīng)與它的3個(gè)不同義項(xiàng),我們使用的初始搭配如下表:義項(xiàng)1:可以直接造成成品的東西; 初始搭配:金屬 建筑 漲價(jià) 塑料 化學(xué) 包裝義項(xiàng)2:可供寫作或參考的事實(shí)或文字資料; 初始搭配:檔案 第一手 宣傳 證明 書面 提交義項(xiàng)3:比喻適于做某種工作的人。初始搭配:跳舞的 當(dāng)官的 運(yùn)動(dòng)的 說明:對(duì)于義項(xiàng)2主要采用類型Ⅱ,而義項(xiàng)3采用類型Ⅰ,原因是義項(xiàng)3的搭配與多義詞結(jié)合比較緊密,主要做定語起修飾作用,拆開后受話題的約束不強(qiáng)。 語料庫的建立和修剪 語料庫的建立,進(jìn)行資源搜索,得到含有多義詞的網(wǎng)頁,抽取網(wǎng)頁中的文本信息,然后在文本中抽取含有多義詞的句子,為減少搭配的過多重復(fù)出現(xiàn),每個(gè)文本只抽取一個(gè)含有多義詞的句子,對(duì)得到的句子集按關(guān)鍵詞對(duì)應(yīng)的義項(xiàng)標(biāo)注詞義,便得到與多義詞義項(xiàng)數(shù)目相同的帶標(biāo)注的語料庫。 語料庫的修剪。為實(shí)現(xiàn)對(duì)語料庫的修剪,我們采用從語料庫中提取能表征多義詞不同詞義的搭配集,然后利用搭配集從語料庫中提取語料。主要步驟如下:1) 對(duì)語料庫進(jìn)行切分;2) 提取多義詞上下文窗口內(nèi)(實(shí)驗(yàn)中采用多義詞左右2個(gè)窗口大?。┑谋?征能力強(qiáng)的搭配建立搭配集;3) 利用2)得到的搭配集抽取語料,組成新的語料庫。 搭配的選取為衡量搭配的表征能力的強(qiáng)弱,我們需要一種賦值函數(shù)來賦給那些在語料庫中出現(xiàn)頻率比較多且獨(dú)立代表多義詞義項(xiàng)的能力比較強(qiáng)的搭配一個(gè)比較高的值。我們采用分布(值越小,其獨(dú)立性越強(qiáng))。我們還要求抽取的表征能力強(qiáng)的搭配是開放性詞語(名詞、動(dòng)詞、形容詞和副詞),這主要是考慮開放性詞語表征多義詞的能力比封閉性詞語更具有獨(dú)立性。為計(jì)算的值,我們構(gòu)建了兩個(gè)向量:向量包含所有的搭配和它們各自出現(xiàn)的頻率,其中i代表多義詞第i個(gè)義項(xiàng),代表搭配j在標(biāo)注為義項(xiàng)i的語料庫中出現(xiàn)的頻率。向量代表搭配j在標(biāo)注為義項(xiàng)i的語料庫中的值()。 如果 0 其他 (),表示搭配j在標(biāo)注為義項(xiàng)i的語料庫中的期望平均值。 = ()其中:表示搭配j在標(biāo)注為義項(xiàng)i的語料庫中出現(xiàn)的次數(shù);表示搭配j在所有義項(xiàng)的語料庫中出現(xiàn)的總次數(shù);表示所有搭配在所有義項(xiàng)的語料庫中出現(xiàn)的總次數(shù);我們利用以上