freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

漢語(yǔ)分詞技術(shù)初探計(jì)算機(jī)科學(xué)與技術(shù)畢業(yè)論文(編輯修改稿)

2024-12-13 19:02 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 入速度,一些互現(xiàn)頻率高的相互鄰接的幾個(gè)字也常常作為輸入的單位,比如:“每一”、“再不”、“這就”、“也就”等。 ②檢索系統(tǒng),檢索系統(tǒng)的詞典 注重術(shù)語(yǔ)和專(zhuān)名,并且一些檢索系統(tǒng)傾向于分詞單位較小化。比如,在構(gòu)造倒排文檔及創(chuàng)建索引時(shí)把“分布式計(jì)算”切成“分布式\計(jì)算”,使得無(wú)論用“分布式計(jì)算”還是用“分布式”檢索,都能查到。 上述的兩個(gè)實(shí)例,前者把不是詞的幾個(gè)字放在了一起組成了“詞 ” ,而后者把是詞的卻切分開(kāi)了。事實(shí)上,許多中文信息處理系統(tǒng),都是根據(jù) 10 自己服務(wù)目的制定適合自己需要的分詞系統(tǒng)。因此分詞系統(tǒng)的通用性、適應(yīng)性普遍不足,其分詞結(jié)果很難采用統(tǒng)一的通用的分詞標(biāo)準(zhǔn)來(lái)評(píng)價(jià)。 歧義識(shí)別 歧義是漢語(yǔ)中普遍存在的問(wèn)題,因此切分歧義詞也是漢語(yǔ)分詞中的一大難題 。形式上相同的一段文字,在不同的場(chǎng)景或語(yǔ)境中,可以切分出不同的結(jié)果,有不同的含義。 ( 1)交集型歧義 對(duì)于漢字串 AJB, AJ, JB 同時(shí)成詞。 例:他說(shuō)的 /確實(shí) /在理。他說(shuō) /的確 /實(shí)在 /理。 ( 2)組合型歧義 對(duì)于漢字串 AB, A, B, AB 皆可獨(dú)立成詞。 例:門(mén) /把手 /壞 /了,請(qǐng) /把 /手 /拿 /開(kāi)。 將來(lái), 學(xué)生會(huì) ( 3)混合型歧義 同時(shí)包含交集型和組合型歧義。 這些歧義有的會(huì)產(chǎn)生不同的分詞結(jié)果,這些結(jié)果有時(shí)都有含義,這種情況就是真歧義;有時(shí),只有一種結(jié)果是在所有真實(shí)語(yǔ)境中是有實(shí)在意義的。這種情況 叫作偽歧義。 ( 4)真歧義 歧義字段在不同的語(yǔ)境中確實(shí)有多種分隔形式 例:地面積 這塊 /地 /面積 /還真不小。 地面 /積 /了厚厚的雪。 11 ( 5)偽歧義 歧義字段單獨(dú)拿出來(lái)看有歧義,但在所有真實(shí)語(yǔ)境中,僅有一種分隔形式可接受。 例: 挨批評(píng) 挨 /批評(píng)(√) 挨批 /評(píng)( X) 對(duì)于交集型歧義字段,真實(shí)文本中偽歧義現(xiàn)象遠(yuǎn)多于真歧義現(xiàn)象。 未登錄詞 在文本處理過(guò)程中,會(huì)遇到很多詞典中未囊括的詞語(yǔ)。如:人名等。這些不斷增加的詞匯沒(méi)有可能和必要都加入到詞典中。所以,分詞中遇到未登錄詞匯是不能避 免的。 例如: 實(shí)體名詞和專(zhuān)有名詞 人名:張三、李四 地名:三義廟、白洋淀 機(jī)構(gòu)名:方正、聯(lián)想 專(zhuān)業(yè)術(shù)語(yǔ)和新詞語(yǔ) 專(zhuān)業(yè)術(shù)語(yǔ):萬(wàn)維網(wǎng)、主機(jī)板 縮略詞:三個(gè)代表、掃黃打非 未登錄詞和歧義現(xiàn)象是影響中文分詞準(zhǔn)確率的兩大因素,兩者之中,未登錄詞造成的影響更為嚴(yán)重。在真實(shí)的文檔和語(yǔ)料庫(kù)中,專(zhuān)有名詞和術(shù)語(yǔ)占了很大比例,詞典在多數(shù)情況下很難包括這些詞。分詞算法能否對(duì)新詞進(jìn)行有效識(shí)別對(duì)應(yīng)用來(lái)說(shuō)十分重要,目前新詞識(shí)別的準(zhǔn)確率已經(jīng)成為一 12 個(gè)評(píng)價(jià)分詞系統(tǒng)好壞的重要指標(biāo)。 三、基本中文分詞算法 自從 1983 年,背景航空航天大學(xué)實(shí)現(xiàn)了我國(guó)第一個(gè)實(shí)用性的自動(dòng)分詞系統(tǒng)到現(xiàn)在,國(guó)內(nèi)外的研究者在中文分詞領(lǐng)域進(jìn)行了廣泛的研究,提出了許多有效的算法。 (一) 中文分詞算法介紹 現(xiàn)在最常用的中文分詞系統(tǒng)主要采用以下 3 種算法: 基于字符串匹配的分詞算法 這種方法又叫做機(jī)械分詞算法,機(jī)械分詞法按照一定策略將待切分字符串與機(jī)器里預(yù)先準(zhǔn)備的詞條進(jìn)行匹配,然后找出一個(gè)最長(zhǎng)的結(jié)果。按照掃描方向的不同,串匹配分詞算法可以分為正向匹配和逆向匹配 。按照不同長(zhǎng)度優(yōu)先匹配的情況,可以分為最大 (最長(zhǎng) )匹配和最小 (最短 )匹配;按照是否與詞性標(biāo)注過(guò)程 相結(jié)合,又可以分為單純分詞算法和分詞與標(biāo)注相結(jié)合的一體化算法。常用的幾種機(jī)械分詞算法如下: ( 1)正向最大匹配法 (由左到右的方向 ); 正向最大匹配分詞是基于詞典的分詞系統(tǒng)。所謂最大匹配,就是要求每一句的分詞結(jié)果中的詞匯總量要最少。正向最大匹配分詞又分為增字和減字匹配法 [4]。增字匹配法需要一種特殊的詞典結(jié)構(gòu)支持,能夠達(dá)到較高的分詞效率。 減字法的流程為:首先讀入一句句子,取出標(biāo)點(diǎn)符號(hào),這樣句子就被分成相應(yīng)的若干段,然后對(duì)每一段進(jìn)行詞典的匹配,如果沒(méi)有匹配成功就 13 從段末尾減去一個(gè)字,再進(jìn)行匹配,重復(fù)上述過(guò)程,直 到匹配上某一個(gè)單詞。整句句子重復(fù)這些流程,直到句子全部分解成詞匯為止。如果事先知道詞典中最長(zhǎng)詞的長(zhǎng)度,那么在一開(kāi)始的匹配中,不用將分割出來(lái)的整段語(yǔ)句與詞典匹配,只需要以最長(zhǎng)詞的長(zhǎng)度為最大切分單位進(jìn)行切分就可以了。 ( 2)逆向最大匹配法 (由右到左的方向 ); 逆向最大匹配分詞與正向最大匹配分詞相反,從句子結(jié)尾開(kāi)始進(jìn)行分詞。 ( 3)最少切分 (使每一句中切出的詞數(shù)最小 )。 這種算法使每一句中切出的詞數(shù)最小。如果將上述各種方法相互組合,例如,可以將正向最大匹配算法和逆向最大匹配算法相結(jié)合來(lái)構(gòu)成雙向匹配法。由于漢語(yǔ)單字 成詞的特點(diǎn),正向最小匹配和逆向最小匹配一般很少使用??梢园褭C(jī)械分詞作為初步的處理手段,然后再通過(guò)進(jìn)一步工作提高結(jié)果的正確率。 實(shí)際使用中還可以將上述各種算法相互組合,例如,可以將正向最大匹配算法和逆向最大匹配算法結(jié)合起來(lái)構(gòu)成雙向匹配法。由于漢語(yǔ)單字成詞的特點(diǎn),正向最小匹配和逆向最小匹配一般很少使用。一般說(shuō)來(lái),逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少。統(tǒng)計(jì)結(jié)果表明 [5],單純使用正向最大匹配的錯(cuò)誤率為 1/169,單純使用逆向最大匹配的錯(cuò)誤率為 1/245。但這種精度還遠(yuǎn)遠(yuǎn)不能滿足實(shí)際的需要。實(shí)際 使用的分詞系統(tǒng),都是把機(jī)械分詞作為一種初分手段,然后通過(guò)利用各種其它的語(yǔ)言信息來(lái)進(jìn)一步提高切分的準(zhǔn)確率。 14 基于理解的分詞算法 這種分詞算法是通過(guò)讓計(jì)算機(jī)模擬人對(duì)句子的理解,達(dá)到識(shí)別詞的效果。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析,利用句法信息和語(yǔ)義信息來(lái)處理歧義現(xiàn)象。它通常包括三個(gè)部分:分詞子系統(tǒng)、句法語(yǔ)義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語(yǔ)義信息來(lái)對(duì)分詞歧義進(jìn)行判斷,即它模擬了人對(duì)句子的理解過(guò)程。這種分詞方法需要使用大量的語(yǔ)言知識(shí)和信息。由于漢語(yǔ)語(yǔ)言知 識(shí)的籠統(tǒng)、復(fù)雜性,難以將各種語(yǔ)言信息組織成機(jī)器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗(yàn)階段。 基于統(tǒng)計(jì)的分詞算法 從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度 [4],可以對(duì)語(yǔ)料中相鄰共現(xiàn)的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì),計(jì)算它們的互現(xiàn)信息。定義兩個(gè)字的互現(xiàn)信息,計(jì)算兩個(gè)漢字 X、 Y 的相鄰共現(xiàn)概率?;ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個(gè)閾值時(shí),便可認(rèn)為此字組可能構(gòu)成 了一個(gè)詞。這種方法只需對(duì)語(yǔ)料中的字組頻度進(jìn)行統(tǒng)計(jì),不需要切分詞典,因而又叫做無(wú)詞典分詞法或統(tǒng)計(jì)取詞方法。但這種方法也有一定的局限性,會(huì)經(jīng)常抽出一些共現(xiàn)頻度高、但并不是詞的常用字組,例如“這一”、“之一”、“有的”、“我的”、“許多的”等,并且對(duì)常用詞的識(shí)別精度差,時(shí)空開(kāi)銷(xiāo)大。它的優(yōu)點(diǎn)在于可以發(fā)現(xiàn)所有的切分歧義,但是統(tǒng)計(jì)語(yǔ)言模型的精度和決策算法在很大程度上決定了解決歧義的方法,需要大量的標(biāo)注語(yǔ)料, 15 并且分詞速度也因搜索空間的增大而有所緩慢。實(shí)際應(yīng)用的統(tǒng)計(jì)分詞系統(tǒng)都要使用一部基本的分詞詞典 (常用詞詞典 )進(jìn)行串匹配 分詞,同時(shí)使用統(tǒng)計(jì)方法識(shí)別一些新的詞,即將串頻統(tǒng)計(jì)和串匹配結(jié)合起來(lái),既發(fā)揮匹配分詞切分速度快、效率高的特點(diǎn),又利用了無(wú)詞典分詞結(jié)合上下文識(shí)別生詞、自動(dòng)消除歧義的優(yōu)點(diǎn)。 ( 二 ) 根據(jù)具體應(yīng)用使用合適的分詞算法 在實(shí)際應(yīng)用中,對(duì)于某一具體的應(yīng)用系統(tǒng),并不是單純使用某種分詞算法就能解決問(wèn)題,我們可以根據(jù)具體應(yīng)用的所需滿足條件使用不同的方法。在此以中文信息檢索中所用到的分詞算法為例進(jìn)行說(shuō)明。 混合分詞 對(duì)于實(shí)際應(yīng)用中的中文信息檢索系統(tǒng)來(lái)說(shuō),當(dāng)弄不清楚使用哪種分詞算法更好的話,可以試著合并使用多種方法,混合分詞就是 一種簡(jiǎn)單且容易實(shí)現(xiàn)的方法,也是大型檢索系統(tǒng)中常用的一種方法,使用混合分詞方法能夠涵蓋更多的詞匯。 混合分詞的原理就是“先用專(zhuān)業(yè)詞典進(jìn)行一遍分詞,再用普通詞典進(jìn)行一遍分詞”,我們用一個(gè)實(shí)例對(duì)為何要進(jìn)行兩次分詞進(jìn)行說(shuō)明。例如,對(duì)“搜索引擎知識(shí)”這句話進(jìn)行分詞,如果我們的詞典中含有“搜索引擎”這個(gè)詞,那么這句話的切分結(jié)果就是“搜索引擎\知識(shí)”。如果詞典中沒(méi)有“搜索引擎”這個(gè)詞,而只含有“搜索”,“引擎”,“知識(shí) ” 這三個(gè)詞,那么這句話的切分結(jié)果就是“搜索\引擎\知識(shí)”。因此我們可以得到這樣一個(gè)結(jié)論,對(duì)同一文本進(jìn)行切 分,如果使用的詞典不同,會(huì)導(dǎo)致不同的分詞 16 結(jié)果。顯然,如果用第一種方法分詞,當(dāng)一個(gè)用戶(hù)想要查找包含“搜索”這個(gè)關(guān)鍵字的相關(guān)資源時(shí),他就不會(huì)搜索到結(jié)果。同理,假設(shè)檢索系統(tǒng)不對(duì)用戶(hù)輸入的詞進(jìn)行切分,如果用第二種方法分詞,當(dāng)一個(gè)用戶(hù)想要查找包含“搜索引擎”這個(gè)關(guān)鍵字的相關(guān)資源時(shí),同樣也找不到結(jié)果。所以,只進(jìn)行一遍分詞必然有一定得局限性,如果采用兩遍、甚至多遍分詞,便會(huì)解決上述問(wèn)題。對(duì)于上面這個(gè)例子,我們采取組織兩個(gè)詞典的措施:一個(gè)為專(zhuān)業(yè)詞典,一個(gè)為普通詞典。其中,專(zhuān)業(yè)詞典放置一些比較專(zhuān)業(yè)的詞組,比如名人人名、專(zhuān)有名 詞、地點(diǎn)名、機(jī)構(gòu)名等,普通詞典就是我們常 用的詞組。那么我們可以將“搜索引擎”放入專(zhuān)業(yè)詞典,將“搜索 ” 、“引擎 ” 放入普通詞典。先用專(zhuān)業(yè)詞典進(jìn)行一遍分詞,再用普通詞典進(jìn)行一遍分詞,最后將結(jié)果合并到一起,那么結(jié)果如“搜索引擎\搜索\引擎\知識(shí)”。這樣既滿足了查詢(xún)“搜索引擎”的要求,又滿足了查詢(xún)“搜索”的要求。 據(jù)了解 [6],百度的分詞采取了至少兩個(gè)詞典,一個(gè)是普通詞典,一個(gè)是專(zhuān)用詞典。而且是專(zhuān)用詞典先切分,然后將剩余的片斷交由普通詞典來(lái)切分。一般專(zhuān)業(yè)的搜索引擎對(duì)分詞速度要求要達(dá)到 1M/ s 以上,因此為了提高處理速 度,百度的普通詞典切分采用雙向最大匹配算法,這種分詞算法舍棄了一定得精度來(lái)達(dá)到極快的切分速度。因?yàn)閷?duì)于搜索引擎來(lái)說(shuō),在查詢(xún)切分和文檔切分時(shí)采用相同的分詞算法,如果有一些文檔切分是分詞是錯(cuò)誤,在查詢(xún)切分時(shí)也產(chǎn)生相同的切分錯(cuò)誤。那么即使兩次切分階段錯(cuò)誤,但最后相同錯(cuò)誤卻使匹配成功,使得仍然可以正確檢索到結(jié)果。 17 基于字的切分法 現(xiàn)實(shí)中,無(wú)論一個(gè)詞典所包含的詞組有多么齊全,其還是包含不了一些新出現(xiàn)的詞組,所以有些詞在沒(méi)有更新新詞的詞典中是分不出來(lái)的,尤其在如今的互聯(lián)網(wǎng)中,新詞每天都在出現(xiàn),數(shù)量更是每天都在增長(zhǎng)。 想對(duì)這些分不出來(lái)的新詞進(jìn)行處理,就需要采用多元切分的混合分詞方法。 一元分詞和二元分詞是比較流行的非詞典式分詞方法。一元分詞就是將“ ABCDE” 切分成“ A\ B\ C\ D\ E”,這個(gè)例子中,就是將一個(gè)詞拆成一個(gè)個(gè)獨(dú)立的字,這稱(chēng)之為一元分詞。同樣,二元分詞就是將“ ABCDE” 切分成“ AB\ BC\ CD\ DE”,在這個(gè)例子中,就是將一個(gè)詞拆成兩兩相連的詞。在實(shí)際應(yīng)用中,對(duì)分不出來(lái)的新詞我們也可以不分詞,比如將“ ABCDE” 切分成“ ABCDE”,這樣,我們就較好的保持了新詞的完整性。 那么,在實(shí)際的應(yīng)用中,我們就可以把 三種分詞方法全部利用上,以求達(dá)到最好的效果。如下一個(gè)詞條“ ABCDEFGHIJ”,假設(shè)這個(gè)詞條首先通過(guò)詞典分割成“ ABCDE\ FGH\ IJ”。假設(shè) FGH 與 IJ 是出現(xiàn)在詞典中的字條,ABCDE 是分不出來(lái)的詞, 那么對(duì) ABCDE 進(jìn)行三遍混合分詞, 最終結(jié)果便為“ A\ B\ C\ D\ E\ AB\ BC\ CD\ DE\ ABCDE\ FGH\ IJ” 。 四、中文分詞詞典 詞典是中文分詞技術(shù)中重要組成部分,其實(shí)詞典就是各種詞的集合,詞典告訴計(jì)算機(jī)什么樣的才是一個(gè)詞,程序分詞時(shí)自動(dòng)與詞典進(jìn)行對(duì)比。 18 (一) 詞典的索引 使用索引來(lái)組 織數(shù)量龐大的文件是一種高效的方法。目前在各種中文處理系統(tǒng)中常用于組織詞典的索引方法主要有兩種:一種是 Hash 索引、一種是 Tile 索引樹(shù)。 Hash 索引 Hash 函數(shù)是一個(gè)映像,其將關(guān)鍵字的集合映射到某個(gè)地址的集合。用Hash 表的方法構(gòu)造詞典就是將關(guān)鍵字與表項(xiàng)的存儲(chǔ)位置建立一個(gè)對(duì)應(yīng)的函數(shù)關(guān)系。以首字 Hash 詞典機(jī)制的原理為例,據(jù)漢字機(jī)內(nèi)碼的編碼規(guī)律可知,我們就可以通過(guò)一對(duì)一映射的 Hash 函數(shù)實(shí)現(xiàn)詞首字的快速查找。根據(jù) Hash函數(shù)的定義可知, Hash 函數(shù)一般都無(wú)法避免沖突,所以通常還要有相應(yīng)的沖突處理方法, 因此對(duì)于詞組中的剩余字串最快的只能通過(guò)二分查找來(lái)進(jìn)行查找。我們的思想是基于 Hash 索引的詞典機(jī)制就是構(gòu)造一種 Hash 函數(shù)來(lái)計(jì)算詞語(yǔ)的 Hash 值,將 Hash 值相同的詞組放入一個(gè)通常稱(chēng)之為“桶 ”的 集合內(nèi)。匹配時(shí)先計(jì)算待查詞的 Hash 值,得到首字的存儲(chǔ)位置,然后再進(jìn)入相應(yīng)的 Hash 桶內(nèi)再進(jìn)行二分查找。 Trie 樹(shù) 鍵樹(shù) [7]又稱(chēng)數(shù)字查找樹(shù)。它是一棵度 =2 的樹(shù),樹(shù)中的每個(gè)結(jié)點(diǎn)中不是包含一個(gè)或幾個(gè)關(guān)鍵字,而是只含有組成關(guān)鍵字的符號(hào)。例如,若關(guān)鍵字是數(shù)值,則結(jié)點(diǎn)中只包含一個(gè)數(shù)位;若關(guān)鍵字是英文單詞,則結(jié)點(diǎn)中只包含 一個(gè)英文字母。鍵樹(shù)中每個(gè)結(jié)點(diǎn)的最大度 d 和關(guān)鍵字的“基”有關(guān),若關(guān)鍵字是英文單詞,則 d=27,若關(guān)鍵字是數(shù)值,則 d=11。鍵樹(shù)的深度 h 則 19 取決于關(guān)鍵字中字符或數(shù)位的個(gè)數(shù)。若以樹(shù)的多重鏈表表示鍵樹(shù),則樹(shù)
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1