freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

漢語分詞技術(shù)初探計算機科學(xué)與技術(shù)畢業(yè)論文(編輯修改稿)

2024-12-13 19:02 本頁面
 

【文章內(nèi)容簡介】 入速度,一些互現(xiàn)頻率高的相互鄰接的幾個字也常常作為輸入的單位,比如:“每一”、“再不”、“這就”、“也就”等。 ②檢索系統(tǒng),檢索系統(tǒng)的詞典 注重術(shù)語和專名,并且一些檢索系統(tǒng)傾向于分詞單位較小化。比如,在構(gòu)造倒排文檔及創(chuàng)建索引時把“分布式計算”切成“分布式\計算”,使得無論用“分布式計算”還是用“分布式”檢索,都能查到。 上述的兩個實例,前者把不是詞的幾個字放在了一起組成了“詞 ” ,而后者把是詞的卻切分開了。事實上,許多中文信息處理系統(tǒng),都是根據(jù) 10 自己服務(wù)目的制定適合自己需要的分詞系統(tǒng)。因此分詞系統(tǒng)的通用性、適應(yīng)性普遍不足,其分詞結(jié)果很難采用統(tǒng)一的通用的分詞標(biāo)準(zhǔn)來評價。 歧義識別 歧義是漢語中普遍存在的問題,因此切分歧義詞也是漢語分詞中的一大難題 。形式上相同的一段文字,在不同的場景或語境中,可以切分出不同的結(jié)果,有不同的含義。 ( 1)交集型歧義 對于漢字串 AJB, AJ, JB 同時成詞。 例:他說的 /確實 /在理。他說 /的確 /實在 /理。 ( 2)組合型歧義 對于漢字串 AB, A, B, AB 皆可獨立成詞。 例:門 /把手 /壞 /了,請 /把 /手 /拿 /開。 將來, 學(xué)生會 ( 3)混合型歧義 同時包含交集型和組合型歧義。 這些歧義有的會產(chǎn)生不同的分詞結(jié)果,這些結(jié)果有時都有含義,這種情況就是真歧義;有時,只有一種結(jié)果是在所有真實語境中是有實在意義的。這種情況 叫作偽歧義。 ( 4)真歧義 歧義字段在不同的語境中確實有多種分隔形式 例:地面積 這塊 /地 /面積 /還真不小。 地面 /積 /了厚厚的雪。 11 ( 5)偽歧義 歧義字段單獨拿出來看有歧義,但在所有真實語境中,僅有一種分隔形式可接受。 例: 挨批評 挨 /批評(√) 挨批 /評( X) 對于交集型歧義字段,真實文本中偽歧義現(xiàn)象遠多于真歧義現(xiàn)象。 未登錄詞 在文本處理過程中,會遇到很多詞典中未囊括的詞語。如:人名等。這些不斷增加的詞匯沒有可能和必要都加入到詞典中。所以,分詞中遇到未登錄詞匯是不能避 免的。 例如: 實體名詞和專有名詞 人名:張三、李四 地名:三義廟、白洋淀 機構(gòu)名:方正、聯(lián)想 專業(yè)術(shù)語和新詞語 專業(yè)術(shù)語:萬維網(wǎng)、主機板 縮略詞:三個代表、掃黃打非 未登錄詞和歧義現(xiàn)象是影響中文分詞準(zhǔn)確率的兩大因素,兩者之中,未登錄詞造成的影響更為嚴重。在真實的文檔和語料庫中,專有名詞和術(shù)語占了很大比例,詞典在多數(shù)情況下很難包括這些詞。分詞算法能否對新詞進行有效識別對應(yīng)用來說十分重要,目前新詞識別的準(zhǔn)確率已經(jīng)成為一 12 個評價分詞系統(tǒng)好壞的重要指標(biāo)。 三、基本中文分詞算法 自從 1983 年,背景航空航天大學(xué)實現(xiàn)了我國第一個實用性的自動分詞系統(tǒng)到現(xiàn)在,國內(nèi)外的研究者在中文分詞領(lǐng)域進行了廣泛的研究,提出了許多有效的算法。 (一) 中文分詞算法介紹 現(xiàn)在最常用的中文分詞系統(tǒng)主要采用以下 3 種算法: 基于字符串匹配的分詞算法 這種方法又叫做機械分詞算法,機械分詞法按照一定策略將待切分字符串與機器里預(yù)先準(zhǔn)備的詞條進行匹配,然后找出一個最長的結(jié)果。按照掃描方向的不同,串匹配分詞算法可以分為正向匹配和逆向匹配 。按照不同長度優(yōu)先匹配的情況,可以分為最大 (最長 )匹配和最小 (最短 )匹配;按照是否與詞性標(biāo)注過程 相結(jié)合,又可以分為單純分詞算法和分詞與標(biāo)注相結(jié)合的一體化算法。常用的幾種機械分詞算法如下: ( 1)正向最大匹配法 (由左到右的方向 ); 正向最大匹配分詞是基于詞典的分詞系統(tǒng)。所謂最大匹配,就是要求每一句的分詞結(jié)果中的詞匯總量要最少。正向最大匹配分詞又分為增字和減字匹配法 [4]。增字匹配法需要一種特殊的詞典結(jié)構(gòu)支持,能夠達到較高的分詞效率。 減字法的流程為:首先讀入一句句子,取出標(biāo)點符號,這樣句子就被分成相應(yīng)的若干段,然后對每一段進行詞典的匹配,如果沒有匹配成功就 13 從段末尾減去一個字,再進行匹配,重復(fù)上述過程,直 到匹配上某一個單詞。整句句子重復(fù)這些流程,直到句子全部分解成詞匯為止。如果事先知道詞典中最長詞的長度,那么在一開始的匹配中,不用將分割出來的整段語句與詞典匹配,只需要以最長詞的長度為最大切分單位進行切分就可以了。 ( 2)逆向最大匹配法 (由右到左的方向 ); 逆向最大匹配分詞與正向最大匹配分詞相反,從句子結(jié)尾開始進行分詞。 ( 3)最少切分 (使每一句中切出的詞數(shù)最小 )。 這種算法使每一句中切出的詞數(shù)最小。如果將上述各種方法相互組合,例如,可以將正向最大匹配算法和逆向最大匹配算法相結(jié)合來構(gòu)成雙向匹配法。由于漢語單字 成詞的特點,正向最小匹配和逆向最小匹配一般很少使用??梢园褭C械分詞作為初步的處理手段,然后再通過進一步工作提高結(jié)果的正確率。 實際使用中還可以將上述各種算法相互組合,例如,可以將正向最大匹配算法和逆向最大匹配算法結(jié)合起來構(gòu)成雙向匹配法。由于漢語單字成詞的特點,正向最小匹配和逆向最小匹配一般很少使用。一般說來,逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少。統(tǒng)計結(jié)果表明 [5],單純使用正向最大匹配的錯誤率為 1/169,單純使用逆向最大匹配的錯誤率為 1/245。但這種精度還遠遠不能滿足實際的需要。實際 使用的分詞系統(tǒng),都是把機械分詞作為一種初分手段,然后通過利用各種其它的語言信息來進一步提高切分的準(zhǔn)確率。 14 基于理解的分詞算法 這種分詞算法是通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。它通常包括三個部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。由于漢語語言知 識的籠統(tǒng)、復(fù)雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗階段。 基于統(tǒng)計的分詞算法 從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度 [4],可以對語料中相鄰共現(xiàn)的各個字的組合的頻度進行統(tǒng)計,計算它們的互現(xiàn)信息。定義兩個字的互現(xiàn)信息,計算兩個漢字 X、 Y 的相鄰共現(xiàn)概率。互現(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個閾值時,便可認為此字組可能構(gòu)成 了一個詞。這種方法只需對語料中的字組頻度進行統(tǒng)計,不需要切分詞典,因而又叫做無詞典分詞法或統(tǒng)計取詞方法。但這種方法也有一定的局限性,會經(jīng)常抽出一些共現(xiàn)頻度高、但并不是詞的常用字組,例如“這一”、“之一”、“有的”、“我的”、“許多的”等,并且對常用詞的識別精度差,時空開銷大。它的優(yōu)點在于可以發(fā)現(xiàn)所有的切分歧義,但是統(tǒng)計語言模型的精度和決策算法在很大程度上決定了解決歧義的方法,需要大量的標(biāo)注語料, 15 并且分詞速度也因搜索空間的增大而有所緩慢。實際應(yīng)用的統(tǒng)計分詞系統(tǒng)都要使用一部基本的分詞詞典 (常用詞詞典 )進行串匹配 分詞,同時使用統(tǒng)計方法識別一些新的詞,即將串頻統(tǒng)計和串匹配結(jié)合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結(jié)合上下文識別生詞、自動消除歧義的優(yōu)點。 ( 二 ) 根據(jù)具體應(yīng)用使用合適的分詞算法 在實際應(yīng)用中,對于某一具體的應(yīng)用系統(tǒng),并不是單純使用某種分詞算法就能解決問題,我們可以根據(jù)具體應(yīng)用的所需滿足條件使用不同的方法。在此以中文信息檢索中所用到的分詞算法為例進行說明。 混合分詞 對于實際應(yīng)用中的中文信息檢索系統(tǒng)來說,當(dāng)弄不清楚使用哪種分詞算法更好的話,可以試著合并使用多種方法,混合分詞就是 一種簡單且容易實現(xiàn)的方法,也是大型檢索系統(tǒng)中常用的一種方法,使用混合分詞方法能夠涵蓋更多的詞匯。 混合分詞的原理就是“先用專業(yè)詞典進行一遍分詞,再用普通詞典進行一遍分詞”,我們用一個實例對為何要進行兩次分詞進行說明。例如,對“搜索引擎知識”這句話進行分詞,如果我們的詞典中含有“搜索引擎”這個詞,那么這句話的切分結(jié)果就是“搜索引擎\知識”。如果詞典中沒有“搜索引擎”這個詞,而只含有“搜索”,“引擎”,“知識 ” 這三個詞,那么這句話的切分結(jié)果就是“搜索\引擎\知識”。因此我們可以得到這樣一個結(jié)論,對同一文本進行切 分,如果使用的詞典不同,會導(dǎo)致不同的分詞 16 結(jié)果。顯然,如果用第一種方法分詞,當(dāng)一個用戶想要查找包含“搜索”這個關(guān)鍵字的相關(guān)資源時,他就不會搜索到結(jié)果。同理,假設(shè)檢索系統(tǒng)不對用戶輸入的詞進行切分,如果用第二種方法分詞,當(dāng)一個用戶想要查找包含“搜索引擎”這個關(guān)鍵字的相關(guān)資源時,同樣也找不到結(jié)果。所以,只進行一遍分詞必然有一定得局限性,如果采用兩遍、甚至多遍分詞,便會解決上述問題。對于上面這個例子,我們采取組織兩個詞典的措施:一個為專業(yè)詞典,一個為普通詞典。其中,專業(yè)詞典放置一些比較專業(yè)的詞組,比如名人人名、專有名 詞、地點名、機構(gòu)名等,普通詞典就是我們常 用的詞組。那么我們可以將“搜索引擎”放入專業(yè)詞典,將“搜索 ” 、“引擎 ” 放入普通詞典。先用專業(yè)詞典進行一遍分詞,再用普通詞典進行一遍分詞,最后將結(jié)果合并到一起,那么結(jié)果如“搜索引擎\搜索\引擎\知識”。這樣既滿足了查詢“搜索引擎”的要求,又滿足了查詢“搜索”的要求。 據(jù)了解 [6],百度的分詞采取了至少兩個詞典,一個是普通詞典,一個是專用詞典。而且是專用詞典先切分,然后將剩余的片斷交由普通詞典來切分。一般專業(yè)的搜索引擎對分詞速度要求要達到 1M/ s 以上,因此為了提高處理速 度,百度的普通詞典切分采用雙向最大匹配算法,這種分詞算法舍棄了一定得精度來達到極快的切分速度。因為對于搜索引擎來說,在查詢切分和文檔切分時采用相同的分詞算法,如果有一些文檔切分是分詞是錯誤,在查詢切分時也產(chǎn)生相同的切分錯誤。那么即使兩次切分階段錯誤,但最后相同錯誤卻使匹配成功,使得仍然可以正確檢索到結(jié)果。 17 基于字的切分法 現(xiàn)實中,無論一個詞典所包含的詞組有多么齊全,其還是包含不了一些新出現(xiàn)的詞組,所以有些詞在沒有更新新詞的詞典中是分不出來的,尤其在如今的互聯(lián)網(wǎng)中,新詞每天都在出現(xiàn),數(shù)量更是每天都在增長。 想對這些分不出來的新詞進行處理,就需要采用多元切分的混合分詞方法。 一元分詞和二元分詞是比較流行的非詞典式分詞方法。一元分詞就是將“ ABCDE” 切分成“ A\ B\ C\ D\ E”,這個例子中,就是將一個詞拆成一個個獨立的字,這稱之為一元分詞。同樣,二元分詞就是將“ ABCDE” 切分成“ AB\ BC\ CD\ DE”,在這個例子中,就是將一個詞拆成兩兩相連的詞。在實際應(yīng)用中,對分不出來的新詞我們也可以不分詞,比如將“ ABCDE” 切分成“ ABCDE”,這樣,我們就較好的保持了新詞的完整性。 那么,在實際的應(yīng)用中,我們就可以把 三種分詞方法全部利用上,以求達到最好的效果。如下一個詞條“ ABCDEFGHIJ”,假設(shè)這個詞條首先通過詞典分割成“ ABCDE\ FGH\ IJ”。假設(shè) FGH 與 IJ 是出現(xiàn)在詞典中的字條,ABCDE 是分不出來的詞, 那么對 ABCDE 進行三遍混合分詞, 最終結(jié)果便為“ A\ B\ C\ D\ E\ AB\ BC\ CD\ DE\ ABCDE\ FGH\ IJ” 。 四、中文分詞詞典 詞典是中文分詞技術(shù)中重要組成部分,其實詞典就是各種詞的集合,詞典告訴計算機什么樣的才是一個詞,程序分詞時自動與詞典進行對比。 18 (一) 詞典的索引 使用索引來組 織數(shù)量龐大的文件是一種高效的方法。目前在各種中文處理系統(tǒng)中常用于組織詞典的索引方法主要有兩種:一種是 Hash 索引、一種是 Tile 索引樹。 Hash 索引 Hash 函數(shù)是一個映像,其將關(guān)鍵字的集合映射到某個地址的集合。用Hash 表的方法構(gòu)造詞典就是將關(guān)鍵字與表項的存儲位置建立一個對應(yīng)的函數(shù)關(guān)系。以首字 Hash 詞典機制的原理為例,據(jù)漢字機內(nèi)碼的編碼規(guī)律可知,我們就可以通過一對一映射的 Hash 函數(shù)實現(xiàn)詞首字的快速查找。根據(jù) Hash函數(shù)的定義可知, Hash 函數(shù)一般都無法避免沖突,所以通常還要有相應(yīng)的沖突處理方法, 因此對于詞組中的剩余字串最快的只能通過二分查找來進行查找。我們的思想是基于 Hash 索引的詞典機制就是構(gòu)造一種 Hash 函數(shù)來計算詞語的 Hash 值,將 Hash 值相同的詞組放入一個通常稱之為“桶 ”的 集合內(nèi)。匹配時先計算待查詞的 Hash 值,得到首字的存儲位置,然后再進入相應(yīng)的 Hash 桶內(nèi)再進行二分查找。 Trie 樹 鍵樹 [7]又稱數(shù)字查找樹。它是一棵度 =2 的樹,樹中的每個結(jié)點中不是包含一個或幾個關(guān)鍵字,而是只含有組成關(guān)鍵字的符號。例如,若關(guān)鍵字是數(shù)值,則結(jié)點中只包含一個數(shù)位;若關(guān)鍵字是英文單詞,則結(jié)點中只包含 一個英文字母。鍵樹中每個結(jié)點的最大度 d 和關(guān)鍵字的“基”有關(guān),若關(guān)鍵字是英文單詞,則 d=27,若關(guān)鍵字是數(shù)值,則 d=11。鍵樹的深度 h 則 19 取決于關(guān)鍵字中字符或數(shù)位的個數(shù)。若以樹的多重鏈表表示鍵樹,則樹
點擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1