freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

計算機科學(xué)與技術(shù)畢業(yè)論文漢語分詞技術(shù)分析(編輯修改稿)

2024-11-30 18:02 本頁面
 

【文章內(nèi)容簡介】 題:在進行分詞時需要有一個核心 (通用的、與領(lǐng)域無關(guān)的 )詞典,即普通詞典,凡在該詞典 中存在的詞,在分詞時就應(yīng)該切分出來。但是應(yīng)該將哪些詞組收入到核心詞典中去,雖然已經(jīng)提出各種收詞的條件,但是對每個詞組按照這些條件的進行判斷卻難以操作,因此目前還沒有合理的可操作的理論和標準。 ②詞的變形結(jié)構(gòu)問題:漢語中的動詞和形容詞有些可以產(chǎn)生變形結(jié)構(gòu),例如“打牌”、“開心 ” 、“看見 ” 、“相信”可能變形為“打打牌”、“開開心 ” 、“看沒看見 ” 、“相不相信”等 。在對變形結(jié)構(gòu)進行切分時,如果切分出“打打\牌”、“開開\心 ” 就不怎么合理,“看\沒\看見 ” 還說得過去,但“相\不\相信 ” 就說不過去了。在進行中文分詞時, 對這些變形結(jié)構(gòu)的切分缺少可操作的、合理的規(guī)范。 ③詞綴的問題:例如語素“者”在現(xiàn)代漢語中單獨使用是沒有意義的,因此“作者”、“成功者”、“開發(fā)者”內(nèi)部不能切開。依據(jù)這個標準,“開發(fā)中國第一個操作系統(tǒng)軟件者 ” 、“做 出了巨大個人財產(chǎn)和精神犧牲者”、“克 9 服許多困難而最終獲得成功者”內(nèi)部也不能切開,這樣復(fù)雜的結(jié)構(gòu)在本質(zhì)上就與詞的定義相矛盾。又如職務(wù)名稱“外交部長 ” ,語義上理解為“外交部之長”,切成“外交\部長”、“外交部\長 ” 、“外交\部\長 ” 或不予切分,都會有人提出異議。 ④非詞語素問題:現(xiàn)代的書面漢語并非純粹的 “現(xiàn)代 漢語”,其中夾雜著不少文言成分,如“為民除害”、“以逸待勞”、“ 幫困濟窮”等等。探尋白話文中夾雜文言成分的規(guī)律,是中文信息處理需要解決的一大問題。 (2)詞頻對領(lǐng)域有一定的敏感性。即使一些統(tǒng)計信息是從精心挑選的“平衡語料庫 ” 中計算而來,將之應(yīng)用于不同領(lǐng)域也會產(chǎn)生偏移,從而導(dǎo)致切分過程中切分的精度下降。而且不同目標的應(yīng)用對詞的切分規(guī)范的要求又有所不同,理論上講漢語自動分詞規(guī)范,作為規(guī)范,那么必須支持各種不同目標的應(yīng)用,但不同目標的應(yīng)用對詞的要求是不同的,甚至是有矛盾的。 ①以詞為單位的鍵盤輸入系統(tǒng),為了 提高輸入速度,一些互現(xiàn)頻率高的相互鄰接的幾個字也常常作為輸入的單位,比如:“每一 ” 、“再不”、“這就”、“也就 ” 等。 ②檢索系統(tǒng),檢索系統(tǒng)的詞典注重術(shù)語和專名,并且一些檢索系統(tǒng)傾向于分詞單位較小化。比如,在構(gòu)造倒排文檔及創(chuàng)建索引時把“分布式計算 ” 切成“分布式\計算 ” ,使得無論用“分布式計算 ” 還是用“分布式 ”檢索,都能查到。 上述的兩個實例,前者把不是詞的幾個字放在了一起組成了“詞 ” ,而后者把是詞的卻切分開了。事實上,許多中文信息處理系統(tǒng),都是根據(jù) 10 自己服務(wù)目的制定適合自己需要的分詞系統(tǒng)。因此分詞系統(tǒng)的通用性、 適應(yīng)性普遍不足,其分詞結(jié)果很難采用統(tǒng)一的通用的分詞標準來評價。 歧義識別 歧義是漢語中普遍存在的問題,因此切分歧義詞也是漢語分詞中的一大難題。形式上相同的一段文字,在不同的場景或語境中,可以切分出不同的結(jié)果,有不同的含義。 ( 1)交集型歧義 對于漢字串 AJB, AJ, JB 同時成詞。 例:他說的 /確實 /在理。他說 /的確 /實在 /理。 ( 2)組合型歧義 對于漢字串 AB, A, B, AB 皆可獨立成詞。 例:門 /把手 /壞 /了,請 /把 /手 /拿 /開。 將來, 學(xué)生會 ( 3) 混合型歧義 同時包含交集型和組合型 歧義 。 這些歧義有的會產(chǎn)生不同的分詞結(jié)果,這些結(jié)果有時都有含義,這種情況就是真歧義;有時,只有一種結(jié)果是在所有真實語境中是有實在意義的。這種情況 叫作 偽歧義。 ( 4) 真歧義 歧義字段在不同的語境中確實有多種分隔形式 例:地面積 這塊 /地 /面積 /還真不小。 地面 /積 /了厚厚的雪。 11 ( 5) 偽歧義 歧義字段單獨拿出來看有歧義,但在所有真實語境中,僅有一種分隔形式可接受 。 例: 挨批評 挨 /批評(√) 挨批 /評( X) 對于交集型歧義字段,真實文本中偽歧義現(xiàn)象遠多于真歧義現(xiàn)象。 未登錄詞 在文本處理過程中,會遇到很多詞典中未囊括的詞語。如:人名等。這些不斷增加的詞匯沒有可能和必要都加入到詞典中。所以,分詞中遇到未登錄詞匯是不能避免的。 例如: 實體名詞和專有名詞 人名:張三、李四 地名:三義廟、白洋淀 機構(gòu)名:方正、聯(lián)想 專業(yè)術(shù)語和新詞語 專業(yè)術(shù)語:萬維網(wǎng) 、 主機板 縮略詞:三個代表、掃黃打非 未登錄詞和歧義現(xiàn)象是影響中文分詞準確率的兩大因素,兩者之中,未登錄詞造成的影響更為嚴重。在真實的文檔和語料庫中,專有名詞和術(shù)語占了很大比例,詞典在多數(shù)情況下很難包括這些詞。分 詞算法能否對新詞進行有效識別對應(yīng)用來說十分重要,目前新詞識別的準確率已經(jīng)成為一 12 個評價分詞系統(tǒng)好壞的重要指標。 三 、 基本 中文分詞算法 自從 1983 年,背景航空航天大學(xué)實現(xiàn)了我國第一個實用性的自動分詞系統(tǒng)到現(xiàn)在,國內(nèi)外的研究者在中文分詞領(lǐng)域進行了廣泛的研究,提出了許多有效的算法。 (一) 中文分詞算法介紹 現(xiàn)在最常用的中文分詞系統(tǒng)主要采用以下 3 種算法: 基于字符串匹配的分詞算法 這種方法又叫做機械分詞算 法,機械分詞法按照一定策略將待切分字符串與機器里預(yù)先準備的詞條進 行匹配,然后找出一個最長的結(jié)果。按照掃描方向 的不同,串匹配分詞算 法可以分為正向匹配和逆向匹配 。按照不同長度優(yōu)先匹配的情況,可以分為最大 (最長 )匹配和最小 (最短 )匹配;按照是否與詞性標注過程相結(jié)合,又可以分為單純分詞算法和分詞與標注相結(jié)合的一體化算 法。常用的幾種機械分詞算 法如下: ( 1) 正向最大匹配法 (由左到右的方向 ); 正向最大匹配分詞是基于詞典的分詞系統(tǒng)。所謂最大匹配,就是要求每一句的分詞結(jié)果中的詞匯總量要最少。正向最大匹配分詞又分為增字和減字匹配法 [4]。增字匹配法需要一種特殊的詞典結(jié)構(gòu)支持,能夠達到較高的分詞效率。 減字法的流程為: 首先讀入一句 句子,取出標點符號,這樣句子就被分成相應(yīng)的若干段,然后對每一段進行詞典的匹配,如果沒有匹配成功就 13 從段末尾減去一個字,再進行匹配,重復(fù)上述過程,直到匹配上某一個單詞。整句句子重復(fù)這些流程,直到句子全部分解成詞匯為止。如果事先知道詞典中最長詞的長度,那么在一開始的匹配中,不用將分割出來的整段語句與詞典匹配,只需要以最長詞的長度為最大切分單位進行切分就可以了。 ( 2)逆向最大匹配法 (由右到左的方向 ); 逆向最大匹配分詞與正向最大匹配分詞相反,從句子結(jié)尾開始進行分詞。 ( 3)最少切分 (使每一句中切出的詞數(shù)最小 )。 這種算 法使每一句中切出的詞數(shù)最小。如果將上述各種方法相互組合,例如,可以將正向最大匹配算法和逆向最大匹配算法相結(jié)合來構(gòu)成雙向匹配法。由于漢語單字成詞的特點,正向最小匹配和逆向最小匹配一般很少使用??梢园褭C械分詞作為初步的處理手段,然后再通過進一步工作提高結(jié)果的正確率。 實際使用中 還可以將上述各種 算 法相互組合,例如,可以將正向最大匹配 算 法和逆向最大匹配 算 法結(jié)合起來構(gòu)成雙向匹配法。由于漢語單字成詞的特點,正向最小匹配和逆向最小匹配一般很少使用。一般說來,逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少。統(tǒng) 計結(jié)果表明 [5],單純使用正向最大匹配的錯誤率為 1/169,單純使用逆向最大匹配的錯誤率為 1/245。但這種精度還遠遠不能滿足實際的需要。實際使用的分詞系統(tǒng),都是把機械分詞作為一種初分手段, 然后 通過利用各種其它的語言信息來進一步提高切分的準確率。 14 基于理解的分詞算法 這種分詞算法是通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。它通常包括三個部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可 以獲得有關(guān)詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。由于漢語語言知識的籠統(tǒng)、復(fù)雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗階段。 基于統(tǒng)計的分詞算法 從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度 [4], 可以對語料中相鄰共現(xiàn)的各個字的組合的頻度進行統(tǒng)計,計算它們的互現(xiàn)信息。定義 兩個字的互現(xiàn)信息,計算兩個漢字 X、 Y 的相鄰共現(xiàn)概率。互現(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當緊密程度高于某一個閾值時,便可認為此字組可能構(gòu)成了一個詞。這種方法只需對語料中的字組頻度進行統(tǒng)計,不需要切分詞典,因而又叫做無詞典分詞法或統(tǒng)計取詞方法。但這種方法也有一定的局限性,會經(jīng)常抽出一些共現(xiàn)頻度高、但并不是詞的常用字組,例如“這一”、“之一”、“有的”、“我的”、“許多的”等,并且對常用詞的識別精度差,時空開銷大。 它的優(yōu)點在于可以發(fā)現(xiàn)所有的切分歧義,但是統(tǒng)計語言模型的精度和決策算法在很大程度上決定了解決歧 義的方法,需要大量的標注語料, 15 并且分詞速度也因搜索空間的增大而有所緩慢。 實際應(yīng)用的統(tǒng)計分詞系統(tǒng)都要使用一部基本的分詞詞典 (常用詞詞典 )進行串匹配分詞,同時使用統(tǒng)計方法識別一些新的詞,即將串頻統(tǒng)計和串匹配結(jié)合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結(jié)合上下文識別生詞、自動消除歧義的優(yōu)點。 ( 二 ) 根據(jù)具體應(yīng)用使用合適的分詞算法 在實際應(yīng)用中,對于某一具體的應(yīng)用系統(tǒng),并不是單純使用某種分詞算法就能解決問題,我們可以根據(jù)具體應(yīng)用的所需滿足條件使用不同的方法。在此以中文信息檢索中所用到的分詞算 法為例進行說明。 混合分詞 對于實際應(yīng)用中的中文信息檢索系統(tǒng)來說,當弄不清楚使用哪種分詞算法更好的話,可以試著合并使用多種方法,混合分詞就是一種簡單且容易實現(xiàn)的方法,也是大型檢索系統(tǒng)中常用的一種方法,使用混合分詞方法能夠涵蓋更多的詞匯。 混合分詞的原理就是“先用專業(yè)詞典進行一遍分詞,再用普通詞典進行一遍分詞”,我們用一個實例對為何要進行兩次分詞進行說明。例如,對“ 搜索引擎知識”這句話進行分詞,如果我們的詞典中含有“搜索引擎”這個詞,那么這句話的切分結(jié)果就是“搜索引擎\知識 ”。如果詞典中沒有“搜索引擎”這 個詞,而只含有“搜索”,“引擎” ,“知識 ” 這三個詞,那么這句話的切分結(jié)果就是“搜索\引擎\知識”。因此我們可以得到這樣一個結(jié)論,對同一文本進行切分,如果使用的詞典不同,會導(dǎo)致不同的分詞 16 結(jié)果。顯然,如果用第一種方法分詞,當一個用戶想要查找包含“搜索”這個關(guān)鍵字的相關(guān)資源時,他就不會搜索到結(jié)果。同理,假設(shè)檢索系統(tǒng)不對用戶輸入的詞進行切分,如果用第二種方法分詞,當一個用戶想要查找包含“搜索引擎”這個關(guān)鍵字的相關(guān)資源時,同樣也找不到結(jié)果。所以,只進行一遍分詞必然有一定得局限性,如果采用兩遍、甚至多遍分詞,便會解決上 述問題。對于上面這個例子,我們采取組織兩個詞典的措施:一個為專業(yè)詞典,一個為普通詞典。其中,專業(yè)詞典放置一些比較專業(yè)的詞組,比如名人人名、專有名詞、地點名、機構(gòu)名等,普通詞典就是我們常 用的詞組。那么我們可以將“搜索引擎”放入專業(yè)詞典,將“搜索 ” 、“引擎 ” 放入普通詞典。先用專業(yè)詞典進行一遍分詞,再用普通詞典進行一遍分詞,最后將結(jié)果合并到一起,那么結(jié)果如“搜索引擎\搜索\引擎\知識”。這樣既滿足了查詢“搜索引擎”的要求,又滿足了查詢“搜索”的要求。 據(jù)了解 [6],百度的分詞采取了至少兩個詞典,一個是普通詞典, 一個是專用詞典。而且是專用詞典先切分,然后將剩余的片斷交由普通詞典來切分。一般專業(yè)的搜索引擎對分詞速度要求要達到 1M/ s 以上,因此為了提高處理速度,百度的普通詞典切分采用雙向最大匹配算法,這種分詞算法舍棄了一定得精度來達到極快的切分速度。因為對于搜索引擎來說,在查詢切分和文檔切分時采用相同的分詞算法,如果有一些文檔切分是分詞是錯誤,在查詢切分時也產(chǎn)生相同的切分錯誤。那么即使兩次切分階段錯誤,但最后相同錯誤卻使匹配成功,使得仍然可以正確檢索到結(jié)果。 17 基于字的切分法 現(xiàn)實中,無論一個詞典所包含的詞組有多么齊 全,其還是包含不了一些新出現(xiàn)的
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1