freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

漢語分詞技術(shù)初探計算機科學(xué)與技術(shù)畢業(yè)論文-文庫吧資料

2024-11-15 19:02本頁面
  

【正文】 只包含 一個英文字母。 Trie 樹 鍵樹 [7]又稱數(shù)字查找樹。我們的思想是基于 Hash 索引的詞典機制就是構(gòu)造一種 Hash 函數(shù)來計算詞語的 Hash 值,將 Hash 值相同的詞組放入一個通常稱之為“桶 ”的 集合內(nèi)。以首字 Hash 詞典機制的原理為例,據(jù)漢字機內(nèi)碼的編碼規(guī)律可知,我們就可以通過一對一映射的 Hash 函數(shù)實現(xiàn)詞首字的快速查找。 Hash 索引 Hash 函數(shù)是一個映像,其將關(guān)鍵字的集合映射到某個地址的集合。 18 (一) 詞典的索引 使用索引來組 織數(shù)量龐大的文件是一種高效的方法。假設(shè) FGH 與 IJ 是出現(xiàn)在詞典中的字條,ABCDE 是分不出來的詞, 那么對 ABCDE 進行三遍混合分詞, 最終結(jié)果便為“ A\ B\ C\ D\ E\ AB\ BC\ CD\ DE\ ABCDE\ FGH\ IJ” 。 那么,在實際的應(yīng)用中,我們就可以把 三種分詞方法全部利用上,以求達到最好的效果。同樣,二元分詞就是將“ ABCDE” 切分成“ AB\ BC\ CD\ DE”,在這個例子中,就是將一個詞拆成兩兩相連的詞。 一元分詞和二元分詞是比較流行的非詞典式分詞方法。 17 基于字的切分法 現(xiàn)實中,無論一個詞典所包含的詞組有多么齊全,其還是包含不了一些新出現(xiàn)的詞組,所以有些詞在沒有更新新詞的詞典中是分不出來的,尤其在如今的互聯(lián)網(wǎng)中,新詞每天都在出現(xiàn),數(shù)量更是每天都在增長。因為對于搜索引擎來說,在查詢切分和文檔切分時采用相同的分詞算法,如果有一些文檔切分是分詞是錯誤,在查詢切分時也產(chǎn)生相同的切分錯誤。而且是專用詞典先切分,然后將剩余的片斷交由普通詞典來切分。這樣既滿足了查詢“搜索引擎”的要求,又滿足了查詢“搜索”的要求。那么我們可以將“搜索引擎”放入專業(yè)詞典,將“搜索 ” 、“引擎 ” 放入普通詞典。對于上面這個例子,我們采取組織兩個詞典的措施:一個為專業(yè)詞典,一個為普通詞典。同理,假設(shè)檢索系統(tǒng)不對用戶輸入的詞進行切分,如果用第二種方法分詞,當(dāng)一個用戶想要查找包含“搜索引擎”這個關(guān)鍵字的相關(guān)資源時,同樣也找不到結(jié)果。因此我們可以得到這樣一個結(jié)論,對同一文本進行切 分,如果使用的詞典不同,會導(dǎo)致不同的分詞 16 結(jié)果。例如,對“搜索引擎知識”這句話進行分詞,如果我們的詞典中含有“搜索引擎”這個詞,那么這句話的切分結(jié)果就是“搜索引擎\知識”。 混合分詞 對于實際應(yīng)用中的中文信息檢索系統(tǒng)來說,當(dāng)弄不清楚使用哪種分詞算法更好的話,可以試著合并使用多種方法,混合分詞就是 一種簡單且容易實現(xiàn)的方法,也是大型檢索系統(tǒng)中常用的一種方法,使用混合分詞方法能夠涵蓋更多的詞匯。 ( 二 ) 根據(jù)具體應(yīng)用使用合適的分詞算法 在實際應(yīng)用中,對于某一具體的應(yīng)用系統(tǒng),并不是單純使用某種分詞算法就能解決問題,我們可以根據(jù)具體應(yīng)用的所需滿足條件使用不同的方法。它的優(yōu)點在于可以發(fā)現(xiàn)所有的切分歧義,但是統(tǒng)計語言模型的精度和決策算法在很大程度上決定了解決歧義的方法,需要大量的標(biāo)注語料, 15 并且分詞速度也因搜索空間的增大而有所緩慢。這種方法只需對語料中的字組頻度進行統(tǒng)計,不需要切分詞典,因而又叫做無詞典分詞法或統(tǒng)計取詞方法?;ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度 [4],可以對語料中相鄰共現(xiàn)的各個字的組合的頻度進行統(tǒng)計,計算它們的互現(xiàn)信息。由于漢語語言知 識的籠統(tǒng)、復(fù)雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗階段。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。實際 使用的分詞系統(tǒng),都是把機械分詞作為一種初分手段,然后通過利用各種其它的語言信息來進一步提高切分的準(zhǔn)確率。統(tǒng)計結(jié)果表明 [5],單純使用正向最大匹配的錯誤率為 1/169,單純使用逆向最大匹配的錯誤率為 1/245。由于漢語單字成詞的特點,正向最小匹配和逆向最小匹配一般很少使用??梢园褭C械分詞作為初步的處理手段,然后再通過進一步工作提高結(jié)果的正確率。如果將上述各種方法相互組合,例如,可以將正向最大匹配算法和逆向最大匹配算法相結(jié)合來構(gòu)成雙向匹配法。 ( 3)最少切分 (使每一句中切出的詞數(shù)最小 )。如果事先知道詞典中最長詞的長度,那么在一開始的匹配中,不用將分割出來的整段語句與詞典匹配,只需要以最長詞的長度為最大切分單位進行切分就可以了。 減字法的流程為:首先讀入一句句子,取出標(biāo)點符號,這樣句子就被分成相應(yīng)的若干段,然后對每一段進行詞典的匹配,如果沒有匹配成功就 13 從段末尾減去一個字,再進行匹配,重復(fù)上述過程,直 到匹配上某一個單詞。正向最大匹配分詞又分為增字和減字匹配法 [4]。常用的幾種機械分詞算法如下: ( 1)正向最大匹配法 (由左到右的方向 ); 正向最大匹配分詞是基于詞典的分詞系統(tǒng)。按照掃描方向的不同,串匹配分詞算法可以分為正向匹配和逆向匹配 。 三、基本中文分詞算法 自從 1983 年,背景航空航天大學(xué)實現(xiàn)了我國第一個實用性的自動分詞系統(tǒng)到現(xiàn)在,國內(nèi)外的研究者在中文分詞領(lǐng)域進行了廣泛的研究,提出了許多有效的算法。在真實的文檔和語料庫中,專有名詞和術(shù)語占了很大比例,詞典在多數(shù)情況下很難包括這些詞。所以,分詞中遇到未登錄詞匯是不能避 免的。如:人名等。 例: 挨批評 挨 /批評(√) 挨批 /評( X) 對于交集型歧義字段,真實文本中偽歧義現(xiàn)象遠多于真歧義現(xiàn)象。 地面 /積 /了厚厚的雪。這種情況 叫作偽歧義。 將來, 學(xué)生會 ( 3)混合型歧義 同時包含交集型和組合型歧義。 ( 2)組合型歧義 對于漢字串 AB, A, B, AB 皆可獨立成詞。 例:他說的 /確實 /在理。形式上相同的一段文字,在不同的場景或語境中,可以切分出不同的結(jié)果,有不同的含義。因此分詞系統(tǒng)的通用性、適應(yīng)性普遍不足,其分詞結(jié)果很難采用統(tǒng)一的通用的分詞標(biāo)準(zhǔn)來評價。 上述的兩個實例,前者把不是詞的幾個字放在了一起組成了“詞 ” ,而后者把是詞的卻切分開了。 ②檢索系統(tǒng),檢索系統(tǒng)的詞典 注重術(shù)語和專名,并且一些檢索系統(tǒng)傾向于分詞單位較小化。而且不同目標(biāo)的應(yīng)用對詞的切分規(guī)范的要求又有所不同,理論上講漢語自動分詞規(guī)范,作為規(guī)范,那么必須支持各種不同目標(biāo)的應(yīng)用,但不同目標(biāo)的應(yīng)用對詞的要求是不同的,甚至是有矛盾的。 (2)詞頻對領(lǐng)域有一定的敏感性。 ④非詞語素問題:現(xiàn)代的書面漢語并非純粹的“現(xiàn)代漢語”,其中夾雜著不少文言成分,如“為民除害”、“以逸待勞”、“幫困濟窮”等等。依據(jù)這個標(biāo)準(zhǔn),“開發(fā)中國第一個操作系統(tǒng)軟件者 ” 、“做出了巨大個人財產(chǎn)和精神犧牲者”、“克 9 服許多困難而最終獲得成功者”內(nèi)部也不能切開,這樣復(fù)雜的結(jié)構(gòu)在本質(zhì)上就與詞的定義相矛盾。在進行中文分詞時,對這些變形結(jié)構(gòu)的切分缺少可操作的、合理的規(guī)范。 ②詞的變形結(jié)構(gòu)問題:漢語中的動詞和形容詞有些可以產(chǎn)生變形結(jié)構(gòu),例如“打牌”、“開心”、“看見”、“相信”可能變形為“打打牌”、“開開心”、“看沒看見 ” 、“相不相信”等。而產(chǎn)生如此定義涉及多個方面 [3]: ①核心詞典問題:在進行分詞時需要有一個核心 (通用的、與領(lǐng)域無關(guān)的 )詞典,即普通詞典,凡在該詞典中存在的詞,在分詞時就應(yīng)該切分出來。 分詞規(guī)范 (1)“詞 ” 是否有清晰的定義 ? 在每本漢語語法教科書中,我們都可以找到對“詞 ” 的這樣一條定義:語言中有意義的能單說或用來造句的最小單位。但現(xiàn)在此技術(shù)在經(jīng)過了近 30 年的研究,仍存在諸多不足。好的分詞系統(tǒng)具有良好的適用性,可以方便地集成在各種各樣的漢語信息處理系統(tǒng)中。當(dāng)然,就當(dāng)今的現(xiàn)狀來說,完全的通用性很難達到。為了做到足夠通用又不過分龐大,必須做到在詞表和處理功能、處理方式上能靈活組合裝卸,有充分可靠和方便的維護能力,有標(biāo)準(zhǔn)的開發(fā)接口。作為各種高層次中文處理的共同基礎(chǔ), 7 自動分詞系統(tǒng)必須具有很好的通用性。 運行效率 分詞是各種漢語處理應(yīng)用系統(tǒng)中共同的、基礎(chǔ)性的工作,這步工作消耗的時間應(yīng)盡量少,應(yīng)只占上層處理所需時間的一 小部分,并應(yīng)使用戶沒有等待的感覺,在普遍使用的平臺上大約每秒鐘處理 l 萬字或 5 千詞以上為宜。如果分詞產(chǎn)生錯誤則會在最后的統(tǒng)計結(jié)果中累積起不可忽視的“垃圾”,從而給上層的應(yīng)用系統(tǒng)帶來相當(dāng)嚴(yán)重的影響。于是僅僅因為分詞系統(tǒng)的準(zhǔn)確率欠佳,中外文翻譯系統(tǒng)的翻譯 準(zhǔn)確率就降低了 1020 個百分點?,F(xiàn)有的分詞系統(tǒng)中,有些準(zhǔn)確率已達到 98%一 99%,光從數(shù)據(jù)上看似乎已經(jīng)相當(dāng)高了,其實不然。 ( 二 ) 中文分詞的目標(biāo) 中文分詞系統(tǒng)的目標(biāo)為達到信息處理的需求,達到所要求的相應(yīng)水平,具體來說,主要是準(zhǔn)確、高效、通用及適用四個方面。) 變聲 —— 如:好酒( hǎojiuh225。 由于漢語中的多音字、一些發(fā)音習(xí)慣使得語音識別和合成過程中需要一個可靠地中文分詞作為基礎(chǔ)。 ( 4)語音處理。 中文分詞的其中一個重要功能就是為詞語的計量分析,詞頻的統(tǒng)計提供可靠的依據(jù),比如漢語中最常用的詞是哪個。 現(xiàn)在的翻譯技術(shù),無論是在線的還是單機的,在翻譯句子或段落的時候總會讓我們不知所措,語法錯誤明顯,詞不達意等等。 ( 3)內(nèi)容分析。如雅虎、百度,都是使用 5 自己開發(fā)的分詞技術(shù)。可見,掌握了優(yōu)秀的分詞技術(shù)就可以在中文搜索中占有一席之地。如 Google、 Baidu、 Yahoo 等檢索工具。這方面主要包括拼音輸入法、手寫識別、簡繁轉(zhuǎn)換等。比如一個中英翻譯系統(tǒng),如果連詞匯都不能正確切分,翻譯得到的英文是不可能符合原義的。若要使計算機與人類達到自由無障礙的語言交互,就必須讓計算機能理解自然語言。由于中文詞匯中間是有分隔符的,所以對中文詞組的正確識別就顯得很重要。所以,要讓計算機完成上述過程,相對于英語,難度有質(zhì)的不同。對于通過空格和標(biāo)點來切分的英語例句,一般不會產(chǎn)生歧義。 比如: The table tennis bat is sold out。而中文中,是以字為基本書寫單位,只有段與段、句語句之間有分隔符,而詞匯之間沒有分隔符。 什么是 中文分詞 分詞就是利用計算機識別出文本中詞匯的過程。 (一) 中文分詞的 概念 將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程被稱為分詞;中文分詞就是把中文的漢字序列分成有意義的詞。 二、中文分詞簡介 中文分詞是中文信息處理技術(shù)中最基礎(chǔ)、最關(guān)鍵的一個環(huán)節(jié)。 第六章 結(jié)論。 第五章 正向最大匹配算法的實現(xiàn)。 第四章 中文分詞詞典。 3 第三章 基本中文分詞算法。 第二章 中文分詞簡介。 相對于研究內(nèi)容,本文的結(jié)構(gòu)安排為: 第一章 引言。 (4) 介紹了目前中文分詞技術(shù)中常用的索引方法和詞典機制。 (3)研究了三類基本的分詞算法:基于字符串匹配的分詞方法,基于統(tǒng)計的分詞方法,基于知識理解的分詞方法。本文的主要研究內(nèi)容為: (1)分析了當(dāng)前中文分詞的研究背景,介紹了中文分詞的研究意義。只有提高中文分詞系統(tǒng) [2]的準(zhǔn)確率和工作效率,才能使自然語言處理系統(tǒng)穩(wěn)定高效地工作。漢語的詞匯與詞匯之間沒有顯式的邊界,漢語的分詞需要通過計算機對文字內(nèi)容的分析,來達到切分詞匯的目的。分詞技術(shù)作為自然語言處理的基礎(chǔ)環(huán)節(jié),同時也是關(guān)鍵環(huán)節(jié)之一,它的質(zhì)量好壞直接影響到后續(xù)處理步驟的效果。這就要求信息處理技術(shù)必須跟上信息發(fā)展的速度,在速度與性能方面具備更高的指標(biāo)。自 20世紀(jì) 80年代初,中文信息處理領(lǐng)域提出自動分詞以來,相關(guān)方面的眾多專家學(xué)者、科研院所、業(yè)機構(gòu)為之付出了不懈的努力,取得了一些重要的進展和一些實用性的成果,提出了許多中文分詞方法,有些成熟的技術(shù)已經(jīng)應(yīng)用于產(chǎn)品當(dāng)中。將中文連續(xù)的字序列按照一定的規(guī)則重新組合成詞序列的過程,就叫做中文分詞。也就是說,從形式上看,中文沒有“詞 ” 這個單位。我們知道,在英文文本中,單詞之間是以空格作為自然分界符的。 本文討論了中文 分詞的概念、目標(biāo)及其所面臨的一些基本問題,詳細介紹了三種基本中文分詞算法,并對中文分詞詞典的索引及常用詞典結(jié)構(gòu)進行了介紹,最后說了正向最大算法的實現(xiàn)及測試結(jié)果。漢語分詞工作看似細微,但作為計算機自然語言處理的第一步,它的關(guān)鍵作用是不容忽視的。而中文的每一句中,詞與詞之問是沒有空格的,因而必須采用某種技術(shù)將其分開。 特此聲明 畢業(yè)論文(設(shè)計)作者簽名: 年 月 日 I 漢語分詞技術(shù)初探 摘 要 所謂漢語分詞,就是將中文語句中的詞匯切分出來的過程。因本畢業(yè)論文(設(shè)計)引起的法律結(jié)果完全由本人承擔(dān)。 蘭 州 商 學(xué) 院 本科生畢業(yè)論文(設(shè)計) 論文(設(shè)計)題目: 漢語分詞技術(shù)初探 學(xué) 院、 系: 信息工程學(xué)院 計算
點擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1