freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

漢語分詞技術(shù)初探計(jì)算機(jī)科學(xué)與技術(shù)畢業(yè)論文-文庫(kù)吧

2025-10-04 19:02 本頁面


【正文】 ..................................................................... 35 參 考 文 獻(xiàn) .................................................................................................................... 36 致 謝 .............................................................................................................................. 37 1 漢 語分詞技術(shù)初探 一、 引言 在自然語言處理中,詞是最小的能夠獨(dú)立活動(dòng)的有意義的語言成分。我們知道,在英文文本中,單詞之間是以空格作為自然分界符的。中文和英文比起來,有其自身的特點(diǎn),就是中文以字為基本書寫單位,句子和段落通過分界符來劃界,但是詞語之間沒有一個(gè)形式上分界符。也就是說,從形式上看,中文沒有“詞 ” 這個(gè)單位。 因此,進(jìn)行中文的自然語言處理通常都是先將中文文本中的字序列切分為合理的詞序列,然后再在此基礎(chǔ)上進(jìn)行其它分析處理。將中文連續(xù)的字序列按照一定的規(guī)則重新組合成詞序列的過程,就叫做中文分詞。 作為中 文信息處理基礎(chǔ)的中文分詞技術(shù),己經(jīng)被廣泛應(yīng)用于中文信息領(lǐng)域的信息檢索、自動(dòng)摘要、中文校對(duì)、漢字的智能輸入、漢字簡(jiǎn)繁體轉(zhuǎn)換、機(jī)器翻譯、語音合成等技術(shù)中。自 20世紀(jì) 80年代初,中文信息處理領(lǐng)域提出自動(dòng)分詞以來,相關(guān)方面的眾多專家學(xué)者、科研院所、業(yè)機(jī)構(gòu)為之付出了不懈的努力,取得了一些重要的進(jìn)展和一些實(shí)用性的成果,提出了許多中文分詞方法,有些成熟的技術(shù)已經(jīng)應(yīng)用于產(chǎn)品當(dāng)中。但這些分詞方法或多或少都存在著不足之處,比如對(duì)于檢索系統(tǒng),由于近年來信息的多元化、復(fù)雜化,對(duì)信息處理技術(shù)的研究、發(fā)展、應(yīng)用提出了新的挑戰(zhàn),跨越了單 純文本的檢索,例如問答系統(tǒng)必須對(duì)關(guān)鍵字進(jìn)行語義分析與處理。這就要求信息處理技術(shù)必須跟上信息發(fā)展的速度,在速度與性能方面具備更高的指標(biāo)。 要讓計(jì)算機(jī)能夠自動(dòng)地處理信息就必須借助分詞技術(shù)讓計(jì)算機(jī)理解自 2 然語言。分詞技術(shù)作為自然語言處理的基礎(chǔ)環(huán)節(jié),同時(shí)也是關(guān)鍵環(huán)節(jié)之一,它的質(zhì)量好壞直接影響到后續(xù)處理步驟的效果。其中,中文分詞由于中文結(jié)構(gòu)的特點(diǎn),與西方國(guó)家文字相比更難于處理。漢語的詞匯與詞匯之間沒有顯式的邊界,漢語的分詞需要通過計(jì)算機(jī)對(duì)文字內(nèi)容的分析,來達(dá)到切分詞匯的目的。中文分詞已成為計(jì)算機(jī)處理漢語面臨的首要基礎(chǔ)性 工作。只有提高中文分詞系統(tǒng) [2]的準(zhǔn)確率和工作效率,才能使自然語言處理系統(tǒng)穩(wěn)定高效地工作。 本文的主要目標(biāo)是通過對(duì)目前中文分詞關(guān)鍵技術(shù)的研究,設(shè)計(jì)并實(shí)現(xiàn)最大正向匹配算法。本文的主要研究?jī)?nèi)容為: (1)分析了當(dāng)前中文分詞的研究背景,介紹了中文分詞的研究意義。 (2)對(duì)中文分詞技術(shù)進(jìn)行了簡(jiǎn)介,簡(jiǎn)單介紹了中文分詞、中文分詞的應(yīng)用、中文分詞系統(tǒng)的目標(biāo)、中文分詞的基本問題。 (3)研究了三類基本的分詞算法:基于字符串匹配的分詞方法,基于統(tǒng)計(jì)的分詞方法,基于知識(shí)理解的分詞方法。舉例說明了實(shí)際應(yīng)用中如何使用合適的分詞算 法。 (4) 介紹了目前中文分詞技術(shù)中常用的索引方法和詞典機(jī)制。 (5)對(duì)正向最大匹配算法進(jìn)行了實(shí)現(xiàn)與測(cè)試。 相對(duì)于研究?jī)?nèi)容,本文的結(jié)構(gòu)安排為: 第一章 引言。本章首先介紹了本文的研究背景和研究意義,然后介紹了本文的主要工作和論文的結(jié)構(gòu)安排。 第二章 中文分詞簡(jiǎn)介。本章首先介紹了中文分詞的基本概念、中文分詞的應(yīng)用,接著介紹了中文分詞系統(tǒng)的目標(biāo)、中文分詞的基本問題等。 3 第三章 基本中文分詞算法。本章首先介紹了常用的中文分詞算法,包括基于字符串匹配的分詞方法,基于統(tǒng)計(jì)的分詞方法,基于知識(shí)理解的分詞方法;然后舉例 說明了實(shí)際應(yīng)用中如何使用合適的分詞算法。 第四章 中文分詞詞典。本章首先介紹了中文分詞技術(shù)中的索引方法,然后又介紹了目前中文分詞技術(shù)中常用的詞典機(jī)制。 第五章 正向最大匹配算法的實(shí)現(xiàn)。本章根據(jù)正向最大匹配算法的流程,編寫了采用正向最大匹配算法的分詞程序,并對(duì)程序進(jìn)行介紹和測(cè)試。 第六章 結(jié)論。此部分總結(jié)論文的所有工作,分析論文中存在的不足和一些未解決的問題。 二、中文分詞簡(jiǎn)介 中文分詞是中文信息處理技術(shù)中最基礎(chǔ)、最關(guān)鍵的一個(gè)環(huán)節(jié)。所謂分詞,就是把一個(gè)句子中的詞匯按照使用時(shí)的意義切分出來。 (一) 中文分詞的 概念 將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程被稱為分詞;中文分詞就是把中文的漢字序列分成有意義的詞。分詞只是中文信息處理的一部分,分詞本身并不是目的,而是后續(xù)處理過程的必要階段,是中文信息處理的基礎(chǔ)技術(shù)。 什么是 中文分詞 分詞就是利用計(jì)算機(jī)識(shí)別出文本中詞匯的過程。在英文中,詞匯之間一般會(huì)有空格等比較明顯的分隔符。而中文中,是以字為基本書寫單位,只有段與段、句語句之間有分隔符,而詞匯之間沒有分隔符。所以,雖然 4 在英語中也存在分詞問題,但遠(yuǎn)沒有中文分詞那么復(fù)雜苦難。 比如: The table tennis bat is sold out。中文意思就是乒乓球拍 賣完了。對(duì)于通過空格和標(biāo)點(diǎn)來切分的英語例句,一般不會(huì)產(chǎn)生歧義。但是在中文中,“乒乓球拍賣完了”則因?yàn)槠古仪蚝推古仪蚺?、賣與拍賣都是詞語而又沒有明顯分隔而產(chǎn)生了:“乒乓球 /拍賣 /完了”和“乒乓球拍 /賣 /完了”兩種完全不同的意義。所以,要讓計(jì)算機(jī)完成上述過程,相對(duì)于英語,難度有質(zhì)的不同。 中文分詞的過程,就是要把一句話中有意義的詞匯都切分出來,并給出所有正確結(jié)果。由于中文詞匯中間是有分隔符的,所以對(duì)中文詞組的正確識(shí)別就顯得很重要。詞是漢語中最小的有 意義的獨(dú)立單位,但是這最小的單位卻是沒有顯式分割的。若要使計(jì)算機(jī)與人類達(dá)到自由無障礙的語言交互,就必須讓計(jì)算機(jī)能理解自然語言。只有當(dāng)漢字串組成的句子被準(zhǔn)確地轉(zhuǎn)化為詞之后,才能繼續(xù)進(jìn)一步工作。比如一個(gè)中英翻譯系統(tǒng),如果連詞匯都不能正確切分,翻譯得到的英文是不可能符合原義的。 中文分詞的應(yīng)用 互聯(lián)網(wǎng)絕大部分需要分詞,其中典型的實(shí)例有: ( 1)漢字處理。這方面主要包括拼音輸入法、手寫識(shí)別、簡(jiǎn)繁轉(zhuǎn)換等。 ( 2)信息檢索。如 Google、 Baidu、 Yahoo 等檢索工具。 雅虎中文網(wǎng)頁搜索技術(shù)部總監(jiān)張勤認(rèn)為:中文 分詞是中文搜索技術(shù)的基礎(chǔ),只有做好了分詞,才能有好的搜索。可見,掌握了優(yōu)秀的分詞技術(shù)就可以在中文搜索中占有一席之地。 眾多優(yōu)秀的搜索引擎都有自己的分詞技術(shù)。如雅虎、百度,都是使用 5 自己開發(fā)的分詞技術(shù)。谷歌也是采用的美國(guó) Basis technology 提供的中文分詞技術(shù)。 ( 3)內(nèi)容分析。這方面主要包括了機(jī)器翻譯、廣告推薦、內(nèi)容監(jiān)控等。 現(xiàn)在的翻譯技術(shù),無論是在線的還是單機(jī)的,在翻譯句子或段落的時(shí)候總會(huì)讓我們不知所措,語法錯(cuò)誤明顯,詞不達(dá)意等等。究其根本原因就是因?yàn)橹形姆衷~技術(shù)的滯后和一些多義詞匯選義的把握。 中文分詞的其中一個(gè)重要功能就是為詞語的計(jì)量分析,詞頻的統(tǒng)計(jì)提供可靠的依據(jù),比如漢語中最常用的詞是哪個(gè)。這使我們可以做一些廣告推薦(哪些廣告被更多次的提起)等。 ( 4)語音處理。 語音識(shí)別、語音合成等。 由于漢語中的多音字、一些發(fā)音習(xí)慣使得語音識(shí)別和合成過程中需要一個(gè)可靠地中文分詞作為基礎(chǔ)。比如: 發(fā)音的不同 —— 如:的( dē),目的( d236。) 變聲 —— 如:好酒( hǎojiuh225。ojiu) 輕聲 —— 如:桌子( zi) 要處理這些中文特有的由于發(fā)音習(xí)慣而引起的分詞問題,一個(gè)好的分詞技術(shù)顯然是必不可少的。 ( 二 ) 中文分詞的目標(biāo) 中文分詞系統(tǒng)的目標(biāo)為達(dá)到信息處理的需求,達(dá)到所要求的相應(yīng)水平,具體來說,主要是準(zhǔn)確、高效、通用及適用四個(gè)方面。 6 準(zhǔn)確性 準(zhǔn)確率是分詞系統(tǒng)性能中最重要的核心指標(biāo)?,F(xiàn)有的分詞系統(tǒng)中,有些準(zhǔn)確率已達(dá)到 98%一 99%,光從數(shù)據(jù)上看似乎已經(jīng)相當(dāng)高了,其實(shí)不然。這樣的分詞系統(tǒng)如果被用來支持中外文翻譯系統(tǒng),現(xiàn)在假設(shè)平均每句語句有 10 個(gè)漢語單詞,那么以直前的概率來計(jì)算, 10 句語句中就會(huì)切分錯(cuò) 12個(gè)詞,含有錯(cuò)誤分詞的 12 句就不可能被正確翻譯。于是僅僅因?yàn)榉衷~系統(tǒng)的準(zhǔn)確率欠佳,中外文翻譯系統(tǒng)的翻譯 準(zhǔn)確率就降低了 1020 個(gè)百分點(diǎn)。進(jìn)一步分析,對(duì)自動(dòng)分詞來說,其更大的作用是對(duì)大規(guī)模語料庫(kù)進(jìn)行加工,從而為上層應(yīng)用系統(tǒng)提供統(tǒng)計(jì)數(shù)據(jù)和各種知識(shí)。如果分詞產(chǎn)生錯(cuò)誤則會(huì)在最后的統(tǒng)計(jì)結(jié)果中累積起不可忽視的“垃圾”,從而給上層的應(yīng)用系統(tǒng)帶來相當(dāng)嚴(yán)重的影響。由此可見,分詞系統(tǒng)的準(zhǔn)確率應(yīng)當(dāng)達(dá)到 99. 9%以上,這樣才能基本滿足上層的使用要求,換句話說,即使提高千分之一的準(zhǔn)確度,對(duì)實(shí)際應(yīng)用都是非常有意義的。 運(yùn)行效率 分詞是各種漢語處理應(yīng)用系統(tǒng)中共同的、基礎(chǔ)性的工作,這步工作消耗的時(shí)間應(yīng)盡量少,應(yīng)只占上層處理所需時(shí)間的一 小部分,并應(yīng)使用戶沒有等待的感覺,在普遍使用的平臺(tái)上大約每秒鐘處理 l 萬字或 5 千詞以上為宜。 通用性 隨著互聯(lián)網(wǎng)的普及應(yīng)用,中文平臺(tái)的處理能力不能僅限于我國(guó),僅限于字處理,僅限于日常應(yīng)用領(lǐng)域。作為各種高層次中文處理的共同基礎(chǔ), 7 自動(dòng)分詞系統(tǒng)必須具有很好的通用性。 ( 1)中文自動(dòng)分詞系統(tǒng)應(yīng)支持不同地區(qū) (包括中國(guó)香港、澳門、臺(tái)灣,以及新加坡和澳洲、歐洲、美洲的華語社區(qū) )的中文字符處理; ( 2)中文自動(dòng)分詞系統(tǒng)應(yīng)能適應(yīng)不同地區(qū)的不同用字、用詞,不同的語言風(fēng)格,不同的專名構(gòu)成方式 (如港澳臺(tái)地區(qū)一些婦女名前冠夫姓,外 國(guó)人名地名的漢譯方式與我國(guó)人名地名很不一樣 )等; ( 3)中文自動(dòng)分詞系統(tǒng)應(yīng)能支持不同的應(yīng)用目標(biāo),包括各種輸入方式、簡(jiǎn)繁轉(zhuǎn)換、語音合成、校對(duì)、翻譯、檢索、文摘等等:支持不同領(lǐng)域的應(yīng)用,包括社會(huì)科學(xué)、自然科學(xué)和技術(shù),以及日常交際、新聞、辦公等等; ( 4)中文自動(dòng)分詞系統(tǒng)應(yīng)當(dāng)同現(xiàn)在的鍵盤輸入系統(tǒng)一樣成為中文平臺(tái)的組成部分。為了做到足夠通用又不過分龐大,必須做到在詞表和處理功能、處理方式上能靈活組合裝卸,有充分可靠和方便的維護(hù)能力,有標(biāo)準(zhǔn)的開發(fā)接口。同時(shí),系統(tǒng)還應(yīng)該具有良好的可移植性,能夠方便地從一個(gè)系統(tǒng)平臺(tái)移植到 另一個(gè)系統(tǒng)平臺(tái)上而無需很多的修改。當(dāng)然,就當(dāng)今的現(xiàn)狀來說,完全的通用性很難達(dá)到。 適用性 中文自動(dòng)分詞只是手段而不是最終目的,任何分詞系統(tǒng)產(chǎn)生的結(jié)果都是為某個(gè)具體的應(yīng)用服務(wù)的。好的分詞系統(tǒng)具有良好的適用性,可以方便地集成在各種各樣的漢語信息處理系統(tǒng)中。 ( 三 ) 中文分詞的基本問題 我們可以看出,中文分詞技術(shù)必然是以后計(jì)算機(jī)發(fā)展必不可少的一項(xiàng) 8 技術(shù)。但現(xiàn)在此技術(shù)在經(jīng)過了近 30 年的研究,仍存在諸多不足。而這主要是由于中文分詞有很多難點(diǎn)難以兼顧,總體歸納起來,中文分詞主要有三大困難:分詞規(guī)范、歧義識(shí)別以及未登錄詞 。 分詞規(guī)范 (1)“詞 ” 是否有清晰的定義 ? 在每本漢語語法教科書中,我們都可以找到對(duì)“詞 ” 的這樣一條定義:語言中有意義的能單說或用來造句的最小單位。這個(gè)定義相當(dāng)抽象,從計(jì)算的層面上講,這種模棱兩可的定義是不可計(jì)算的,即不可操作的。而產(chǎn)生如此定義涉及多個(gè)方面 [3]: ①核心詞典問題:在進(jìn)行分詞時(shí)需要有一個(gè)核心 (通用的、與領(lǐng)域無關(guān)的 )詞典,即普通詞典,凡在該詞典中存在的詞,在分詞時(shí)就應(yīng)該切分出來。但是應(yīng)該將哪些詞組收入到核心詞典中去,雖然已經(jīng)提出各種收詞的條件,但是對(duì)每個(gè)詞組按照這些條件的進(jìn)行判斷卻難以 操作,因此目前還沒有合理的可操作的理論和標(biāo)準(zhǔn)。 ②詞的變形結(jié)構(gòu)問題:漢語中的動(dòng)詞和形容詞有些可以產(chǎn)生變形結(jié)構(gòu),例如“打牌”、“開心”、“看見”、“相信”可能變形為“打打牌”、“開開心”、“看沒看見 ” 、“相不相信”等。在對(duì)變形結(jié)構(gòu)進(jìn)行切分時(shí),如果切分出“打打\牌”、“開開\心 ” 就不怎么合理,“看\沒\看見 ” 還說得過去,但“相\不\相信 ” 就說不過去了。在進(jìn)行中文分詞時(shí),對(duì)這些變形結(jié)構(gòu)的切分缺少可操作的、合理的規(guī)范。 ③詞綴的問題:例如語素“者”在現(xiàn)代漢語中單獨(dú)使用是沒有意義的,因此“作者”、“成功者”、“開發(fā)者 ”內(nèi)部不能切開。依據(jù)這個(gè)標(biāo)準(zhǔn),“開發(fā)中國(guó)第一個(gè)操作系統(tǒng)軟件者 ” 、“做出了巨大個(gè)人財(cái)產(chǎn)和精神犧牲者”、“克 9 服許多困難而最終獲得成功者”內(nèi)部也不能切開,這樣復(fù)雜的結(jié)構(gòu)在本質(zhì)上就與詞的定義相矛盾。又如職務(wù)名稱“外交部長(zhǎng) ” ,語義上理解為“外交部之長(zhǎng)”,切成“外交\部長(zhǎng)”、“外交部\長(zhǎng) ” 、“外交\部\長(zhǎng) ” 或不予切分,都會(huì)有人提出異議。 ④非詞語素問題:現(xiàn)代的書面漢語并非純粹的“現(xiàn)代漢語”,其中夾雜著不少文言成分,如“為民除害”、“以逸待勞”、“幫困濟(jì)窮”等等。探尋白話文中夾雜文言成分的規(guī)律,是中文信息處理需要解決的一 大問題。 (2)詞頻對(duì)領(lǐng)域有一定的敏感性。即使一些統(tǒng)計(jì)信息是從精心挑選的“平衡語料庫(kù)”中計(jì)算而來,將之應(yīng)用于不同領(lǐng)域也會(huì)產(chǎn)生偏移,從而導(dǎo)致切分過程中切分的精度下降。而且不同目標(biāo)的應(yīng)用對(duì)詞的切分規(guī)范的要求又有所不同,理論上講漢語自動(dòng)分詞規(guī)范,作為規(guī)范,那么必須支持各種不同目標(biāo)的應(yīng)用,但不同目標(biāo)的應(yīng)用對(duì)詞的要求是不同的,甚至是有矛盾的。 ①以詞為單位的鍵盤輸入系統(tǒng),為了提高輸
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1