freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

漢語分詞技術(shù)初探計(jì)算機(jī)科學(xué)與技術(shù)畢業(yè)論文-wenkub

2022-11-18 19:02:26 本頁面
 

【正文】 際應(yīng)用都是非常有意義的。這樣的分詞系統(tǒng)如果被用來支持中外文翻譯系統(tǒng),現(xiàn)在假設(shè)平均每句語句有 10 個(gè)漢語單詞,那么以直前的概率來計(jì)算, 10 句語句中就會(huì)切分錯(cuò) 12個(gè)詞,含有錯(cuò)誤分詞的 12 句就不可能被正確翻譯。ojiu) 輕聲 —— 如:桌子( zi) 要處理這些中文特有的由于發(fā)音習(xí)慣而引起的分詞問題,一個(gè)好的分詞技術(shù)顯然是必不可少的。 語音識(shí)別、語音合成等。究其根本原因就是因?yàn)橹形姆衷~技術(shù)的滯后和一些多義詞匯選義的把握。谷歌也是采用的美國 Basis technology 提供的中文分詞技術(shù)。 雅虎中文網(wǎng)頁搜索技術(shù)部總監(jiān)張勤認(rèn)為:中文 分詞是中文搜索技術(shù)的基礎(chǔ),只有做好了分詞,才能有好的搜索。 中文分詞的應(yīng)用 互聯(lián)網(wǎng)絕大部分需要分詞,其中典型的實(shí)例有: ( 1)漢字處理。詞是漢語中最小的有 意義的獨(dú)立單位,但是這最小的單位卻是沒有顯式分割的。但是在中文中,“乒乓球拍賣完了”則因?yàn)槠古仪蚝推古仪蚺?、賣與拍賣都是詞語而又沒有明顯分隔而產(chǎn)生了:“乒乓球 /拍賣 /完了”和“乒乓球拍 /賣 /完了”兩種完全不同的意義。所以,雖然 4 在英語中也存在分詞問題,但遠(yuǎn)沒有中文分詞那么復(fù)雜苦難。分詞只是中文信息處理的一部分,分詞本身并不是目的,而是后續(xù)處理過程的必要階段,是中文信息處理的基礎(chǔ)技術(shù)。此部分總結(jié)論文的所有工作,分析論文中存在的不足和一些未解決的問題。本章首先介紹了中文分詞技術(shù)中的索引方法,然后又介紹了目前中文分詞技術(shù)中常用的詞典機(jī)制。本章首先介紹了中文分詞的基本概念、中文分詞的應(yīng)用,接著介紹了中文分詞系統(tǒng)的目標(biāo)、中文分詞的基本問題等。 (5)對(duì)正向最大匹配算法進(jìn)行了實(shí)現(xiàn)與測試。 (2)對(duì)中文分詞技術(shù)進(jìn)行了簡介,簡單介紹了中文分詞、中文分詞的應(yīng)用、中文分詞系統(tǒng)的目標(biāo)、中文分詞的基本問題。中文分詞已成為計(jì)算機(jī)處理漢語面臨的首要基礎(chǔ)性 工作。 要讓計(jì)算機(jī)能夠自動(dòng)地處理信息就必須借助分詞技術(shù)讓計(jì)算機(jī)理解自 2 然語言。 作為中 文信息處理基礎(chǔ)的中文分詞技術(shù),己經(jīng)被廣泛應(yīng)用于中文信息領(lǐng)域的信息檢索、自動(dòng)摘要、中文校對(duì)、漢字的智能輸入、漢字簡繁體轉(zhuǎn)換、機(jī)器翻譯、語音合成等技術(shù)中。中文和英文比起來,有其自身的特點(diǎn),就是中文以字為基本書寫單位,句子和段落通過分界符來劃界,但是詞語之間沒有一個(gè)形式上分界符。如今漢語分詞己成為自然語言處理的研究熱點(diǎn)與難點(diǎn)。由于漢語的書寫習(xí)慣,漢語語句中詞與詞之間的標(biāo)志是隱含的,英文的單詞與單詞之間有空格,所以不存在分詞問題。對(duì)本論文(設(shè)計(jì))的研究做出重要貢獻(xiàn)的個(gè)人和集體,均已在文中以明確方式標(biāo)明。因本畢業(yè)論文(設(shè)計(jì))引起的法律結(jié)果完全由本人承擔(dān)。而中文的每一句中,詞與詞之問是沒有空格的,因而必須采用某種技術(shù)將其分開。 本文討論了中文 分詞的概念、目標(biāo)及其所面臨的一些基本問題,詳細(xì)介紹了三種基本中文分詞算法,并對(duì)中文分詞詞典的索引及常用詞典結(jié)構(gòu)進(jìn)行了介紹,最后說了正向最大算法的實(shí)現(xiàn)及測試結(jié)果。也就是說,從形式上看,中文沒有“詞 ” 這個(gè)單位。自 20世紀(jì) 80年代初,中文信息處理領(lǐng)域提出自動(dòng)分詞以來,相關(guān)方面的眾多專家學(xué)者、科研院所、業(yè)機(jī)構(gòu)為之付出了不懈的努力,取得了一些重要的進(jìn)展和一些實(shí)用性的成果,提出了許多中文分詞方法,有些成熟的技術(shù)已經(jīng)應(yīng)用于產(chǎn)品當(dāng)中。分詞技術(shù)作為自然語言處理的基礎(chǔ)環(huán)節(jié),同時(shí)也是關(guān)鍵環(huán)節(jié)之一,它的質(zhì)量好壞直接影響到后續(xù)處理步驟的效果。只有提高中文分詞系統(tǒng) [2]的準(zhǔn)確率和工作效率,才能使自然語言處理系統(tǒng)穩(wěn)定高效地工作。 (3)研究了三類基本的分詞算法:基于字符串匹配的分詞方法,基于統(tǒng)計(jì)的分詞方法,基于知識(shí)理解的分詞方法。 相對(duì)于研究內(nèi)容,本文的結(jié)構(gòu)安排為: 第一章 引言。 3 第三章 基本中文分詞算法。 第五章 正向最大匹配算法的實(shí)現(xiàn)。 二、中文分詞簡介 中文分詞是中文信息處理技術(shù)中最基礎(chǔ)、最關(guān)鍵的一個(gè)環(huán)節(jié)。 什么是 中文分詞 分詞就是利用計(jì)算機(jī)識(shí)別出文本中詞匯的過程。 比如: The table tennis bat is sold out。所以,要讓計(jì)算機(jī)完成上述過程,相對(duì)于英語,難度有質(zhì)的不同。若要使計(jì)算機(jī)與人類達(dá)到自由無障礙的語言交互,就必須讓計(jì)算機(jī)能理解自然語言。這方面主要包括拼音輸入法、手寫識(shí)別、簡繁轉(zhuǎn)換等??梢?,掌握了優(yōu)秀的分詞技術(shù)就可以在中文搜索中占有一席之地。 ( 3)內(nèi)容分析。 中文分詞的其中一個(gè)重要功能就是為詞語的計(jì)量分析,詞頻的統(tǒng)計(jì)提供可靠的依據(jù),比如漢語中最常用的詞是哪個(gè)。 由于漢語中的多音字、一些發(fā)音習(xí)慣使得語音識(shí)別和合成過程中需要一個(gè)可靠地中文分詞作為基礎(chǔ)。 ( 二 ) 中文分詞的目標(biāo) 中文分詞系統(tǒng)的目標(biāo)為達(dá)到信息處理的需求,達(dá)到所要求的相應(yīng)水平,具體來說,主要是準(zhǔn)確、高效、通用及適用四個(gè)方面。于是僅僅因?yàn)榉衷~系統(tǒng)的準(zhǔn)確率欠佳,中外文翻譯系統(tǒng)的翻譯 準(zhǔn)確率就降低了 1020 個(gè)百分點(diǎn)。 運(yùn)行效率 分詞是各種漢語處理應(yīng)用系統(tǒng)中共同的、基礎(chǔ)性的工作,這步工作消耗的時(shí)間應(yīng)盡量少,應(yīng)只占上層處理所需時(shí)間的一 小部分,并應(yīng)使用戶沒有等待的感覺,在普遍使用的平臺(tái)上大約每秒鐘處理 l 萬字或 5 千詞以上為宜。為了做到足夠通用又不過分龐大,必須做到在詞表和處理功能、處理方式上能靈活組合裝卸,有充分可靠和方便的維護(hù)能力,有標(biāo)準(zhǔn)的開發(fā)接口。好的分詞系統(tǒng)具有良好的適用性,可以方便地集成在各種各樣的漢語信息處理系統(tǒng)中。 分詞規(guī)范 (1)“詞 ” 是否有清晰的定義 ? 在每本漢語語法教科書中,我們都可以找到對(duì)“詞 ” 的這樣一條定義:語言中有意義的能單說或用來造句的最小單位。 ②詞的變形結(jié)構(gòu)問題:漢語中的動(dòng)詞和形容詞有些可以產(chǎn)生變形結(jié)構(gòu),例如“打牌”、“開心”、“看見”、“相信”可能變形為“打打牌”、“開開心”、“看沒看見 ” 、“相不相信”等。依據(jù)這個(gè)標(biāo)準(zhǔn),“開發(fā)中國第一個(gè)操作系統(tǒng)軟件者 ” 、“做出了巨大個(gè)人財(cái)產(chǎn)和精神犧牲者”、“克 9 服許多困難而最終獲得成功者”內(nèi)部也不能切開,這樣復(fù)雜的結(jié)構(gòu)在本質(zhì)上就與詞的定義相矛盾。 (2)詞頻對(duì)領(lǐng)域有一定的敏感性。 ②檢索系統(tǒng),檢索系統(tǒng)的詞典 注重術(shù)語和專名,并且一些檢索系統(tǒng)傾向于分詞單位較小化。因此分詞系統(tǒng)的通用性、適應(yīng)性普遍不足,其分詞結(jié)果很難采用統(tǒng)一的通用的分詞標(biāo)準(zhǔn)來評(píng)價(jià)。 例:他說的 /確實(shí) /在理。 將來, 學(xué)生會(huì) ( 3)混合型歧義 同時(shí)包含交集型和組合型歧義。 地面 /積 /了厚厚的雪。如:人名等。在真實(shí)的文檔和語料庫中,專有名詞和術(shù)語占了很大比例,詞典在多數(shù)情況下很難包括這些詞。按照掃描方向的不同,串匹配分詞算法可以分為正向匹配和逆向匹配 。正向最大匹配分詞又分為增字和減字匹配法 [4]。如果事先知道詞典中最長詞的長度,那么在一開始的匹配中,不用將分割出來的整段語句與詞典匹配,只需要以最長詞的長度為最大切分單位進(jìn)行切分就可以了。如果將上述各種方法相互組合,例如,可以將正向最大匹配算法和逆向最大匹配算法相結(jié)合來構(gòu)成雙向匹配法。由于漢語單字成詞的特點(diǎn),正向最小匹配和逆向最小匹配一般很少使用。實(shí)際 使用的分詞系統(tǒng),都是把機(jī)械分詞作為一種初分手段,然后通過利用各種其它的語言信息來進(jìn)一步提高切分的準(zhǔn)確率。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語義信息來對(duì)分詞歧義進(jìn)行判斷,即它模擬了人對(duì)句子的理解過程。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度 [4],可以對(duì)語料中相鄰共現(xiàn)的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì),計(jì)算它們的互現(xiàn)信息。這種方法只需對(duì)語料中的字組頻度進(jìn)行統(tǒng)計(jì),不需要切分詞典,因而又叫做無詞典分詞法或統(tǒng)計(jì)取詞方法。 ( 二 ) 根據(jù)具體應(yīng)用使用合適的分詞算法 在實(shí)際應(yīng)用中,對(duì)于某一具體的應(yīng)用系統(tǒng),并不是單純使用某種分詞算法就能解決問題,我們可以根據(jù)具體應(yīng)用的所需滿足條件使用不同的方法。例如,對(duì)“搜索引擎知識(shí)”這句話進(jìn)行分詞,如果我們的詞典中含有“搜索引擎”這個(gè)詞,那么這句話的切分結(jié)果就是“搜索引擎\知識(shí)”。同理,假設(shè)檢索系統(tǒng)不對(duì)用戶輸入的詞進(jìn)行切分,如果用第二種方法分詞,當(dāng)一個(gè)用戶想要查找包含“搜索引擎”這個(gè)關(guān)鍵字的相關(guān)資源時(shí),同樣也找不到結(jié)果。那么我們可以將“搜索引擎”放入專業(yè)詞典,將“搜索 ” 、“引擎 ” 放入普通詞典。而且是專用詞典先切分,然后將剩余的片斷交由普通詞典來切分。 17 基于字的切分法 現(xiàn)實(shí)中,無論一個(gè)詞典所包含的詞組有多么齊全,其還是包含不了一些新出現(xiàn)的詞組,所以有些詞在沒有更新新詞的詞典中是分不出來的,尤其在如今的互聯(lián)網(wǎng)中,新詞每天都在出現(xiàn),數(shù)量更是每天都在增長。同樣,二元分詞就是將“ ABCDE” 切分成“ AB\ BC\ CD\ DE”,在這個(gè)例子中,就是將一個(gè)詞拆成兩兩相連的詞。假設(shè) FGH 與 IJ 是出現(xiàn)在詞典中的字條,ABCDE 是分不出來的詞, 那么對(duì) ABCDE 進(jìn)行三遍混合分詞, 最終結(jié)果便為“ A\ B\ C\ D\ E\ AB\ BC\ CD\ DE\ ABCDE\ FGH\ IJ” 。 Hash 索引 Hash 函數(shù)是一個(gè)映像,其將關(guān)鍵字的集合映射到某個(gè)地址的集合。我們的思想是基于 Hash 索引的詞典機(jī)制就是構(gòu)造一種 Hash 函數(shù)來計(jì)算詞語的 Hash 值,將 Hash 值相同的詞組放入一個(gè)通常稱之為“桶 ”的 集合內(nèi)。例如,若關(guān)鍵字是數(shù)值,則結(jié)點(diǎn)中只包含一個(gè)數(shù)位;若關(guān)鍵字是英文單詞,則結(jié)點(diǎn)中只包含 一個(gè)英文字母。 ( 二 ) 常用詞典結(jié)構(gòu) 常用的主要詞典結(jié)構(gòu)主要有以下 3 種 [8]: 有序線性詞典結(jié)構(gòu) 如表 1 所示,這是最簡單的詞典結(jié)構(gòu),詞典正文是以詞為單位的有序表,初始化時(shí)讀取到內(nèi)存中,詞典正文中通過整詞二分進(jìn)行定位。 表 1 有序線性詞典結(jié)構(gòu) 一一 一一說明 一一對(duì)應(yīng) 一一道來 一丁不視 ?? 基于整詞二分的分詞詞典結(jié)構(gòu) 如圖 1 所示,該機(jī)制的詞典結(jié)構(gòu)分為詞典正文、詞索引表、首字散列表等三級(jí)?;?TRIE 索引樹的分詞詞典機(jī)制由首字散 列表和 TRIE 索引樹結(jié)點(diǎn)兩部分組成。 ?? 。 這種方法 存在如下缺陷:首先,詞典詞長限制,詞長過短,長詞就會(huì)被切錯(cuò);詞長過長,查找匹配效率就會(huì)比較低。 減字法的流程為:首先讀入一句句子,取出標(biāo)點(diǎn)符號(hào),這樣句子就被分成相應(yīng)的若干段,然后對(duì)每一段進(jìn)行詞典的匹配,如果沒有匹配成功就從段末尾減去一個(gè)字,再進(jìn)行匹配,重 復(fù)上述過程,直到匹配上詞典上的某個(gè)詞組或只剩下一個(gè)字符,接著將句子剩余的部分重復(fù)上述流程,直到將句子全部分解成原子或詞典中存在的詞組。但是,為了實(shí)現(xiàn)最大匹配,我們將把匹配 讀入詞典文件 讀入一個(gè)句子 分詞結(jié)果 詞典 開 始 結(jié)束 待切分的臨時(shí)變量 匹配失敗,句子減一字,繼續(xù)匹配 匹配成功 23 “中華人民共和國”作為一個(gè)整體的詞進(jìn)行處理。那么實(shí)例的整個(gè)匹配過程如下表 2 所示: 表 2 實(shí)例的匹配步驟 步驟 操作的句子 操作 分詞結(jié)果 1 我們是中華人民共和國的公民 只取 7個(gè)字 2 我們是中華人民 詞典匹配失敗 3 我們是中華人 詞典匹配失敗 ?? ?? ?? 我們 詞典匹配成功 我們 是中華人民共和 減詞并取前 7個(gè)字 是中華人民共和 詞典匹配失敗 我們 ?? ?? ?? 是 詞典匹配成功 我們 \是 中華人民共和國 減詞并取前 7個(gè)字 中華人民共和國 詞典匹配成功 我們 \是 \中華人民共和國 ?? ?? ?? NULL 減詞 我們 \是 \中華人民共和國 \的 \公民 24 ( 二 ) 采用正向最大算法的分詞程序設(shè)計(jì) 從表 2 可以很清晰的看出減字法工作的過程,我們現(xiàn)在開始用 C 語言實(shí)現(xiàn)這個(gè)算法。 設(shè)有句子 S = C1C2C3? Cn, 詞 Wi =W1W2W3? Wm , 其中 m 為詞典中最長詞的字?jǐn)?shù) ,對(duì)算法的描述如下: (1) 初始化 i,賦值為 0,指針 Pi指向輸入字串的初始位置。 通過上述設(shè)計(jì)思想對(duì)程序進(jìn)行編寫,本程序使用 C 語言,開發(fā)環(huán)境為Visual Studio 中 Win32 SDK 平臺(tái)。 程序主面板如圖 3 所示,其中“分詞”選項(xiàng)中可以選擇是使用屏幕分詞還是使用文件分詞。 26 圖 3 程序主面板 點(diǎn)擊“分詞”菜單中的“文件分詞”選項(xiàng)后會(huì)彈出如圖 4所示的對(duì)話框,點(diǎn)擊“輸入文件”后的“瀏覽”按鈕,可以選擇待分析的文件,點(diǎn)擊“輸出文件”后的“瀏覽”按鈕可以選擇分詞結(jié)果文件的保存位置。 char * source,* result。 //輸入文件的長度 char scrbuf[MD]。 low=0。 //查找成功 else if(strcmp(tt[mid],aidkey)0) high=mid1。在實(shí)際應(yīng)用中難免會(huì)碰到一些較大的文檔,使用屏幕分詞的話需要進(jìn)行多次操作,這樣很不方便,所以本程序又添加了一種文件分詞功能,可以進(jìn)行不限大小的分詞,此功能直接對(duì) 文件進(jìn)行分詞操作
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1