freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

漢語分詞技術初探計算機科學與技術畢業(yè)論文-wenkub

2022-11-18 19:02:26 本頁面
 

【正文】 際應用都是非常有意義的。這樣的分詞系統(tǒng)如果被用來支持中外文翻譯系統(tǒng),現(xiàn)在假設平均每句語句有 10 個漢語單詞,那么以直前的概率來計算, 10 句語句中就會切分錯 12個詞,含有錯誤分詞的 12 句就不可能被正確翻譯。ojiu) 輕聲 —— 如:桌子( zi) 要處理這些中文特有的由于發(fā)音習慣而引起的分詞問題,一個好的分詞技術顯然是必不可少的。 語音識別、語音合成等。究其根本原因就是因為中文分詞技術的滯后和一些多義詞匯選義的把握。谷歌也是采用的美國 Basis technology 提供的中文分詞技術。 雅虎中文網(wǎng)頁搜索技術部總監(jiān)張勤認為:中文 分詞是中文搜索技術的基礎,只有做好了分詞,才能有好的搜索。 中文分詞的應用 互聯(lián)網(wǎng)絕大部分需要分詞,其中典型的實例有: ( 1)漢字處理。詞是漢語中最小的有 意義的獨立單位,但是這最小的單位卻是沒有顯式分割的。但是在中文中,“乒乓球拍賣完了”則因為乒乓球和乒乓球拍、賣與拍賣都是詞語而又沒有明顯分隔而產(chǎn)生了:“乒乓球 /拍賣 /完了”和“乒乓球拍 /賣 /完了”兩種完全不同的意義。所以,雖然 4 在英語中也存在分詞問題,但遠沒有中文分詞那么復雜苦難。分詞只是中文信息處理的一部分,分詞本身并不是目的,而是后續(xù)處理過程的必要階段,是中文信息處理的基礎技術。此部分總結(jié)論文的所有工作,分析論文中存在的不足和一些未解決的問題。本章首先介紹了中文分詞技術中的索引方法,然后又介紹了目前中文分詞技術中常用的詞典機制。本章首先介紹了中文分詞的基本概念、中文分詞的應用,接著介紹了中文分詞系統(tǒng)的目標、中文分詞的基本問題等。 (5)對正向最大匹配算法進行了實現(xiàn)與測試。 (2)對中文分詞技術進行了簡介,簡單介紹了中文分詞、中文分詞的應用、中文分詞系統(tǒng)的目標、中文分詞的基本問題。中文分詞已成為計算機處理漢語面臨的首要基礎性 工作。 要讓計算機能夠自動地處理信息就必須借助分詞技術讓計算機理解自 2 然語言。 作為中 文信息處理基礎的中文分詞技術,己經(jīng)被廣泛應用于中文信息領域的信息檢索、自動摘要、中文校對、漢字的智能輸入、漢字簡繁體轉(zhuǎn)換、機器翻譯、語音合成等技術中。中文和英文比起來,有其自身的特點,就是中文以字為基本書寫單位,句子和段落通過分界符來劃界,但是詞語之間沒有一個形式上分界符。如今漢語分詞己成為自然語言處理的研究熱點與難點。由于漢語的書寫習慣,漢語語句中詞與詞之間的標志是隱含的,英文的單詞與單詞之間有空格,所以不存在分詞問題。對本論文(設計)的研究做出重要貢獻的個人和集體,均已在文中以明確方式標明。因本畢業(yè)論文(設計)引起的法律結(jié)果完全由本人承擔。而中文的每一句中,詞與詞之問是沒有空格的,因而必須采用某種技術將其分開。 本文討論了中文 分詞的概念、目標及其所面臨的一些基本問題,詳細介紹了三種基本中文分詞算法,并對中文分詞詞典的索引及常用詞典結(jié)構進行了介紹,最后說了正向最大算法的實現(xiàn)及測試結(jié)果。也就是說,從形式上看,中文沒有“詞 ” 這個單位。自 20世紀 80年代初,中文信息處理領域提出自動分詞以來,相關方面的眾多專家學者、科研院所、業(yè)機構為之付出了不懈的努力,取得了一些重要的進展和一些實用性的成果,提出了許多中文分詞方法,有些成熟的技術已經(jīng)應用于產(chǎn)品當中。分詞技術作為自然語言處理的基礎環(huán)節(jié),同時也是關鍵環(huán)節(jié)之一,它的質(zhì)量好壞直接影響到后續(xù)處理步驟的效果。只有提高中文分詞系統(tǒng) [2]的準確率和工作效率,才能使自然語言處理系統(tǒng)穩(wěn)定高效地工作。 (3)研究了三類基本的分詞算法:基于字符串匹配的分詞方法,基于統(tǒng)計的分詞方法,基于知識理解的分詞方法。 相對于研究內(nèi)容,本文的結(jié)構安排為: 第一章 引言。 3 第三章 基本中文分詞算法。 第五章 正向最大匹配算法的實現(xiàn)。 二、中文分詞簡介 中文分詞是中文信息處理技術中最基礎、最關鍵的一個環(huán)節(jié)。 什么是 中文分詞 分詞就是利用計算機識別出文本中詞匯的過程。 比如: The table tennis bat is sold out。所以,要讓計算機完成上述過程,相對于英語,難度有質(zhì)的不同。若要使計算機與人類達到自由無障礙的語言交互,就必須讓計算機能理解自然語言。這方面主要包括拼音輸入法、手寫識別、簡繁轉(zhuǎn)換等??梢姡莆樟藘?yōu)秀的分詞技術就可以在中文搜索中占有一席之地。 ( 3)內(nèi)容分析。 中文分詞的其中一個重要功能就是為詞語的計量分析,詞頻的統(tǒng)計提供可靠的依據(jù),比如漢語中最常用的詞是哪個。 由于漢語中的多音字、一些發(fā)音習慣使得語音識別和合成過程中需要一個可靠地中文分詞作為基礎。 ( 二 ) 中文分詞的目標 中文分詞系統(tǒng)的目標為達到信息處理的需求,達到所要求的相應水平,具體來說,主要是準確、高效、通用及適用四個方面。于是僅僅因為分詞系統(tǒng)的準確率欠佳,中外文翻譯系統(tǒng)的翻譯 準確率就降低了 1020 個百分點。 運行效率 分詞是各種漢語處理應用系統(tǒng)中共同的、基礎性的工作,這步工作消耗的時間應盡量少,應只占上層處理所需時間的一 小部分,并應使用戶沒有等待的感覺,在普遍使用的平臺上大約每秒鐘處理 l 萬字或 5 千詞以上為宜。為了做到足夠通用又不過分龐大,必須做到在詞表和處理功能、處理方式上能靈活組合裝卸,有充分可靠和方便的維護能力,有標準的開發(fā)接口。好的分詞系統(tǒng)具有良好的適用性,可以方便地集成在各種各樣的漢語信息處理系統(tǒng)中。 分詞規(guī)范 (1)“詞 ” 是否有清晰的定義 ? 在每本漢語語法教科書中,我們都可以找到對“詞 ” 的這樣一條定義:語言中有意義的能單說或用來造句的最小單位。 ②詞的變形結(jié)構問題:漢語中的動詞和形容詞有些可以產(chǎn)生變形結(jié)構,例如“打牌”、“開心”、“看見”、“相信”可能變形為“打打牌”、“開開心”、“看沒看見 ” 、“相不相信”等。依據(jù)這個標準,“開發(fā)中國第一個操作系統(tǒng)軟件者 ” 、“做出了巨大個人財產(chǎn)和精神犧牲者”、“克 9 服許多困難而最終獲得成功者”內(nèi)部也不能切開,這樣復雜的結(jié)構在本質(zhì)上就與詞的定義相矛盾。 (2)詞頻對領域有一定的敏感性。 ②檢索系統(tǒng),檢索系統(tǒng)的詞典 注重術語和專名,并且一些檢索系統(tǒng)傾向于分詞單位較小化。因此分詞系統(tǒng)的通用性、適應性普遍不足,其分詞結(jié)果很難采用統(tǒng)一的通用的分詞標準來評價。 例:他說的 /確實 /在理。 將來, 學生會 ( 3)混合型歧義 同時包含交集型和組合型歧義。 地面 /積 /了厚厚的雪。如:人名等。在真實的文檔和語料庫中,專有名詞和術語占了很大比例,詞典在多數(shù)情況下很難包括這些詞。按照掃描方向的不同,串匹配分詞算法可以分為正向匹配和逆向匹配 。正向最大匹配分詞又分為增字和減字匹配法 [4]。如果事先知道詞典中最長詞的長度,那么在一開始的匹配中,不用將分割出來的整段語句與詞典匹配,只需要以最長詞的長度為最大切分單位進行切分就可以了。如果將上述各種方法相互組合,例如,可以將正向最大匹配算法和逆向最大匹配算法相結(jié)合來構成雙向匹配法。由于漢語單字成詞的特點,正向最小匹配和逆向最小匹配一般很少使用。實際 使用的分詞系統(tǒng),都是把機械分詞作為一種初分手段,然后通過利用各種其它的語言信息來進一步提高切分的準確率。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度 [4],可以對語料中相鄰共現(xiàn)的各個字的組合的頻度進行統(tǒng)計,計算它們的互現(xiàn)信息。這種方法只需對語料中的字組頻度進行統(tǒng)計,不需要切分詞典,因而又叫做無詞典分詞法或統(tǒng)計取詞方法。 ( 二 ) 根據(jù)具體應用使用合適的分詞算法 在實際應用中,對于某一具體的應用系統(tǒng),并不是單純使用某種分詞算法就能解決問題,我們可以根據(jù)具體應用的所需滿足條件使用不同的方法。例如,對“搜索引擎知識”這句話進行分詞,如果我們的詞典中含有“搜索引擎”這個詞,那么這句話的切分結(jié)果就是“搜索引擎\知識”。同理,假設檢索系統(tǒng)不對用戶輸入的詞進行切分,如果用第二種方法分詞,當一個用戶想要查找包含“搜索引擎”這個關鍵字的相關資源時,同樣也找不到結(jié)果。那么我們可以將“搜索引擎”放入專業(yè)詞典,將“搜索 ” 、“引擎 ” 放入普通詞典。而且是專用詞典先切分,然后將剩余的片斷交由普通詞典來切分。 17 基于字的切分法 現(xiàn)實中,無論一個詞典所包含的詞組有多么齊全,其還是包含不了一些新出現(xiàn)的詞組,所以有些詞在沒有更新新詞的詞典中是分不出來的,尤其在如今的互聯(lián)網(wǎng)中,新詞每天都在出現(xiàn),數(shù)量更是每天都在增長。同樣,二元分詞就是將“ ABCDE” 切分成“ AB\ BC\ CD\ DE”,在這個例子中,就是將一個詞拆成兩兩相連的詞。假設 FGH 與 IJ 是出現(xiàn)在詞典中的字條,ABCDE 是分不出來的詞, 那么對 ABCDE 進行三遍混合分詞, 最終結(jié)果便為“ A\ B\ C\ D\ E\ AB\ BC\ CD\ DE\ ABCDE\ FGH\ IJ” 。 Hash 索引 Hash 函數(shù)是一個映像,其將關鍵字的集合映射到某個地址的集合。我們的思想是基于 Hash 索引的詞典機制就是構造一種 Hash 函數(shù)來計算詞語的 Hash 值,將 Hash 值相同的詞組放入一個通常稱之為“桶 ”的 集合內(nèi)。例如,若關鍵字是數(shù)值,則結(jié)點中只包含一個數(shù)位;若關鍵字是英文單詞,則結(jié)點中只包含 一個英文字母。 ( 二 ) 常用詞典結(jié)構 常用的主要詞典結(jié)構主要有以下 3 種 [8]: 有序線性詞典結(jié)構 如表 1 所示,這是最簡單的詞典結(jié)構,詞典正文是以詞為單位的有序表,初始化時讀取到內(nèi)存中,詞典正文中通過整詞二分進行定位。 表 1 有序線性詞典結(jié)構 一一 一一說明 一一對應 一一道來 一丁不視 ?? 基于整詞二分的分詞詞典結(jié)構 如圖 1 所示,該機制的詞典結(jié)構分為詞典正文、詞索引表、首字散列表等三級?;?TRIE 索引樹的分詞詞典機制由首字散 列表和 TRIE 索引樹結(jié)點兩部分組成。 ?? 。 這種方法 存在如下缺陷:首先,詞典詞長限制,詞長過短,長詞就會被切錯;詞長過長,查找匹配效率就會比較低。 減字法的流程為:首先讀入一句句子,取出標點符號,這樣句子就被分成相應的若干段,然后對每一段進行詞典的匹配,如果沒有匹配成功就從段末尾減去一個字,再進行匹配,重 復上述過程,直到匹配上詞典上的某個詞組或只剩下一個字符,接著將句子剩余的部分重復上述流程,直到將句子全部分解成原子或詞典中存在的詞組。但是,為了實現(xiàn)最大匹配,我們將把匹配 讀入詞典文件 讀入一個句子 分詞結(jié)果 詞典 開 始 結(jié)束 待切分的臨時變量 匹配失敗,句子減一字,繼續(xù)匹配 匹配成功 23 “中華人民共和國”作為一個整體的詞進行處理。那么實例的整個匹配過程如下表 2 所示: 表 2 實例的匹配步驟 步驟 操作的句子 操作 分詞結(jié)果 1 我們是中華人民共和國的公民 只取 7個字 2 我們是中華人民 詞典匹配失敗 3 我們是中華人 詞典匹配失敗 ?? ?? ?? 我們 詞典匹配成功 我們 是中華人民共和 減詞并取前 7個字 是中華人民共和 詞典匹配失敗 我們 ?? ?? ?? 是 詞典匹配成功 我們 \是 中華人民共和國 減詞并取前 7個字 中華人民共和國 詞典匹配成功 我們 \是 \中華人民共和國 ?? ?? ?? NULL 減詞 我們 \是 \中華人民共和國 \的 \公民 24 ( 二 ) 采用正向最大算法的分詞程序設計 從表 2 可以很清晰的看出減字法工作的過程,我們現(xiàn)在開始用 C 語言實現(xiàn)這個算法。 設有句子 S = C1C2C3? Cn, 詞 Wi =W1W2W3? Wm , 其中 m 為詞典中最長詞的字數(shù) ,對算法的描述如下: (1) 初始化 i,賦值為 0,指針 Pi指向輸入字串的初始位置。 通過上述設計思想對程序進行編寫,本程序使用 C 語言,開發(fā)環(huán)境為Visual Studio 中 Win32 SDK 平臺。 程序主面板如圖 3 所示,其中“分詞”選項中可以選擇是使用屏幕分詞還是使用文件分詞。 26 圖 3 程序主面板 點擊“分詞”菜單中的“文件分詞”選項后會彈出如圖 4所示的對話框,點擊“輸入文件”后的“瀏覽”按鈕,可以選擇待分析的文件,點擊“輸出文件”后的“瀏覽”按鈕可以選擇分詞結(jié)果文件的保存位置。 char * source,* result。 //輸入文件的長度 char scrbuf[MD]。 low=0。 //查找成功 else if(strcmp(tt[mid],aidkey)0) high=mid1。在實際應用中難免會碰到一些較大的文檔,使用屏幕分詞的話需要進行多次操作,這樣很不方便,所以本程序又添加了一種文件分詞功能,可以進行不限大小的分詞,此功能直接對 文件進行分詞操作
點擊復制文檔內(nèi)容
醫(yī)療健康相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1