freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

本科畢業(yè)設(shè)計(jì)-基于字典的中文分詞技術(shù)研究(更新版)

2025-01-24 21:00上一頁面

下一頁面
  

【正文】 存儲,每個結(jié)構(gòu)體應(yīng)該包含這個漢字和其他的漢字的互現(xiàn)頻率,在碰到歧義時,優(yōu)先考慮互現(xiàn)信息度高的一個字段做為最優(yōu)的結(jié)果。但是對于分詞中所涉及的一些關(guān) 鍵問題, 目前 仍然沒有很好的解決方案。全面的詞典建立在大量實(shí)驗(yàn)的基礎(chǔ)上,能應(yīng)對現(xiàn)實(shí)生活中多種多樣,情況復(fù)雜的應(yīng)用。對于基于詞典的分詞系統(tǒng)來說,詞典的查找比較普遍使用的就是二分法及 HASH,尤其對于線形的字典結(jié)構(gòu),好的查找方法可以大大的提高程序的運(yùn)行效率。 但從一些詞典的編撰中 ,我們?nèi)匀豢煽闯鲆恍┥鲜鼋缦揠y以區(qū)分的問題。 圖 分詞結(jié)果和原文 如果還需要分別的文本,只需要再選定路徑,點(diǎn)擊分詞即可。 在 |傳統(tǒng) |產(chǎn)業(yè) |中 |比如 |一個 |人 |操作 |一部 |機(jī)床 |他 |所 |掌握 |的 |技術(shù) |是 |有限 |的 |幾乎不 |變 |的 |而他 |的 |創(chuàng)造性 |的 |發(fā)揮 |也 |基本上 |受到 |機(jī)床 |能力 |的 |局限 |但是 |搞 |藝術(shù) |就 |不同 |了 |比如 |拉 |小提琴 |的 |技巧 |從 |會 |拉 |到 |大師 |其 |水平 |相差 |何止 |十萬八千里 |同一 |架 |小提琴 |初學(xué)者 |拉起 |來 |會 |令人生厭 |而 |大師 |演奏 |出來 |卻能 |使 |聽眾 |陶醉 |癡迷 | 從結(jié)果可以看出可以基本正確的分割詞語。iter!=iter_end。 static string default_excluded_words[12]={ , ,。 L_Word=(prev_pos,prev_pos+C_Length)。pos!=prev_pos。 比如一個句子是: 123456789,(其 中的數(shù)字代表漢字)。 查找匹配 此模塊的中心思想是把要分詞的中文文本分成五個字的單元(因?yàn)樵~典中定義的詞最大長度為五)。 char a[256]。 除了讀入詞典,這個模塊還有一個讀入需要進(jìn)行分詞的文本的功能,此功能的實(shí)現(xiàn)如下: name 即是要打開的文件的名字 。 詞典的存儲結(jié)構(gòu)及 搜索算法是很重要的一個環(huán)節(jié),處理的方式不同程序的運(yùn)行速度和準(zhǔn)確率都會有很大的不同。 關(guān)鍵 算法 系統(tǒng) 要實(shí)現(xiàn)的算法主要 分為三大任務(wù),一是詞典的建立,二是分詞算法的設(shè)計(jì),三是詞典的存儲結(jié)構(gòu)。 6.系統(tǒng)界面設(shè)計(jì) 界面要方便比較,所以要同時顯示原文和分詞后的文本。 武漢工程大學(xué)設(shè)計(jì)(論文)說明書 第 17 頁 第三章 詳細(xì)設(shè)計(jì) 模塊設(shè)計(jì) 根據(jù)第二章總體設(shè)計(jì),本 系統(tǒng)共分為三大模塊:詞典裝載模塊,查找匹配模塊與處理與輸出模塊。 TRIE、逐字二分查詢效率較高,整詞實(shí)現(xiàn)相對簡單,但效率要低一些??梢娊档蜁r間復(fù)雜度應(yīng)從詞典的條目 T 和查找方式 f 同時入手。 準(zhǔn)確率方面則主要應(yīng)該從字典方面入手,盡可能使詞條全面。 RB樹 的統(tǒng)計(jì)性能要好于 一般的 平衡二叉樹 (也稱 AVL樹 ),所以被 STL 選擇作為了關(guān)聯(lián)容器的內(nèi)部結(jié)構(gòu)。 int Mprev_pos 對需要分詞的句子進(jìn)行定位。file_name) 其中 : bool LoadDict(stringamp。 實(shí)現(xiàn)功能框架的函數(shù)定義: SPLIT 部分關(guān)鍵數(shù)據(jù)及結(jié)構(gòu): vectorstring DSDone int Mprev_pos + setstring dict_set + setstring sig_set 前處理 的 部分函數(shù): + bool LoadFile(stringamp。 而且 , 詞典在使用的過程中并不需要動態(tài)的修改,所以不用考慮插入刪除是否方便的問題。 這些功能及其相互關(guān)系如圖所示。同時,本文的研究作為現(xiàn)有的基礎(chǔ),可以繼續(xù)深入下去,作盡可能多的嘗試,試圖為今后的研究工作提出一個比較系統(tǒng)、全面、可持續(xù)的研究方案。 1995 年 12 月,國家科委 組織了 863 智能機(jī)專題自動分詞評測,在開放測試條件下的評測結(jié)果是:分詞精度最高為 %[5]。經(jīng)測試,此系統(tǒng)的分詞錯誤率為 %,速度為 236 字 /秒。 國家語委文字所應(yīng)用句法分析技術(shù)的漢語自動分詞系統(tǒng) 此系統(tǒng)模型考慮了句法分析在自動分詞系統(tǒng)中的作用,以更好地解決切分歧義。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語義信息來對分詞歧義進(jìn)行判斷,即它模擬了人們對句子的理解過程,因此分詞的準(zhǔn)確性較高、效果較好。當(dāng)緊密程度高于某一個閾值時,便可認(rèn)為此字組可能構(gòu)成了一個詞。 主要的分詞技術(shù) 分詞技術(shù)作為一個近 15 年內(nèi)出現(xiàn)的技術(shù),發(fā)展還并不成熟,目前主要的分詞技術(shù)主要包括三類:基于文本(或者字典)方法、基于統(tǒng)計(jì)方法以及統(tǒng)計(jì) /字典混合方法。此外,不僅僅是中文,同樣是亞洲語言的日文,韓文,這些用 UNICODE 表示的語言文字也存在著同樣的問題 [4],所以分詞技術(shù)作為一個具有普遍而重大意義的課題,得到越來越多的學(xué)者和相關(guān)人員的關(guān)注。詞是最小的能夠獨(dú)立活動的有意義的語言成分 , 分詞單位是自然語言信息處理使用的、具有確定的語義或語法功能的基本單位,包括符合各種規(guī)范限定的詞和詞組 [2]。 second, HMM algorithm is used to fast identify 2word vocabulary to improve match speed。首先綜述了 現(xiàn)有中文分詞技術(shù)和分詞系統(tǒng)的發(fā)展現(xiàn)狀及 各自的優(yōu)缺點(diǎn) 。提出了詞典的改進(jìn)存儲結(jié)構(gòu);根據(jù)漢語中二字詞較多的特點(diǎn),通過快速判斷二字詞來優(yōu)化速度;分析了切分歧義處理和未登錄詞處理,提出了適合本系統(tǒng)的自動分詞算法,并給出該系統(tǒng)的具體實(shí)現(xiàn)。 Dictionary Match。 中文分詞即 “用計(jì)算機(jī)對漢語的音、形、義進(jìn)行處理 [3]” 。中文分詞的準(zhǔn)確與否,常常直接影響到對搜索結(jié)果的相關(guān)度排序。常用的幾種機(jī)械分詞方法有正向最大匹配、逆向最大匹配、最少切分(使每一句中切出的詞數(shù)最?。?。 在實(shí)際應(yīng)用中,還可以將上述各種方法相互組合。目前比較優(yōu)秀的中文自動分詞系統(tǒng)主要有 [6]: 武漢工程大學(xué)設(shè)計(jì)(論文)說明書 第 5頁 清華大學(xué) SEG 分詞系統(tǒng) 此系統(tǒng)提供了帶回溯的正向、反向、雙向最大匹配法和全切分 評價切分算法,由用戶來選擇合適的切分算法。一、預(yù)處理模塊,利 用特殊的標(biāo)記將輸入的文本分割成較短的漢字串,這些標(biāo)記包括標(biāo)點(diǎn)符號、數(shù)字、字母等非漢字符,還包括文本中常見的一些字體、字號等排版信息。 Microsoft Research 漢語句法分析器中的自動分詞 微軟研究院的自然語言研究所在從 90 年代初開始開發(fā)了一個通用型的多國語言處理平臺 NLPWin。 應(yīng)該來說,相對于中文分詞存在的客觀困難,這些工作已經(jīng)奠定了中文分詞的良好基礎(chǔ)。第二章針對課題的具體應(yīng)用領(lǐng)域,明確要解決的問題和系統(tǒng)需要實(shí)現(xiàn)的功能,對系統(tǒng)進(jìn)行了總體設(shè)計(jì),并分析了實(shí)現(xiàn)過程中的關(guān)鍵技術(shù)和難點(diǎn)。同時,詞典不能過大也不能太小,過大則使復(fù)雜度增加,過小則影響分詞的準(zhǔn)確率。 功能框架 根據(jù) 前 面 的 功能分析,整個系統(tǒng) 的實(shí)現(xiàn) 也可 以 分為詞典加載模塊 、 文本匹配與分割模塊 以及 后期處理與輸出模塊這三個 模塊 。st) + void Processing () 后處理 的部分 函數(shù) +CString outputing()。st)。 為實(shí)現(xiàn)用戶交互,輸入要匹配的文件,輸出匹配之后的結(jié)果,本設(shè)計(jì)選用了 VC++ 作為系統(tǒng)主界面設(shè)計(jì)工具。 雖然 還有一些更好的 、但實(shí)現(xiàn)起來更復(fù)雜的數(shù)據(jù)結(jié)構(gòu)能夠做到一步旋轉(zhuǎn)之內(nèi)達(dá)到平衡,但紅黑樹能夠給我們一個比較 “ 便宜 ” 的解決方案。 例如, ASM(+, , +)就是正向減字最大匹配法(即 MM方法), ASM(,,+)就是逆向減字最大匹配法 (即 RMM 方法 )等等。由于查詢詞 t 已確定,所以稱“確定詞條查詢”。如一個句子:“王校長基本沒有同學(xué)生會面的時間。 設(shè)計(jì) 概述 1.詞典的編撰 作為一個基于 字典的中文分詞系統(tǒng),首先應(yīng)該具備的就是一個完整的,有一定組織規(guī)則的字典,本系統(tǒng)根據(jù)漢語詞典,專有名詞詞典,人名地名詞典制作了詞典,并利用大量的資料添加了常用的連續(xù)詞。在文件路徑編輯框中顯示要分詞的文件,后面的按鈕應(yīng)用 MFC 標(biāo)準(zhǔn)文件操作框選用文件名。對于這些詞,我們很難窮 舉它們,于是可以從各大網(wǎng)站,報(bào)圖 欲分詞文本的選擇 武漢工程大學(xué)設(shè)計(jì)(論文)說明書 第 20 頁 刊上去尋找,利用分詞系統(tǒng)去進(jìn)行分詞,把分詞結(jié)果中復(fù)合詞不能識別的地方紀(jì)錄下來,并進(jìn)行相應(yīng)的添加。\n39。 ((),ios::in)。\n39。其中如果遇到標(biāo)點(diǎn)符號等非中 文字符,那么也將其作為單字處理,等到全部分完后再進(jìn)行去除。 int length=()。 是否為詞 添加入結(jié)果串 減字一個單位 拿出 N 個漢字 是 否 開始 武漢工程大學(xué)設(shè)計(jì)(論文)說明書 第 24 頁 if(flag==1) { (L_Word)。 } 實(shí)現(xiàn)了 5 個字為單位的串的查找。 在分詞過程中已經(jīng)把詞或者單字放入了一個 vector 中,輸出只需對此vector 進(jìn) 行遍歷。 } } return result。武漢工程大學(xué)設(shè)計(jì)(論文)說明書 第 28 頁 其實(shí)人生的路上哪有什么勝利者可言,只有堅(jiān)持與等待而已。 武漢工程大學(xué)設(shè)計(jì)(論文)說明書 第 32 頁 第四章 結(jié)論與展望 全文總結(jié) 本文 對現(xiàn) 有 分詞技術(shù)以及分詞系統(tǒng)進(jìn)行了綜述, 并對分詞系統(tǒng)的實(shí)際實(shí)現(xiàn)進(jìn)行了 研究, 并且應(yīng)用 set 裝載詞典于內(nèi)存,應(yīng)用正向最大匹配方法設(shè)計(jì)了一個初步的分詞系統(tǒng) 。也應(yīng)該包含未登錄詞識別以及一些詞法分析的切分單位, 例如,一些人名、地名、機(jī)構(gòu)名、外國人譯名,應(yīng)予以識別和切分。 系統(tǒng) 評價 本文設(shè)計(jì)的系統(tǒng)全部是作者本人在對中文分詞研究、理解的基礎(chǔ)上自主編寫的一個分詞系統(tǒng)。 運(yùn)行速度比較快,不需要時間等待分詞結(jié)果。從分詞的在中文信息處理系統(tǒng)中的應(yīng)用方面,可以說,已經(jīng) 有了比較顯著的進(jìn)步, 但是 在 拓展其新 應(yīng)用 方面仍然要傾注很大的精力 ,如:自動文摘、漢語文本索引和檢索、漢語語音合成、漢語自然語言接口等。 武漢工程大學(xué)設(shè)計(jì)(論文)說明書 第 36 頁 致 謝 在這次的畢業(yè)設(shè)計(jì)工作中,指導(dǎo)老師 XX 對我給予 了很大的幫助,從開始的資料文獻(xiàn)查找工作,到系統(tǒng)的設(shè)計(jì)與調(diào)試,包括后期的論文撰寫,都給予了很大的支持和幫助。rich, Switzerland, August 1996. [16]PACKARD, Jerome L., editor. 1997. New Approaches to Chinese Word Formation: Morphology, Phonology and the Lexicon in Modern and Ancient Chinese. Mouton de Gruyter, Berlin, 1997.
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1