正文內(nèi)容

計算機科學(xué)與技術(shù)畢業(yè)論文漢語分詞技術(shù)分析(編輯修改稿)

2024-11-30 18:02 本頁面

　

【文章內(nèi)容簡介】題：在進行分詞時需要有一個核心 (通用的、與領(lǐng)域無關(guān)的 )詞典，即普通詞典，凡在該詞典中存在的詞，在分詞時就應(yīng)該切分出來。但是應(yīng)該將哪些詞組收入到核心詞典中去，雖然已經(jīng)提出各種收詞的條件，但是對每個詞組按照這些條件的進行判斷卻難以操作，因此目前還沒有合理的可操作的理論和標準。 ②詞的變形結(jié)構(gòu)問題：漢語中的動詞和形容詞有些可以產(chǎn)生變形結(jié)構(gòu)，例如“打牌”、“開心 ” 、“看見 ” 、“相信”可能變形為“打打牌”、“開開心 ” 、“看沒看見 ” 、“相不相信”等。在對變形結(jié)構(gòu)進行切分時，如果切分出“打打＼牌”、“開開＼心 ” 就不怎么合理，“看＼沒＼看見 ” 還說得過去，但“相＼不＼相信 ” 就說不過去了。在進行中文分詞時，對這些變形結(jié)構(gòu)的切分缺少可操作的、合理的規(guī)范。 ③詞綴的問題：例如語素“者”在現(xiàn)代漢語中單獨使用是沒有意義的，因此“作者”、“成功者”、“開發(fā)者”內(nèi)部不能切開。依據(jù)這個標準，“開發(fā)中國第一個操作系統(tǒng)軟件者 ” 、“做出了巨大個人財產(chǎn)和精神犧牲者”、“克 9 服許多困難而最終獲得成功者”內(nèi)部也不能切開，這樣復(fù)雜的結(jié)構(gòu)在本質(zhì)上就與詞的定義相矛盾。又如職務(wù)名稱“外交部長 ” ，語義上理解為“外交部之長”，切成“外交＼部長”、“外交部＼長 ” 、“外交＼部＼長 ” 或不予切分，都會有人提出異議。 ④非詞語素問題：現(xiàn)代的書面漢語并非純粹的 “現(xiàn)代漢語”，其中夾雜著不少文言成分，如“為民除害”、“以逸待勞”、“ 幫困濟窮”等等。探尋白話文中夾雜文言成分的規(guī)律，是中文信息處理需要解決的一大問題。 (2)詞頻對領(lǐng)域有一定的敏感性。即使一些統(tǒng)計信息是從精心挑選的“平衡語料庫 ” 中計算而來，將之應(yīng)用于不同領(lǐng)域也會產(chǎn)生偏移，從而導(dǎo)致切分過程中切分的精度下降。而且不同目標的應(yīng)用對詞的切分規(guī)范的要求又有所不同，理論上講漢語自動分詞規(guī)范，作為規(guī)范，那么必須支持各種不同目標的應(yīng)用，但不同目標的應(yīng)用對詞的要求是不同的，甚至是有矛盾的。 ①以詞為單位的鍵盤輸入系統(tǒng)，為了提高輸入速度，一些互現(xiàn)頻率高的相互鄰接的幾個字也常常作為輸入的單位，比如：“每一 ” 、“再不”、“這就”、“也就 ” 等。 ②檢索系統(tǒng)，檢索系統(tǒng)的詞典注重術(shù)語和專名，并且一些檢索系統(tǒng)傾向于分詞單位較小化。比如，在構(gòu)造倒排文檔及創(chuàng)建索引時把“分布式計算 ” 切成“分布式＼計算 ” ，使得無論用“分布式計算 ” 還是用“分布式 ”檢索，都能查到。上述的兩個實例，前者把不是詞的幾個字放在了一起組成了“詞 ” ，而后者把是詞的卻切分開了。事實上，許多中文信息處理系統(tǒng)，都是根據(jù) 10 自己服務(wù)目的制定適合自己需要的分詞系統(tǒng)。因此分詞系統(tǒng)的通用性、適應(yīng)性普遍不足，其分詞結(jié)果很難采用統(tǒng)一的通用的分詞標準來評價。歧義識別歧義是漢語中普遍存在的問題，因此切分歧義詞也是漢語分詞中的一大難題。形式上相同的一段文字，在不同的場景或語境中，可以切分出不同的結(jié)果，有不同的含義。（ 1）交集型歧義對于漢字串 AJB, AJ, JB 同時成詞。例：他說的 /確實 /在理。他說 /的確 /實在 /理。（ 2）組合型歧義對于漢字串 AB, A, B, AB 皆可獨立成詞。例：門 /把手 /壞 /了，請 /把 /手 /拿 /開。將來，學(xué)生會（ 3）混合型歧義同時包含交集型和組合型歧義。這些歧義有的會產(chǎn)生不同的分詞結(jié)果，這些結(jié)果有時都有含義，這種情況就是真歧義；有時，只有一種結(jié)果是在所有真實語境中是有實在意義的。這種情況叫作偽歧義。（ 4）真歧義歧義字段在不同的語境中確實有多種分隔形式例：地面積這塊 /地 /面積 /還真不小。地面 /積 /了厚厚的雪。 11 （ 5）偽歧義歧義字段單獨拿出來看有歧義，但在所有真實語境中，僅有一種分隔形式可接受。例：挨批評挨 /批評（√）挨批 /評（ X）對于交集型歧義字段，真實文本中偽歧義現(xiàn)象遠多于真歧義現(xiàn)象。未登錄詞在文本處理過程中，會遇到很多詞典中未囊括的詞語。如：人名等。這些不斷增加的詞匯沒有可能和必要都加入到詞典中。所以，分詞中遇到未登錄詞匯是不能避免的。例如：實體名詞和專有名詞人名：張三、李四地名：三義廟、白洋淀機構(gòu)名：方正、聯(lián)想專業(yè)術(shù)語和新詞語專業(yè)術(shù)語：萬維網(wǎng) 、主機板縮略詞：三個代表、掃黃打非未登錄詞和歧義現(xiàn)象是影響中文分詞準確率的兩大因素，兩者之中，未登錄詞造成的影響更為嚴重。在真實的文檔和語料庫中，專有名詞和術(shù)語占了很大比例，詞典在多數(shù)情況下很難包括這些詞。分詞算法能否對新詞進行有效識別對應(yīng)用來說十分重要，目前新詞識別的準確率已經(jīng)成為一 12 個評價分詞系統(tǒng)好壞的重要指標。三、基本中文分詞算法自從 1983 年，背景航空航天大學(xué)實現(xiàn)了我國第一個實用性的自動分詞系統(tǒng)到現(xiàn)在，國內(nèi)外的研究者在中文分詞領(lǐng)域進行了廣泛的研究，提出了許多有效的算法。（一）中文分詞算法介紹現(xiàn)在最常用的中文分詞系統(tǒng)主要采用以下 3 種算法：基于字符串匹配的分詞算法這種方法又叫做機械分詞算法，機械分詞法按照一定策略將待切分字符串與機器里預(yù)先準備的詞條進行匹配，然后找出一個最長的結(jié)果。按照掃描方向的不同，串匹配分詞算法可以分為正向匹配和逆向匹配。按照不同長度優(yōu)先匹配的情況，可以分為最大 (最長 )匹配和最小 (最短 )匹配；按照是否與詞性標注過程相結(jié)合，又可以分為單純分詞算法和分詞與標注相結(jié)合的一體化算法。常用的幾種機械分詞算法如下：（ 1）正向最大匹配法 (由左到右的方向 )；正向最大匹配分詞是基于詞典的分詞系統(tǒng)。所謂最大匹配，就是要求每一句的分詞結(jié)果中的詞匯總量要最少。正向最大匹配分詞又分為增字和減字匹配法 [4]。增字匹配法需要一種特殊的詞典結(jié)構(gòu)支持，能夠達到較高的分詞效率。減字法的流程為：首先讀入一句句子，取出標點符號，這樣句子就被分成相應(yīng)的若干段，然后對每一段進行詞典的匹配，如果沒有匹配成功就 13 從段末尾減去一個字，再進行匹配，重復(fù)上述過程，直到匹配上某一個單詞。整句句子重復(fù)這些流程，直到句子全部分解成詞匯為止。如果事先知道詞典中最長詞的長度，那么在一開始的匹配中，不用將分割出來的整段語句與詞典匹配，只需要以最長詞的長度為最大切分單位進行切分就可以了。（ 2)逆向最大匹配法 (由右到左的方向 )；逆向最大匹配分詞與正向最大匹配分詞相反，從句子結(jié)尾開始進行分詞。（ 3)最少切分 (使每一句中切出的詞數(shù)最小 )。這種算法使每一句中切出的詞數(shù)最小。如果將上述各種方法相互組合，例如，可以將正向最大匹配算法和逆向最大匹配算法相結(jié)合來構(gòu)成雙向匹配法。由于漢語單字成詞的特點，正向最小匹配和逆向最小匹配一般很少使用?？梢园褭C械分詞作為初步的處理手段，然后再通過進一步工作提高結(jié)果的正確率。實際使用中還可以將上述各種算法相互組合，例如，可以將正向最大匹配算法和逆向最大匹配算法結(jié)合起來構(gòu)成雙向匹配法。由于漢語單字成詞的特點，正向最小匹配和逆向最小匹配一般很少使用。一般說來，逆向匹配的切分精度略高于正向匹配，遇到的歧義現(xiàn)象也較少。統(tǒng) 計結(jié)果表明 [5]，單純使用正向最大匹配的錯誤率為 1/169，單純使用逆向最大匹配的錯誤率為 1/245。但這種精度還遠遠不能滿足實際的需要。實際使用的分詞系統(tǒng)，都是把機械分詞作為一種初分手段，然后通過利用各種其它的語言信息來進一步提高切分的準確率。 14 基于理解的分詞算法這種分詞算法是通過讓計算機模擬人對句子的理解，達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析，利用句法信息和語義信息來處理歧義現(xiàn)象。它通常包括三個部分：分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下，分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語義信息來對分詞歧義進行判斷，即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。由于漢語語言知識的籠統(tǒng)、復(fù)雜性，難以將各種語言信息組織成機器可直接讀取的形式，因此目前基于理解的分詞系統(tǒng)還處在試驗階段。基于統(tǒng)計的分詞算法從形式上看，詞是穩(wěn)定的字的組合，因此在上下文中，相鄰的字同時出現(xiàn)的次數(shù)越多，就越有可能構(gòu)成一個詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度 [4]，可以對語料中相鄰共現(xiàn)的各個字的組合的頻度進行統(tǒng)計，計算它們的互現(xiàn)信息。定義兩個字的互現(xiàn)信息，計算兩個漢字 X、 Y 的相鄰共現(xiàn)概率。互現(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當緊密程度高于某一個閾值時，便可認為此字組可能構(gòu)成了一個詞。這種方法只需對語料中的字組頻度進行統(tǒng)計，不需要切分詞典，因而又叫做無詞典分詞法或統(tǒng)計取詞方法。但這種方法也有一定的局限性，會經(jīng)常抽出一些共現(xiàn)頻度高、但并不是詞的常用字組，例如“這一”、“之一”、“有的”、“我的”、“許多的”等，并且對常用詞的識別精度差，時空開銷大。它的優(yōu)點在于可以發(fā)現(xiàn)所有的切分歧義，但是統(tǒng)計語言模型的精度和決策算法在很大程度上決定了解決歧義的方法，需要大量的標注語料， 15 并且分詞速度也因搜索空間的增大而有所緩慢。實際應(yīng)用的統(tǒng)計分詞系統(tǒng)都要使用一部基本的分詞詞典 (常用詞詞典 )進行串匹配分詞，同時使用統(tǒng)計方法識別一些新的詞，即將串頻統(tǒng)計和串匹配結(jié)合起來，既發(fā)揮匹配分詞切分速度快、效率高的特點，又利用了無詞典分詞結(jié)合上下文識別生詞、自動消除歧義的優(yōu)點。（二）根據(jù)具體應(yīng)用使用合適的分詞算法在實際應(yīng)用中，對于某一具體的應(yīng)用系統(tǒng)，并不是單純使用某種分詞算法就能解決問題，我們可以根據(jù)具體應(yīng)用的所需滿足條件使用不同的方法。在此以中文信息檢索中所用到的分詞算法為例進行說明。混合分詞對于實際應(yīng)用中的中文信息檢索系統(tǒng)來說，當弄不清楚使用哪種分詞算法更好的話，可以試著合并使用多種方法，混合分詞就是一種簡單且容易實現(xiàn)的方法，也是大型檢索系統(tǒng)中常用的一種方法，使用混合分詞方法能夠涵蓋更多的詞匯。混合分詞的原理就是“先用專業(yè)詞典進行一遍分詞，再用普通詞典進行一遍分詞”，我們用一個實例對為何要進行兩次分詞進行說明。例如，對“ 搜索引擎知識”這句話進行分詞，如果我們的詞典中含有“搜索引擎”這個詞，那么這句話的切分結(jié)果就是“搜索引擎＼知識 ”。如果詞典中沒有“搜索引擎”這個詞，而只含有“搜索”，“引擎” ，“知識 ” 這三個詞，那么這句話的切分結(jié)果就是“搜索＼引擎＼知識”。因此我們可以得到這樣一個結(jié)論，對同一文本進行切分，如果使用的詞典不同，會導(dǎo)致不同的分詞 16 結(jié)果。顯然，如果用第一種方法分詞，當一個用戶想要查找包含“搜索”這個關(guān)鍵字的相關(guān)資源時，他就不會搜索到結(jié)果。同理，假設(shè)檢索系統(tǒng)不對用戶輸入的詞進行切分，如果用第二種方法分詞，當一個用戶想要查找包含“搜索引擎”這個關(guān)鍵字的相關(guān)資源時，同樣也找不到結(jié)果。所以，只進行一遍分詞必然有一定得局限性，如果采用兩遍、甚至多遍分詞，便會解決上述問題。對于上面這個例子，我們采取組織兩個詞典的措施：一個為專業(yè)詞典，一個為普通詞典。其中，專業(yè)詞典放置一些比較專業(yè)的詞組，比如名人人名、專有名詞、地點名、機構(gòu)名等，普通詞典就是我們常用的詞組。那么我們可以將“搜索引擎”放入專業(yè)詞典，將“搜索 ” 、“引擎 ” 放入普通詞典。先用專業(yè)詞典進行一遍分詞，再用普通詞典進行一遍分詞，最后將結(jié)果合并到一起，那么結(jié)果如“搜索引擎＼搜索＼引擎＼知識”。這樣既滿足了查詢“搜索引擎”的要求，又滿足了查詢“搜索”的要求。據(jù)了解 [6]，百度的分詞采取了至少兩個詞典，一個是普通詞典，一個是專用詞典。而且是專用詞典先切分，然后將剩余的片斷交由普通詞典來切分。一般專業(yè)的搜索引擎對分詞速度要求要達到 1M／ s 以上，因此為了提高處理速度，百度的普通詞典切分采用雙向最大匹配算法，這種分詞算法舍棄了一定得精度來達到極快的切分速度。因為對于搜索引擎來說，在查詢切分和文檔切分時采用相同的分詞算法，如果有一些文檔切分是分詞是錯誤，在查詢切分時也產(chǎn)生相同的切分錯誤。那么即使兩次切分階段錯誤，但最后相同錯誤卻使匹配成功，使得仍然可以正確檢索到結(jié)果。 17 基于字的切分法現(xiàn)實中，無論一個詞典所包含的詞組有多么齊全，其還是包含不了一些新出現(xiàn)的

點擊復(fù)制文檔內(nèi)容

環(huán)評公示相關(guān)推薦

計算機科學(xué)與技術(shù)專業(yè)畢業(yè)論文范文-資料下載頁

【總結(jié)】佳木斯大學(xué)畢業(yè)論文(設(shè)計)任務(wù)書學(xué)院：佳木斯大學(xué)繼續(xù)教育學(xué)院專業(yè)：計算機科學(xué)與技術(shù)班級：10級專升本學(xué)生姓名：劉旭指導(dǎo)教師：

2024-10-23 01:11

計算機科學(xué)與技術(shù)畢業(yè)論文--車輛管理系統(tǒng)-資料下載頁

【總結(jié)】中工信商2015-JX16-本科畢業(yè)論文（設(shè)計）信商車輛管理系統(tǒng)的設(shè)計與實現(xiàn)—車輛調(diào)度管理模塊系（部）信息技術(shù)系專業(yè)計算機科學(xué)與技術(shù)學(xué)號201101014118學(xué)生姓名

2025-06-23 05:58

計算機科學(xué)與技術(shù)專業(yè)畢業(yè)論文正稿-資料下載頁

【總結(jié)】........網(wǎng)絡(luò)學(xué)院本科畢業(yè)論文題目__石景山衛(wèi)生局局域網(wǎng)的建設(shè)___........專業(yè)名稱計算機

2025-06-23 19:49

計算機科學(xué)與技術(shù)專業(yè)畢業(yè)論文題目模版-資料下載頁

【總結(jié)】第一篇：計算機科學(xué)與技術(shù)專業(yè)畢業(yè)論文題目（模版）計算機科學(xué)與技術(shù)專業(yè)畢業(yè)論文題目題目：防火墻技術(shù)的研究題目：考試題目錄入系統(tǒng)題目：培訓(xùn)班學(xué)員管理系統(tǒng)題目：網(wǎng)上書店題目：網(wǎng)上辦公系統(tǒng) 題目：實...

2024-11-09 22:45

同濟大學(xué)計算機科學(xué)與技術(shù)系畢業(yè)論文-資料下載頁

【總結(jié)】同濟大學(xué)計算機科學(xué)與技術(shù)系2020屆本科生畢業(yè)設(shè)計（論文）題目匯總（標注▲的題目將優(yōu)先考慮信息安全專業(yè)的學(xué)生）計算機基礎(chǔ)學(xué)科組畢業(yè)設(shè)計（論文）課題簡介YZQ1.NET環(huán)境計算機基礎(chǔ)教學(xué)網(wǎng)站建設(shè)（指導(dǎo)教師：楊志強）同濟大學(xué)計算機基礎(chǔ)教學(xué)網(wǎng)站是為全校乃至全國非計算機專業(yè)師生服務(wù)的網(wǎng)站。經(jīng)過10年的建設(shè)，具有豐富的教學(xué)資源，每年點擊次

2024-11-17 22:12

計算機科學(xué)與技術(shù)論文-資料下載頁

【總結(jié)】本科生畢業(yè)設(shè)計題目：《面向?qū)ο蟪绦蛟O(shè)計》教學(xué)軟件的制作整理專業(yè)代碼：080605作者姓名：張三學(xué)號：2022301239

2025-01-13 18:04

計算機科學(xué)與技術(shù)論文-資料下載頁

【總結(jié)】本科畢業(yè)論文論文題目：多媒體技術(shù)及其在小學(xué)語文教學(xué)中的應(yīng)用指導(dǎo)老師：胡圣榮學(xué)生姓名：學(xué)號：院系：專業(yè)：計算機科學(xué)與技術(shù)寫作批次：原創(chuàng)承諾書我承諾所呈交的畢業(yè)論文是本人在老師指

2025-06-27 23:06

計算機科學(xué)與技術(shù)專業(yè)本科畢業(yè)論文-資料下載頁

【總結(jié)】　　江西師范大學(xué)成教本科生畢業(yè)論文　　　　　　　　　　　題目:淺談我國如何培養(yǎng)適應(yīng)市場需求的計算機人才　　　　　　　　專業(yè):計算機科學(xué)與技術(shù)　姓名:熊玲瓏　學(xué)號:06209410401001　　指導(dǎo)老師:

2025-06-01 00:08

電大計算機科學(xué)與技術(shù)專業(yè)畢業(yè)論文【最新】-資料下載頁

【總結(jié)】畢業(yè)設(shè)計論文圖書信息管理系統(tǒng)的設(shè)計與實現(xiàn) 作者姓名:李冰指導(dǎo)教師姓名:學(xué)科專業(yè)名稱:計算機科學(xué)與技術(shù)2014年03月06日摘要隨著信息技術(shù)在管理技術(shù)上越來越深入而廣泛的應(yīng)用，管理信息系統(tǒng)的

2025-06-07 03:48

計算機科學(xué)與技術(shù)畢業(yè)論文范文免費預(yù)覽-資料下載頁

【總結(jié)】附件1：學(xué)號：2020201118課程設(shè)計課程名數(shù)據(jù)庫系統(tǒng)概論題目《酒店管理系統(tǒng)》目錄..........................................................................................

2024-10-29 23:05

計算機科學(xué)與技術(shù)畢業(yè)設(shè)計論文-資料下載頁

【總結(jié)】河北建筑工程學(xué)院成人教育學(xué)院畢業(yè)論文課題名稱學(xué)生宿舍局域網(wǎng)建設(shè)專業(yè)：班級：姓名：學(xué)號：起迄日期：

2025-06-24 16:09

計算機公修課網(wǎng)上作業(yè)管理系統(tǒng)_計算機科學(xué)與技術(shù)專業(yè)畢業(yè)論文-資料下載頁

【總結(jié)】鄭州大學(xué)畢業(yè)設(shè)計（論文）題目：計算機公修課網(wǎng)上作業(yè)管理系統(tǒng)指導(dǎo)教師：翟××職稱：副教授學(xué)生姓名：鄧××學(xué)號：

2025-06-02 00:54

計算機科學(xué)與技術(shù)畢業(yè)論文-中學(xué)綜合素質(zhì)評價系統(tǒng)-資料下載頁

【總結(jié)】本科畢業(yè)設(shè)計（論文）中學(xué)綜合素質(zhì)評價系統(tǒng)唐曉嵐燕山大學(xué)2021年6月本科畢業(yè)設(shè)計（論文）中學(xué)綜合素質(zhì)評

2025-06-04 15:07

[精品]計算機科學(xué)與技術(shù)專業(yè)本科畢業(yè)論文-資料下載頁

【總結(jié)】湖南廣播電視大學(xué)畢業(yè)設(shè)計（論文）-1-計算機科學(xué)與技術(shù)專業(yè)本科畢業(yè)論文題目：公交查詢系統(tǒng)學(xué)號：021220753姓名：尹翔學(xué)校：開放教育學(xué)院指導(dǎo)教

2024-10-13 08:15

防火墻技術(shù)分析與應(yīng)用計算機信息技術(shù)畢業(yè)論文-資料下載頁

【總結(jié)】防火墻技術(shù)分析與應(yīng)用河北旅游職業(yè)學(xué)院畢業(yè)論文題目：防火墻技術(shù)分析與應(yīng)用系別：信息技術(shù)系班級：08計算機信息管理姓名：學(xué)號：0809030101指導(dǎo)教師：二零一一年一月指導(dǎo)老師指導(dǎo)

2025-06-07 05:14