freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

自然語言理解工程報告-展示頁

2025-02-16 16:14本頁面
  

【正文】 察序列 (基于字標(biāo)注 )的分詞方法 基本思想: 將分詞過程看作是字的分類問題。 (4) 從產(chǎn)生的所有路徑中,選擇路徑最短的 (詞數(shù)最少的 )作為最終分詞結(jié)果。 (2) 如果 w= cici+1? cj (0ij n) 是一個詞,則節(jié)點 vi1, vj 之間建立有向邊 vi1, vj,邊對應(yīng)的詞為 w。建立一個節(jié)點數(shù)為 n+1 的切分有向無環(huán)圖 G,各節(jié)點編號依次 為 V0,V1, V2,?, Vn。否則,令 m=詞典中最長單詞的字?jǐn)?shù),如果 nm, 令 m=n; (3)從當(dāng)前 pi 起取 m個漢字作為詞 wi,判斷: (a) 如果 wi 確實是詞典中的詞,則在 wi 后添加一個切分標(biāo)志,轉(zhuǎn) (c); (b) 如果 wi 不是詞典中的詞且 wi 的長度大于 1,將 wi 從右端去掉一個字,轉(zhuǎn) (a)步;否則( wi 的長度等于 1),則在 wi 后添加一個切分標(biāo)志(單字),執(zhí)行 (c)步; (c) 根據(jù) wi 的長度修改指針 pi 的位置,如果 pi 指向字串末端,轉(zhuǎn) (4),否則, i=i+1,返回 (2); (4) 輸出切分結(jié)果,結(jié)束分詞程序。 雙音節(jié)結(jié)構(gòu)的偏正式動詞應(yīng)盡量合并為一個分詞單位 切分原則: 有明顯分隔符標(biāo)記的應(yīng)該切分之 。 使用頻率高或共現(xiàn)率高的字串盡量合并為一個分詞單位 。 語類無法由組合成分直接得到的字串應(yīng)該合并為一個分詞單位。因此對于搜索引擎來說,分詞的準(zhǔn)確性和速度,二者都需要達(dá)到很高的要求。因為中文需要分詞,可能會影響一些研究,但同時也為一些企業(yè)帶來機(jī)會 。 (五) 應(yīng)用 中文分詞是其他 中文信息處理 的基礎(chǔ),搜索引擎只是中文分詞的一個應(yīng)用。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度。它通常包括三個部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。 : 這種分詞方法是通過讓計算機(jī)模擬人對句子的理解,達(dá)到識別詞的效果。 按照是否與詞性標(biāo)注過程相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。新詞識別準(zhǔn)確率已經(jīng)成為評價一個分詞系統(tǒng)好壞的重要標(biāo)志之一。 : 新詞指 那些在分詞詞典中沒有收錄,但又確實能稱為詞的那些詞。如果交集型歧義和組合型歧義計算機(jī)都能解決的話,在歧義中還有一個難題,是真歧義。主要的歧義有兩種:交集型歧義和組合型歧義。在中文分詞過程中,有兩大難題一直沒有完全突破。 ,也被應(yīng)用到英文處理,如手寫識 別,單詞之間的空格就很清楚,中文分詞方法可以幫助判別英文單詞的邊界。 2.在中文里, “詞 ”和 “詞組 ”邊界模糊 。 中文分詞 工程報告 課程:自然語言理解 姓名 : 學(xué)號 : 班級 : 日期: 2021/11/14 一, 研究背景 (一) 研究背景: 由于 中文只 有 字、句和段能通過明顯的分界符來簡單劃界,唯獨詞沒有一個形式上的分界符,雖然英文也同樣存在短語的劃分問題,不過在詞這一層上,中文比之英文要復(fù)雜的多、困難的多。中文分詞技術(shù) 產(chǎn)生的因為是 中文在基本文法上有其特殊性,具體表現(xiàn)在: 1.中文詞語之間沒有分隔 ,而現(xiàn)代漢語中雙字或多字詞居多,一個字不等 同于一個詞。 現(xiàn)代漢語 的基本表達(dá)單元雖然為 “詞 ”,且以雙字或者多字詞居多,但由于人們認(rèn)識水平的不同,對詞和短語的邊界很難去區(qū)分。 (二) 主要研究方法 ① 基于 字位的中文分詞研究方法 ② 基于數(shù)據(jù)驅(qū)動的中文分詞研究方法 ③ 基于中文文本分詞的中文分詞研究方法 ④ 基于優(yōu)化最大匹配的中文分詞研究方法 ⑤ 基于無詞庫的中文分詞研究方法 (三)主要存在問題 中文是一種十分復(fù)雜的語言,讓計算機(jī)理解中文語言更是困難。 : 歧義是指同樣的一句話,可能有兩種或者更多的切分方法。交集型歧義相對組合型歧義來說是還算比較容易處理,組合型歧義就必需根據(jù)整個句子來判斷了。真歧義意思是給出一句話,由人去判斷也不知道哪個應(yīng)該是詞,哪個應(yīng)該不是詞。最典型的是人名,除了人名以外,還有機(jī)構(gòu)名、地名、產(chǎn)品名、 商標(biāo)名、簡稱、省略語等都是很難處理的問題,而且這些又正好是人們經(jīng)常使用的詞,因此對于搜索引擎來說,分詞系統(tǒng)中的新詞識別十分重要。 (四) 現(xiàn)有解決方案 現(xiàn)有的分詞算法可分為三大類:基于字符串匹配的分詞方法、基于理解的分詞法和基于統(tǒng)計的分詞法。 : 這種方法又叫做機(jī)械分詞方法,它是按照一定的策略將待分析的漢字串與一個 “ 充分大的 ” 機(jī)器詞典中的詞條進(jìn)行配,若在詞典中 找到某個字符串,則匹配成功(識別出一個詞)。其基本思想就是在分詞的同時進(jìn)行句法、 語義分析 ,利用句法信息和語義信息來處理歧義現(xiàn)象。 : 從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞??梢詫φZ料中相鄰共現(xiàn)的各個字的組合的頻度進(jìn)行統(tǒng)計,計算它們的互現(xiàn)信息。其他的比如 MT、自動分類、自動摘要、自動校對等等,都需要用到分詞。 分詞準(zhǔn)確性對搜索引擎來說十分重要,但如果分詞速度太慢,即使準(zhǔn)確性再高,對于搜索引擎來說也是不可用的,因為搜索引擎需要處理數(shù)以億計的網(wǎng)頁,如果分詞耗用的時間過長,會嚴(yán)重影響搜索引擎內(nèi)容更新的速度。 二, 模型方法 (一) 基本原則 合并原則: 語義上無法由組合成分直接相加而得到的字串應(yīng)該合并為一個分詞單位。 附著性語 (詞 )素和前后詞合并為一個分詞單位。 雙音節(jié)加單音節(jié)的偏正式名詞盡量合并為一個分詞單位。 內(nèi)部結(jié)構(gòu)復(fù)雜、合并起來過于冗長的詞盡量切分 (二) 漢語自動分詞基本算法 1. 最大匹配法 (MM) ① 正向最大匹配算法 (FMM) 逆向最大匹配算法 (BMM) 雙向最大匹配算法 (MM) FMM 算法描述: (1) 令 i=0,當(dāng)前指針 pi 指向輸入字串的初始位置,執(zhí)行下面的操作: (2) 計算當(dāng)前指針 pi 到字串末端的字?jǐn)?shù)(即未被切分字串的長度) n,如果 n=1,轉(zhuǎn) (4),結(jié)束算法。 2. 最短路徑法 基本思想: 設(shè)待切分字串 S=c1 c2? ,其中 ci(i =1, 2, ? , n)為單個的字, n 為串的長度, n 1。 算法描述: (1) 相鄰節(jié)點 vk1, vk 之間建立有向邊 vk1, vk,邊對應(yīng)的詞默認(rèn)為 ck ( k =1, 2, ? , n)。 (3) 重復(fù)步驟 (2),直到?jīng)]有新路徑 (詞序列 )產(chǎn)生。 3. 基于語言模型的分詞方法 方法描述: 設(shè)對 于待切分的句子 S, W = w1w2?? wk (1 k n) 是一種可能的切分。該方法認(rèn)為,每個字在構(gòu)造一個特定的詞語時都占據(jù)著一個確定的構(gòu)詞位置 (即詞位 )。 區(qū)分式方法的結(jié)合 大部分基于詞的分詞方法采用的是生成式模型而基于字的分詞方法采用區(qū)分式模型 (Discriminative model): 本次實驗主要采用 FMM 三, 系統(tǒng)設(shè)計 (一) 系統(tǒng)的詳細(xì)設(shè)計: 宋詞語料的處理: ,分詞處理的目的是初步形成分詞語料以及了解如何進(jìn)行中文分詞。 ,第一步:取出半 角字符,以 ch
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1