freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

textmining(編輯修改稿)

2025-08-13 17:34 本頁面
 

【文章內(nèi)容簡介】 ? 利用上下文搭配關(guān)系來確定多義詞的詞義 ? 詞性搭配 ( plan) ? 用最大可能義項(xiàng)來消解多義 ? 選擇多義詞各個義項(xiàng)中使用頻度最高的義項(xiàng)為它在文本中的當(dāng)前義項(xiàng) 。 這顯然不是一種科學(xué)的辦法 , 但仍然有一定的正確率 。 ? 據(jù)統(tǒng)計(jì) , 用最大可能義項(xiàng)來消解多義 , 對于封閉文本 , 正確率僅為 %, 對于開放文本 , 正確率更低 , 僅為 %。 ? 目前不少機(jī)器翻譯系統(tǒng) , 都采用這種最大可能義項(xiàng)來確定多義詞的詞義 , 這是這些機(jī)器翻譯系統(tǒng)譯文質(zhì)量低劣的主要原因之一 。 其他文本檢索標(biāo)引技術(shù)(續(xù)) ? 簽名文件( signature file) ? 定義:是一個存儲數(shù)據(jù)庫中每一個文檔的特征記錄的文件 ? 方法:每一個特征對應(yīng)一個固定長度的位串,一個比特位對應(yīng)一個詞匯,若某一位對應(yīng)的詞出現(xiàn)在文檔中則,則該位置 1,否則置 0。 ? S1 ? S2 ? 按位操作進(jìn)行匹配,確定文檔的相似形 ? 可以多詞對應(yīng)一個比特位,來減少位串的長度,但增加搜素開銷,存在多對一映射的缺點(diǎn)。 1 1 1 … 1 1 1 0 … 1 學(xué)習(xí)與知識模式的提取 文本源 文本結(jié)構(gòu)分析器 文本分類器 中文文本挖掘模型結(jié)構(gòu)示意圖 分詞及非用詞處理 特征提取 名字識別 日期處理 數(shù)字處理 文本摘要生成器 用戶界面 用 戶 瀏覽 檢索 結(jié)果 學(xué)習(xí)與知識模式的提取(續(xù)) ? 分詞 ? 定義:在中文文本的詞與詞之間加上空格。 ? 非用詞(停用詞) ? 定義:在文本中起輔助作用的詞。 ? 分類: ? 虛詞:英文中的“ a,the,of,for,with,in,at, …” 中文中的“的,地,得, … ” ? 實(shí)詞:數(shù)據(jù)庫會議上的論文中的“數(shù)據(jù)庫”一詞,視為非用詞 ? 詞根問題 ? pute , putes , puted 視為同一個詞(變形而已) 自動分詞 ? 自動分詞的用處: ? 中文文本的自動檢索、過濾、分類及摘要 ? 中文文本的自動校對 ? 漢外機(jī)器翻譯 ? 漢字識別與漢語語音識別的后處理 ? 漢語語音合成 ? 以句子為單位的漢字鍵盤輸入 ? 漢字簡繁體轉(zhuǎn)換 主要的分詞方法 ? 最大匹配法( Maximum Matching method, MM法):選取包含 68個漢字的符號串作為最大符號串,把最大符號串與詞典中的單詞條目相匹配,如果不能匹配,就削掉一個漢字繼續(xù)匹配,直到在詞典中找到相應(yīng)的單詞為止。匹配的方向是從右向左。 ? 逆向最大匹配法( Reverse Maximum method, RMM法):匹配方向與 MM法相反,是從左向右。實(shí)驗(yàn)表明:對于漢語來說,逆向最大匹配法比最大匹配法更有效。 ? 雙向匹配法( Bidirection Matching method, BM法):比較 MM法與 RMM法的分詞結(jié)果,從而決定正確的分詞。 ? 最佳匹配法( Optimum Matching method, OM法):將詞典中的單詞按它們在文本中的出現(xiàn)頻度的大小排列,高頻度的單詞排在前,頻度低的單詞排在后,從而提高匹配的速度。 ? 聯(lián)想 回溯法( AssociationBacktracking method, AB法):采用聯(lián)想和回溯的機(jī)制來進(jìn)行匹配。 學(xué)習(xí)與知識模式的提取(續(xù)) ? 特征提取 ? 定義:對文本中出現(xiàn)的詞匯、短語的特征提取。 ? 分類: ? 一般特征項(xiàng): 通常指一般名詞的概念 特征項(xiàng)權(quán)值函數(shù): 其中: 表示特征項(xiàng)的權(quán)值函數(shù); 表示特征項(xiàng)在文本內(nèi)的頻數(shù); 表示特征項(xiàng)的段落頻率,即包含 ti 的段落數(shù) /文本總段落數(shù)。 ? 專有特征項(xiàng): 通常指人名、日期、時間、數(shù)字和貨幣等概念 ? ??????mjiviviwtftftftftfjvjv122)))(1(l o g)((l o g2))(1()()()(tf iw)(tf jv)(tf iv學(xué)習(xí)與知識模式的提?。ɡm(xù)) ? 中文姓名識別 函數(shù)定義:若 x在 T文本中確認(rèn)為姓氏用字,則 first_name(T,x)為真, 否則為假。 … 序號 類型 屬性 示例 1 姓氏用字 Surname 張,王,李, … 2 名字禁用字 Stop 死,吧,呢, … 3 姓名用詞 Name 王學(xué)兵, … 4 普通用詞 Common 非姓名用詞 翻閱,瀏覽, … 5 非普通用詞 None 6 前稱謂詞 Left 經(jīng)理 王學(xué)兵, 省長 楊錚, … 7 后稱謂詞 right 王學(xué)兵 經(jīng)理 ,黃旭 主席 , … ┇ ┇ ┇ ┇ 模型質(zhì)量的評價 ? 文本檢索的基本度量 ? {relevant}: 與某查詢相關(guān)的文檔的集合。 ? {retrieved}: 系統(tǒng)檢索到的文檔的集合。 ? {relevant} ∩ {retrieved}: 既相關(guān)又被檢索到的實(shí)際 文檔的集合。 ? 查準(zhǔn)率 (precision): 既相關(guān)又被檢索到的實(shí)際文檔與 檢索到的文檔的百分比。 ? 查全率 (recall): 既相關(guān)又被檢索到的實(shí)際文檔與查 詢相關(guān)的文檔的百分比。 }{ r e t r
點(diǎn)擊復(fù)制文檔內(nèi)容
高考資料相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1