freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

詞匯分析(一)(專業(yè)版)

2025-07-23 02:39上一頁面

下一頁面
  

【正文】 通過對人民日報1998年 1月中的 10817個機構名所含的 19986個詞進行統(tǒng)計,共計 27種詞,其中名詞最多( 9941個),地名其次( 5023個),以下依次為簡稱( 1169個)、專有名詞( 1125個)、動詞( 848個)以及機構名( 714個)等 ? 機構名長度 極其不固定 ? 機構名很不穩(wěn)定。 51 未定義詞識別的一般方法 ? 每一類未定義詞都要構造專門的識別算法 ? 識別依據(jù) ? 內(nèi)部構成規(guī)律(用字規(guī)律) ? 外部環(huán)境(上下文) ? 重復出現(xiàn)規(guī)律 52 未定義詞識別的研究進展 ? 較成熟 ? 中國人名、譯名 ? 中國地名 ? 較困難 ? 商標字號 ? 機構名 ? 很困難 ? 專業(yè)術語 ? 縮略語 ? 新詞語 53 中國人名的內(nèi)部構成規(guī)律 1 ? 在漢語的未定義詞中,中國人名是規(guī)律性最強,也是最容易識別的一類; ? 中國人名一般由以下部分組合而成: ? 姓:張、王、李、劉、諸葛、西門、范徐麗泰 ? 名:李素麗,張華平,王杰、諸葛亮 ? 前綴:老王,小李 ? 后綴:王老,趙總 ? 中國人名各組成部分用字比較有規(guī)律 54 中國人名的內(nèi)部構成規(guī)律 2 ? 根據(jù)統(tǒng)計 , 漢語姓氏大約有 1000多個 , ? 姓氏中使用頻度最高的是 “ 王 ” 姓 。(有 )=P(有 ), P39。這種類型的歧義就是組合型歧義。m can39。如: impossibilities?im+poss+ibil+it+ies ? 分析程度取決于自然語言處理系統(tǒng)的深度: ? 不解決未定義詞,分析到詞干層 ? 解決未定義詞,要分析到詞根層。 有有 PP ?到達候選詞 wi時 的累計概率 公式 1 如何盡快找到概率最大的詞串(路徑)? 34 提高計算效率(續(xù)) ? 左鄰詞 假定對字串從左到右進行掃描,可以得到 , , … , , , … 等若干候選詞,如果 的尾字 跟 的首字鄰接,就稱 為 的左鄰詞。 42 半詞法分詞(續(xù) 1) ? 在詞圖中引入罰分機制 ? 罰分規(guī)則: 1 每個詞對應的邊罰 1分。 55 中國人名的內(nèi)部構成規(guī)律 3 ? 中國人名各組成部分的組合規(guī)律 ? 姓+名 ? 姓 ? 名 ? 前綴+姓 ? 姓+后綴 ? 姓+姓+名(海外已婚婦女) 56 中國人名的上下文構成規(guī)律 ? 身份詞: ? 前:工人、教師、影星、犯人 ? 后:先生、同志 ? 前后:女士、教授、經(jīng)理、小姐、總理 ? 地名或機構名: ? 前:靜海縣大丘莊禹作敏 ? 的字結構 ? 前:年過七旬的王貴芝 ? 動作詞 ? 前:批評,逮捕,選舉 ? 后:說,表示,吃,結婚 ? …… 57 中國人名識別的難點 ? 一些高頻姓名用字在非姓名中也是高頻字 ? 姓氏:于,馬,黃,張,向,常,高 ? 名字: 周鵬和 同學 , 周鵬 和同學 ? 人名內(nèi)部相互成詞,指姓與名、名與名之間本身就是一個已經(jīng)被收錄的詞 ? [王國 ]維 、 [高峰 ]、 [汪洋 ]、 張 [朝陽 ] ? 人名與其上下文組合成詞 ? 這里 [有 關 ]天培 的壯烈; ? 費孝 通向 人大常委會提交書面報告 ? 人名地名沖突 ? 河北省 劉莊 58 中國地名的識別 ? 中國地名委員會編寫了 《 中華人民共和國地名錄 》 ,收集了全國鄉(xiāng)鎮(zhèn)以上(含鄉(xiāng)鎮(zhèn))各級行政區(qū)域的名稱,以鄉(xiāng)鎮(zhèn)人民政府所在地為主的居民聚落名稱,山、河、湖、海、島、高原、盆地、沙溪等自然地理實體名稱,名勝古跡、紀念地、古遺址、水庫、橋梁、電站等名稱。 3 寫出漢語詞語重疊形式的分析規(guī)則 4 歸納說明漢語產(chǎn)生新詞的模式 5 在互聯(lián)網(wǎng)上找一篇字數(shù)在 3000到 5000字之間的中文文章,進行人工分詞,并列舉、歸納碰到的問題。 ? 前 15個字的覆蓋率達 %。這類詞就是一般說的單字高頻成詞語素,比如 “ 人、說、我 ” 等。)(39。 + + W2,轉入( 8); ( 7)如果沒有找到, i=i+1,轉入( 3); ( 8)輸出 R,結束; ?16 Lemmatization示例 ? 待分析的詞形 W=―boys‖ , d= 4, i=1, R=―‖ ? W不在詞典中,從 W中取出 1個尾字符, “ boy‖ + ―s‖ ? W2=―s‖, W1’=―boy‖ ? 輸出: “ boy‖ + ―s‖ 17 Lemmatization容易碰到的問題 ? 不規(guī)則詞形變化: child - children ? 歧義問題: 1)是詞綴 還是 詞根中的字符,有時不易判斷 比如:分析副詞詞尾 “ ly‖的規(guī)則: ( 1)將串尾字符 “ y‖去掉; ( 2)如果剩下的字符串以 “ ll‖結尾,將 “ ll‖變?yōu)?“ le‖ ? wholly ? whol ? whole ? fully ? ful ? fule ? only, inform, …… 2)不同的詞根原形,相同的詞形變化 best good / well? 18 Lemmatization要做到何種程度 ? 詞干層。s let39。 27 分詞歧義的類型(續(xù)) ? 鏈長:交集型歧義字段中含有交集字段的個數(shù), 稱為鏈長。(意見 )P39。 ? 姓氏頻度表中的前 14個高頻度的姓氏覆蓋率為 50%。 65 進一步閱讀文獻 ? 劉開瑛, 20xx, 《 中文文本自動分詞和標注 》 ,商務印書館,第 1- 6章 ? 趙鐵軍, 20xx, 《 機器翻譯原理 》 ,哈爾濱工業(yè)大學出版社,第 3章 ? 馮志偉, 20xx, 《 計算語言學基礎 》 ,商務印書館,第 2章 ? 何克抗 等, 1991, 《 書面漢語自動分詞專家系統(tǒng)設計原理 》 ,載 《 中文信息學報 》 , 1991年第 2期。在這些專有名稱中,地名所占的比例最大,其中未登錄地名又占了相當一部分的比例。 ―聯(lián)合國教科文組織 ” 是 1個詞嗎? –《 信息處理用漢語分詞規(guī)范 》 GB/T1371592,中國標準出版社, 1993 –《 資訊處理用中文分詞規(guī)范 》 臺灣中研院 –《 人民日報 》 語料庫詞語切分規(guī)范 北大計算語言所 45 漢語真實文本中的分詞歧義情況 ? 交集型歧義字段在語料中的分布情況 (劉開瑛 20xx, p65) 鏈長 歧義 字段 1 2 3 4 5 6 7 8 總計 Token次數(shù) 47402 28790 1217 608 29 19 2 1 78248 比例 % 100 Type種數(shù) 12686 10131 743
點擊復制文檔內(nèi)容
教學課件相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1