freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

詞匯分析(一)-資料下載頁

2025-05-14 02:39本頁面

【導讀】1從字符串到詞串。漢語自動分詞的困難。對分詞質(zhì)量的評價。後面,皇后——后。松樹,鬆開——松。拋妻別字——拋妻別子?;谧值臋z索和基于詞的檢索。檢索“人為”,可能輸出的結(jié)果:。人為因素、人為什么活著、以人為本、……張店區(qū)大學生不看重大城市的戶口本。你認為學生會聽老師的嗎。我家門前的小河很難過。Lemmatization:對詞進行內(nèi)部結(jié)構(gòu)和形式分析。a.字母-點號-字母-點號組成的序列,比如:..等等;b.字母開頭,最后以點號結(jié)束,比如:A.b.Mr.eds.prof.;表示不出現(xiàn)或只出現(xiàn)1次,符到候選詞數(shù)組,并將指針前移,W部分刪去,清空W,轉(zhuǎn)入;如果不是詞分隔符,看指針是否已經(jīng)指到字符流尾部;字符作為一個詞匯單位輸出,結(jié)束。真實文本中還有,!!!有關(guān)屈折詞尾變形的規(guī)則。初始化:待分析的詞形=W,d=W的字符數(shù),i=1,設(shè)輸出串R="";如果i(d/2),執(zhí)行到步,否則轉(zhuǎn)入;從W中取出i個尾字字符,W成為兩部分W1+W2;到SuffixList中查找W2,如果查到,調(diào)用規(guī)則,對W1進行處理,得到W1';到Dict中查找W1',如果找到,R=W1'+""+W2,轉(zhuǎn)入;

  

【正文】 , ? 姓氏中使用頻度最高的是 “ 王 ” 姓 。 ? ―王 , 陳 , 李 , 張 , 劉 ” 等 5個大姓覆蓋率達 32%。 ? 姓氏頻度表中的前 14個高頻度的姓氏覆蓋率為 50%。 ? 前 400個姓氏覆蓋率達 99%。 ? 人名的用字也比較集中。 ? 頻度最高的前 6個字覆蓋率達 %。 ? 前 10個字的覆蓋率達 %。 ? 前 15個字的覆蓋率達 %。 ? 前 400個字的覆蓋率達 90%。 55 中國人名的內(nèi)部構(gòu)成規(guī)律 3 ? 中國人名各組成部分的組合規(guī)律 ? 姓+名 ? 姓 ? 名 ? 前綴+姓 ? 姓+后綴 ? 姓+姓+名(海外已婚婦女) 56 中國人名的上下文構(gòu)成規(guī)律 ? 身份詞: ? 前:工人、教師、影星、犯人 ? 后:先生、同志 ? 前后:女士、教授、經(jīng)理、小姐、總理 ? 地名或機構(gòu)名: ? 前:靜??h大丘莊禹作敏 ? 的字結(jié)構(gòu) ? 前:年過七旬的王貴芝 ? 動作詞 ? 前:批評,逮捕,選舉 ? 后:說,表示,吃,結(jié)婚 ? …… 57 中國人名識別的難點 ? 一些高頻姓名用字在非姓名中也是高頻字 ? 姓氏:于,馬,黃,張,向,常,高 ? 名字: 周鵬和 同學 , 周鵬 和同學 ? 人名內(nèi)部相互成詞,指姓與名、名與名之間本身就是一個已經(jīng)被收錄的詞 ? [王國 ]維 、 [高峰 ]、 [汪洋 ]、 張 [朝陽 ] ? 人名與其上下文組合成詞 ? 這里 [有 關(guān) ]天培 的壯烈; ? 費孝 通向 人大常委會提交書面報告 ? 人名地名沖突 ? 河北省 劉莊 58 中國地名的識別 ? 中國地名委員會編寫了 《 中華人民共和國地名錄 》 ,收集了全國鄉(xiāng)鎮(zhèn)以上(含鄉(xiāng)鎮(zhèn))各級行政區(qū)域的名稱,以鄉(xiāng)鎮(zhèn)人民政府所在地為主的居民聚落名稱,山、河、湖、海、島、高原、盆地、沙溪等自然地理實體名稱,名勝古跡、紀念地、古遺址、水庫、橋梁、電站等名稱。共收錄地名 10萬多條。這個地名錄中使用的漢字共2662個,頻度最高的前 65個漢字占總頻度的 %,前 622個漢字占總頻度的 %,前 1872個漢字占總頻度的 99%。 ? 與人名的用字情況相比較,地名用字分散得多 ? 地名內(nèi)部也有一定的結(jié)構(gòu),右邊界比左邊界更容易識別 59 音譯名的識別 1 ? 音譯名用字非常集中 《 英語姓名譯名手冊 》 中共收英語姓氏 , 教名約 4萬個 , 經(jīng)計算機統(tǒng)計得出英語姓名譯名用字表共 476個: “ 啊阿埃艾愛昂奧巴白柏拜班邦包保堡鮑北貝倍本比彼邊別濱賓玻波博勃伯卜布采蔡藏策查察昌徹陳楚垂茨慈次聰存措達大戴代丹當?shù)赖碌玫青嚨系椎氐俚诘鄱|杜敦頓多厄恩耳爾法凡范方菲費芬豐馮佛夫福弗輔富蓋甘岡高哥戈葛格各根貢古顧瓜圭郭果哈海罕翰漢杭豪赫黑亨洪侯胡華懷惠霍基吉季計嘉佳加賈簡姜焦杰捷金津京久居喀卡開凱坎康考柯科可克肯孔扣寇庫夸匡奎魁坤昆闊拉臘萊來賴蘭朗勞勒樂雷黎理李里禮荔麗歷利立蓮連廉良列琳林霖齡留劉流柳龍隆盧魯露路呂略倫蘿羅洛瑪馬麥邁滿曼芒茅梅門蒙孟米密敏明名摩莫墨默姆木穆拿娜納乃奈南內(nèi)嫩能妮尼年涅寧牛紐農(nóng)努女諾歐帕派潘龐培佩彭蓬皮匹平潑樸普漆奇齊契恰錢強喬切欽琴青瓊丘邱屈讓熱仁日榮茹儒瑞若撒薩塞賽三繕桑瑟森莎沙珊山尚紹舍申生盛圣施詩石什史士壽舒朔斯思絲松孫索所塔泰坦湯唐陶特藤提惕田鐵汀廷亭通透圖托脫娃瓦萬旺威韋為維偉魏衛(wèi)溫文翁沃烏武伍西錫希悉席霞夏顯香向曉肖歇謝欣辛興幸姓雄休修雪遜雅亞延揚陽堯耀耶葉依易意因英永尤雨約宰贊早澤曾扎詹湛章張哲者珍真芝知智治朱卓茲子宗祖佐丕謨葆薇岑弼婭繆珀瑙賚滕斐熙鳩竇艮麟黛 ” 。 辛華編 《 英語姓名譯名手冊 》 商務(wù)印書館 1973年(修訂版) 新華通訊社譯名資料組編 《 英語姓名譯名手冊 》 商務(wù)印書館 1997年(第二次修訂版) 60 音譯名的識別 2 ? 音譯名內(nèi)部很難劃分出結(jié)構(gòu),但有一些常見音節(jié),如“ 斯基、斯坦 ” 等 ? 不同語言的音譯規(guī)律不盡相同,如法語、俄語、蒙古語譯名用字與英語就有較大區(qū)別(蒙語人名舉例:“ 那順烏日圖、青格勒圖 ” ),如果按不同的語言訓練不同的模型可能會比使用統(tǒng)一的模型效果更好 ? 音譯名可以是人名、地名或其他專名,上下文規(guī)律差別較大 ? 由于音譯名用字比較集中,識別正確率較高 61 機構(gòu)名的內(nèi)部構(gòu)成規(guī)律 1 ? 機構(gòu)名一般都是定中結(jié)構(gòu) ? 機構(gòu)名的后綴一般比較集中,識別相對容易 ? 機構(gòu)名左邊界識別非常困難 ? 機構(gòu)名中含有大量的人名、地名、企業(yè)字號等專有名稱。在這些專有名稱中,地名所占的比例最大,其中未登錄地名又占了相當一部分的比例。所以機構(gòu)名識別應(yīng)在人名、地名等其他專名識別之后進行,其他專名識別的正確率對機構(gòu)名識別正確率有較大影響 62 機構(gòu)名的內(nèi)部構(gòu)成規(guī)律 2 ? 中文機構(gòu)名用詞非常廣泛。通過對人民日報1998年 1月中的 10817個機構(gòu)名所含的 19986個詞進行統(tǒng)計,共計 27種詞,其中名詞最多( 9941個),地名其次( 5023個),以下依次為簡稱( 1169個)、專有名詞( 1125個)、動詞( 848個)以及機構(gòu)名( 714個)等 ? 機構(gòu)名長度 極其不固定 ? 機構(gòu)名很不穩(wěn)定。隨著社會發(fā)展,新機構(gòu)不斷涌現(xiàn),舊機構(gòu)不斷被淘汰、改組或更名 63 對分詞質(zhì)量的評價 ? 計算分詞正確率的不同標準 以字數(shù)或詞數(shù)算 以句數(shù)算 ? 分詞質(zhì)量對 NLP應(yīng)用系統(tǒng)的影響 分詞質(zhì)量對 MT的影響 分詞質(zhì)量對 IR的影響 ―移動電話 ” 從合 —— 對翻譯、校對有利 從分 —— 對 IR有利 64 小結(jié) ?詞語破碎處,無物存在 —— 引自海德格爾 《 在通向語言的途中 》 , 商務(wù)印書館 1997年版 ?從字串到詞串,存在著多種可能性(不確定性),因而分詞的過程也就是一個降低不確定性的過程,為了降低不確定性,需要為計算機提供確定的 “ 語言知識 ” ,這種知識可以是詞典形式的,可以是規(guī)則形式的,也可以是統(tǒng)計數(shù)據(jù)形式的。 65 進一步閱讀文獻 ? 劉開瑛, 20xx, 《 中文文本自動分詞和標注 》 ,商務(wù)印書館,第 1- 6章 ? 趙鐵軍, 20xx, 《 機器翻譯原理 》 ,哈爾濱工業(yè)大學出版社,第 3章 ? 馮志偉, 20xx, 《 計算語言學基礎(chǔ) 》 ,商務(wù)印書館,第 2章 ? 何克抗 等, 1991, 《 書面漢語自動分詞專家系統(tǒng)設(shè)計原理 》 ,載 《 中文信息學報 》 , 1991年第 2期。 ? 白栓虎, 1995, 《 漢語詞切分及標注一體化方法 》 ,載陳力為、袁琦主編《 計算語言學進展與應(yīng)用 》 ,清華大學出版社。 ? 孫茂松 等, 1999, 《 高頻最大交集型歧義切分字段在漢語自動分詞中的作用 》 ,載 《 中文信息學報 》 1999年第 1期。 ? 陳小荷, 20xx, 《 現(xiàn)代漢語自動分析 》 ,北京語言文化大學出版社,第 7章 ? 語言學光標網(wǎng)站之詞法分析板塊 66 復習思考題 1 什么是詞?請談?wù)勀銓?“ 詞 ” 這個概念的認識。 2 漢語的自動分詞面臨哪些困難,請舉例說明。 3 寫出漢語詞語重疊形式的分析規(guī)則 4 歸納說明漢語產(chǎn)生新詞的模式 5 在互聯(lián)網(wǎng)上找一篇字數(shù)在 3000到 5000字之間的中文文章,進行人工分詞,并列舉、歸納碰到的問題。
點擊復制文檔內(nèi)容
教學課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1