freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

詞匯分析(一)-資料下載頁(yè)

2025-05-14 02:39本頁(yè)面

【導(dǎo)讀】1從字符串到詞串。漢語(yǔ)自動(dòng)分詞的困難。對(duì)分詞質(zhì)量的評(píng)價(jià)。後面,皇后——后。松樹,鬆開——松。拋妻別字——拋妻別子?;谧值臋z索和基于詞的檢索。檢索“人為”,可能輸出的結(jié)果:。人為因素、人為什么活著、以人為本、……張店區(qū)大學(xué)生不看重大城市的戶口本。你認(rèn)為學(xué)生會(huì)聽老師的嗎。我家門前的小河很難過(guò)。Lemmatization:對(duì)詞進(jìn)行內(nèi)部結(jié)構(gòu)和形式分析。a.字母-點(diǎn)號(hào)-字母-點(diǎn)號(hào)組成的序列,比如:..等等;b.字母開頭,最后以點(diǎn)號(hào)結(jié)束,比如:A.b.Mr.eds.prof.;表示不出現(xiàn)或只出現(xiàn)1次,符到候選詞數(shù)組,并將指針前移,W部分刪去,清空W,轉(zhuǎn)入;如果不是詞分隔符,看指針是否已經(jīng)指到字符流尾部;字符作為一個(gè)詞匯單位輸出,結(jié)束。真實(shí)文本中還有,!!!有關(guān)屈折詞尾變形的規(guī)則。初始化:待分析的詞形=W,d=W的字符數(shù),i=1,設(shè)輸出串R="";如果i(d/2),執(zhí)行到步,否則轉(zhuǎn)入;從W中取出i個(gè)尾字字符,W成為兩部分W1+W2;到SuffixList中查找W2,如果查到,調(diào)用規(guī)則,對(duì)W1進(jìn)行處理,得到W1';到Dict中查找W1',如果找到,R=W1'+""+W2,轉(zhuǎn)入;

  

【正文】 , ? 姓氏中使用頻度最高的是 “ 王 ” 姓 。 ? ―王 , 陳 , 李 , 張 , 劉 ” 等 5個(gè)大姓覆蓋率達(dá) 32%。 ? 姓氏頻度表中的前 14個(gè)高頻度的姓氏覆蓋率為 50%。 ? 前 400個(gè)姓氏覆蓋率達(dá) 99%。 ? 人名的用字也比較集中。 ? 頻度最高的前 6個(gè)字覆蓋率達(dá) %。 ? 前 10個(gè)字的覆蓋率達(dá) %。 ? 前 15個(gè)字的覆蓋率達(dá) %。 ? 前 400個(gè)字的覆蓋率達(dá) 90%。 55 中國(guó)人名的內(nèi)部構(gòu)成規(guī)律 3 ? 中國(guó)人名各組成部分的組合規(guī)律 ? 姓+名 ? 姓 ? 名 ? 前綴+姓 ? 姓+后綴 ? 姓+姓+名(海外已婚婦女) 56 中國(guó)人名的上下文構(gòu)成規(guī)律 ? 身份詞: ? 前:工人、教師、影星、犯人 ? 后:先生、同志 ? 前后:女士、教授、經(jīng)理、小姐、總理 ? 地名或機(jī)構(gòu)名: ? 前:靜??h大丘莊禹作敏 ? 的字結(jié)構(gòu) ? 前:年過(guò)七旬的王貴芝 ? 動(dòng)作詞 ? 前:批評(píng),逮捕,選舉 ? 后:說(shuō),表示,吃,結(jié)婚 ? …… 57 中國(guó)人名識(shí)別的難點(diǎn) ? 一些高頻姓名用字在非姓名中也是高頻字 ? 姓氏:于,馬,黃,張,向,常,高 ? 名字: 周鵬和 同學(xué) , 周鵬 和同學(xué) ? 人名內(nèi)部相互成詞,指姓與名、名與名之間本身就是一個(gè)已經(jīng)被收錄的詞 ? [王國(guó) ]維 、 [高峰 ]、 [汪洋 ]、 張 [朝陽(yáng) ] ? 人名與其上下文組合成詞 ? 這里 [有 關(guān) ]天培 的壯烈; ? 費(fèi)孝 通向 人大常委會(huì)提交書面報(bào)告 ? 人名地名沖突 ? 河北省 劉莊 58 中國(guó)地名的識(shí)別 ? 中國(guó)地名委員會(huì)編寫了 《 中華人民共和國(guó)地名錄 》 ,收集了全國(guó)鄉(xiāng)鎮(zhèn)以上(含鄉(xiāng)鎮(zhèn))各級(jí)行政區(qū)域的名稱,以鄉(xiāng)鎮(zhèn)人民政府所在地為主的居民聚落名稱,山、河、湖、海、島、高原、盆地、沙溪等自然地理實(shí)體名稱,名勝古跡、紀(jì)念地、古遺址、水庫(kù)、橋梁、電站等名稱。共收錄地名 10萬(wàn)多條。這個(gè)地名錄中使用的漢字共2662個(gè),頻度最高的前 65個(gè)漢字占總頻度的 %,前 622個(gè)漢字占總頻度的 %,前 1872個(gè)漢字占總頻度的 99%。 ? 與人名的用字情況相比較,地名用字分散得多 ? 地名內(nèi)部也有一定的結(jié)構(gòu),右邊界比左邊界更容易識(shí)別 59 音譯名的識(shí)別 1 ? 音譯名用字非常集中 《 英語(yǔ)姓名譯名手冊(cè) 》 中共收英語(yǔ)姓氏 , 教名約 4萬(wàn)個(gè) , 經(jīng)計(jì)算機(jī)統(tǒng)計(jì)得出英語(yǔ)姓名譯名用字表共 476個(gè): “ 啊阿埃艾愛(ài)昂奧巴白柏拜班邦包保堡鮑北貝倍本比彼邊別濱賓玻波博勃伯卜布采蔡藏策查察昌徹陳楚垂茨慈次聰存措達(dá)大戴代丹當(dāng)?shù)赖碌玫青嚨系椎氐俚诘鄱|杜敦頓多厄恩耳爾法凡范方菲費(fèi)芬豐馮佛夫福弗輔富蓋甘岡高哥戈葛格各根貢古顧瓜圭郭果哈海罕翰漢杭豪赫黑亨洪侯胡華懷惠霍基吉季計(jì)嘉佳加賈簡(jiǎn)姜焦杰捷金津京久居喀卡開凱坎康考柯科可克肯孔扣寇庫(kù)夸匡奎魁坤昆闊拉臘萊來(lái)賴蘭朗勞勒樂(lè)雷黎理李里禮荔麗歷利立蓮連廉良列琳林霖齡留劉流柳龍隆盧魯露路呂略倫蘿羅洛瑪馬麥邁滿曼芒茅梅門蒙孟米密敏明名摩莫墨默姆木穆拿娜納乃奈南內(nèi)嫩能妮尼年涅寧牛紐農(nóng)努女諾歐帕派潘龐培佩彭蓬皮匹平潑樸普漆奇齊契恰錢強(qiáng)喬切欽琴青瓊丘邱屈讓熱仁日榮茹儒瑞若撒薩塞賽三繕桑瑟森莎沙珊山尚紹舍申生盛圣施詩(shī)石什史士壽舒朔斯思絲松孫索所塔泰坦湯唐陶特藤提惕田鐵汀廷亭通透圖托脫娃瓦萬(wàn)旺威韋為維偉魏衛(wèi)溫文翁沃烏武伍西錫希悉席霞夏顯香向曉肖歇謝欣辛興幸姓雄休修雪遜雅亞延揚(yáng)陽(yáng)堯耀耶葉依易意因英永尤雨約宰贊早澤曾扎詹湛章張哲者珍真芝知智治朱卓茲子宗祖佐丕謨葆薇岑弼婭繆珀瑙賚滕斐熙鳩竇艮麟黛 ” 。 辛華編 《 英語(yǔ)姓名譯名手冊(cè) 》 商務(wù)印書館 1973年(修訂版) 新華通訊社譯名資料組編 《 英語(yǔ)姓名譯名手冊(cè) 》 商務(wù)印書館 1997年(第二次修訂版) 60 音譯名的識(shí)別 2 ? 音譯名內(nèi)部很難劃分出結(jié)構(gòu),但有一些常見(jiàn)音節(jié),如“ 斯基、斯坦 ” 等 ? 不同語(yǔ)言的音譯規(guī)律不盡相同,如法語(yǔ)、俄語(yǔ)、蒙古語(yǔ)譯名用字與英語(yǔ)就有較大區(qū)別(蒙語(yǔ)人名舉例:“ 那順烏日?qǐng)D、青格勒?qǐng)D ” ),如果按不同的語(yǔ)言訓(xùn)練不同的模型可能會(huì)比使用統(tǒng)一的模型效果更好 ? 音譯名可以是人名、地名或其他專名,上下文規(guī)律差別較大 ? 由于音譯名用字比較集中,識(shí)別正確率較高 61 機(jī)構(gòu)名的內(nèi)部構(gòu)成規(guī)律 1 ? 機(jī)構(gòu)名一般都是定中結(jié)構(gòu) ? 機(jī)構(gòu)名的后綴一般比較集中,識(shí)別相對(duì)容易 ? 機(jī)構(gòu)名左邊界識(shí)別非常困難 ? 機(jī)構(gòu)名中含有大量的人名、地名、企業(yè)字號(hào)等專有名稱。在這些專有名稱中,地名所占的比例最大,其中未登錄地名又占了相當(dāng)一部分的比例。所以機(jī)構(gòu)名識(shí)別應(yīng)在人名、地名等其他專名識(shí)別之后進(jìn)行,其他專名識(shí)別的正確率對(duì)機(jī)構(gòu)名識(shí)別正確率有較大影響 62 機(jī)構(gòu)名的內(nèi)部構(gòu)成規(guī)律 2 ? 中文機(jī)構(gòu)名用詞非常廣泛。通過(guò)對(duì)人民日?qǐng)?bào)1998年 1月中的 10817個(gè)機(jī)構(gòu)名所含的 19986個(gè)詞進(jìn)行統(tǒng)計(jì),共計(jì) 27種詞,其中名詞最多( 9941個(gè)),地名其次( 5023個(gè)),以下依次為簡(jiǎn)稱( 1169個(gè))、專有名詞( 1125個(gè))、動(dòng)詞( 848個(gè))以及機(jī)構(gòu)名( 714個(gè))等 ? 機(jī)構(gòu)名長(zhǎng)度 極其不固定 ? 機(jī)構(gòu)名很不穩(wěn)定。隨著社會(huì)發(fā)展,新機(jī)構(gòu)不斷涌現(xiàn),舊機(jī)構(gòu)不斷被淘汰、改組或更名 63 對(duì)分詞質(zhì)量的評(píng)價(jià) ? 計(jì)算分詞正確率的不同標(biāo)準(zhǔn) 以字?jǐn)?shù)或詞數(shù)算 以句數(shù)算 ? 分詞質(zhì)量對(duì) NLP應(yīng)用系統(tǒng)的影響 分詞質(zhì)量對(duì) MT的影響 分詞質(zhì)量對(duì) IR的影響 ―移動(dòng)電話 ” 從合 —— 對(duì)翻譯、校對(duì)有利 從分 —— 對(duì) IR有利 64 小結(jié) ?詞語(yǔ)破碎處,無(wú)物存在 —— 引自海德格爾 《 在通向語(yǔ)言的途中 》 , 商務(wù)印書館 1997年版 ?從字串到詞串,存在著多種可能性(不確定性),因而分詞的過(guò)程也就是一個(gè)降低不確定性的過(guò)程,為了降低不確定性,需要為計(jì)算機(jī)提供確定的 “ 語(yǔ)言知識(shí) ” ,這種知識(shí)可以是詞典形式的,可以是規(guī)則形式的,也可以是統(tǒng)計(jì)數(shù)據(jù)形式的。 65 進(jìn)一步閱讀文獻(xiàn) ? 劉開瑛, 20xx, 《 中文文本自動(dòng)分詞和標(biāo)注 》 ,商務(wù)印書館,第 1- 6章 ? 趙鐵軍, 20xx, 《 機(jī)器翻譯原理 》 ,哈爾濱工業(yè)大學(xué)出版社,第 3章 ? 馮志偉, 20xx, 《 計(jì)算語(yǔ)言學(xué)基礎(chǔ) 》 ,商務(wù)印書館,第 2章 ? 何克抗 等, 1991, 《 書面漢語(yǔ)自動(dòng)分詞專家系統(tǒng)設(shè)計(jì)原理 》 ,載 《 中文信息學(xué)報(bào) 》 , 1991年第 2期。 ? 白栓虎, 1995, 《 漢語(yǔ)詞切分及標(biāo)注一體化方法 》 ,載陳力為、袁琦主編《 計(jì)算語(yǔ)言學(xué)進(jìn)展與應(yīng)用 》 ,清華大學(xué)出版社。 ? 孫茂松 等, 1999, 《 高頻最大交集型歧義切分字段在漢語(yǔ)自動(dòng)分詞中的作用 》 ,載 《 中文信息學(xué)報(bào) 》 1999年第 1期。 ? 陳小荷, 20xx, 《 現(xiàn)代漢語(yǔ)自動(dòng)分析 》 ,北京語(yǔ)言文化大學(xué)出版社,第 7章 ? 語(yǔ)言學(xué)光標(biāo)網(wǎng)站之詞法分析板塊 66 復(fù)習(xí)思考題 1 什么是詞?請(qǐng)談?wù)勀銓?duì) “ 詞 ” 這個(gè)概念的認(rèn)識(shí)。 2 漢語(yǔ)的自動(dòng)分詞面臨哪些困難,請(qǐng)舉例說(shuō)明。 3 寫出漢語(yǔ)詞語(yǔ)重疊形式的分析規(guī)則 4 歸納說(shuō)明漢語(yǔ)產(chǎn)生新詞的模式 5 在互聯(lián)網(wǎng)上找一篇字?jǐn)?shù)在 3000到 5000字之間的中文文章,進(jìn)行人工分詞,并列舉、歸納碰到的問(wèn)題。
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1