freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

[工學]藏文文本自動分類(編輯修改稿)

2024-11-09 19:55 本頁面
 

【文章內容簡介】 頁,保存到本地硬盤上。 ? ? 藏文網(wǎng)頁與普通藏文文檔不同,具有半結構化的特點,所含信息除了網(wǎng)頁正文外,還有網(wǎng)頁所含的超文本標記、網(wǎng)頁間的超鏈等。因此,在藏文分詞之前必須要根據(jù)網(wǎng)頁的特點,進行掃描分析,以提取出其中有用的內容,進行正確的識別和處理,并根據(jù) HTML標記對網(wǎng)頁不同部分的文本進行加權處理。 ? ? 由于藏文國際標準編碼和國家標準編碼出臺的相對滯后,市場上各種軟件廠商采用自己的編碼標準,使得各藏文網(wǎng)站信息之間不能兼容,信息不能共享,從而嚴重影響了藏文信息處理工作的發(fā)展。 ? ? 在英文中,單詞之間是以空格作為自然分界符的,而漢文和藏文是詞與詞之間沒有明顯的分隔符 (如空格 )。藏文以字 (音節(jié)字 )為單位 ,需要通過連字成句才能描述一個完整的意思。而機器對由詞組成的藏文句子必須通過藏文分詞才得以理解。 ? 基于 web的藏文文本自動分類需要特征選擇,就需要藏文的分詞。藏文分詞比之漢文分詞要復雜和困難的多。通過研究現(xiàn)有的漢英文分詞算法,提出符合藏文特征的最佳分詞方案。 研究藏文編碼識別與轉換中的關鍵問題,實現(xiàn)各種藏文編碼的統(tǒng)一。 ? ? 基于 web的藏文文本分類中,特征的選擇以及特征賦權是影響文本分類效果的一個重要環(huán)節(jié)。如果把分詞后的所有藏文詞都作為特征項 ,那么特征向量的維數(shù)將過于巨大 ,從而導致計算量太大 ,在這樣的情況下 ,要完成藏文文本分類幾乎是不可能的。盡量減少要處理的單詞數(shù) ,降低向量空間維數(shù)。一般使用某種特征評估函數(shù)計算各個特征的評分值,然后按評分值對這些特征進行高低排序,選取最高分的一些作為文本特征子集,以降低特征空間的維數(shù),從而簡化計算,提高分類工作的速度和效率。 ? 經降低空間維數(shù)后得到的各個特征項,在藏文文本出現(xiàn)的位置不同,對藏文文本的重要程度和區(qū)分度是不同的,為了更準確地描述藏文文本中的重要性,需要計算特征在向量中的權重。一個特征項在某藏文文本中出現(xiàn)的次數(shù)越多,它和該文本的主題就越相關;而在不同的藏文文本中出現(xiàn)的次數(shù)越多,則它區(qū)分不同文本的能力越弱。 ? (三)研究的重難點 ? 重點:特征選擇以及研究符合藏文特點的最佳分 類算法。 ? 難點: 。 ? 。 ? (四)創(chuàng)新點 ? 。 ? 法。 四、研究的技術路線 五、本課題的研究方法 ? (一)交流法 ? 在藏文文本分類技術研究過程中與專家保持密切的聯(lián)系,隨時溝通和接受專家的指導。 ? (二)文獻研究法 ? 收集國內外本課題相關獻資料和藏文語法書籍,并學習和研究資料,從而全面地、正確地了解和掌握藏文文本分類要研究的問題。 ? (三)經驗法 ? 藏文文本分類器的設計涉及到的內容較多,如藏文網(wǎng)頁的凈化、藏文編碼的識別與轉換、藏文分詞、特征選取及權值計算等,通過請教有經驗的專家、學者,分析他們的實踐經驗,樹立正確的指導思想。 ? (四)模擬法 ? 通過研究漢英文文本分類的成果,創(chuàng)設一個符合藏文特征的文本分類模型。 六、
點擊復制文檔內容
教學課件相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1