freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

中文文本分類算法設(shè)計及其實現(xiàn)(編輯修改稿)

2025-05-12 23:48 本頁面
 

【文章內(nèi)容簡介】 微小說、期刊論文等等),企業(yè)公司內(nèi)部文件整理,電子文檔的增加,為了高效訪問和使用這些文檔數(shù)據(jù),如果人為的對這些文件信息進(jìn)行處理,不僅需要花費大量的時間翻閱每一篇文章,了解每篇文章的大體內(nèi)容,而且要付出很大的精力去統(tǒng)計。畢竟人的大腦工作能力有限,長期處于這種工作環(huán)境中,會造成大腦極大的負(fù)擔(dān),很可能由于一時疏忽而出現(xiàn)了錯誤,甚至信息量太過龐大,人腦不可能記錄這么多類別信息,在最后評估的時候也有可能做出錯誤的判斷。不僅耽誤時間,而且不能實現(xiàn)分布式管理,如果由多人進(jìn)行這項工作,很可能導(dǎo)致意見不同而導(dǎo)致糾紛等等。甚至同一個人,在不同的時間不同的地點,對一篇文章的分類頁不盡相同,這樣,很多嚴(yán)峻的問題隨之而來。文本自動分類就是針對上述情況,采用機器,通過一定的約束條件和一些分類算法,自動的對這些文件進(jìn)行遍歷,從而實現(xiàn)分門別類。這樣用機器代替人來“閱讀”文章,用機器代替人來“整理”文章,不僅減輕了工作人員的負(fù)擔(dān),而且大大節(jié)省了時間,這樣工作人員就有更多的時間來處理其他的事情。用機器代替人來工作,這樣在整理的過程中也不會出現(xiàn)一時疏忽而出現(xiàn)錯誤,更可以夜以繼日的進(jìn)行分類,一旦有新的文章進(jìn)入,就可以通過機器“讀取”這篇文章,然后自動的進(jìn)行處理,可以帶來很多的方便、文本分類的應(yīng)用領(lǐng)域、Internet上面應(yīng)用 把文本分類系統(tǒng)結(jié)合到搜索引擎(谷歌、百度)之類,可以大大提高搜索的準(zhǔn)確性,目前大部分搜索引擎是通過查找關(guān)鍵字進(jìn)行匹配,用這種方法必須要遍歷每篇文章,找出其中的關(guān)鍵字,然后統(tǒng)計結(jié)果輸出,這種查詢的精度不是很高,速度方面由于要遍歷很多文章,速度當(dāng)然不會很快。如用引入文本分類系統(tǒng),當(dāng)查詢某個關(guān)鍵字的時候,可以自動判定與之相關(guān)的文件類別,基于內(nèi)容的查詢,可以直接命5第一章 緒論中目標(biāo),查詢速度和精度能得到有效的提升、網(wǎng)絡(luò)圖書館方面的應(yīng)用 任何一個圖書館的館藏資源成千上萬,如果沒能很好的分門別類,大量的圖書便會雜亂無章,不僅浪費工作人員的時間進(jìn)行整理和查詢,而且讀者在找尋自己想要的圖書方面也會花費很大的時間。因此可以使用文本分類引擎實現(xiàn)電子圖書的分門別類,使管理更加方便,是查詢更加簡單。、網(wǎng)絡(luò)安全方面 internet的普及,人們上網(wǎng)瀏覽信息,很多是對讀者有用的,但是也有不法分子將不健康的信息通過internet進(jìn)行傳播,不僅影響了讀者的時間,更會影響讀者的情緒,影響工作效率。如果將文本分類引擎引入綠色上網(wǎng)功能中,對用戶要訪問的內(nèi)容事先進(jìn)行分析,去除沒有用的垃圾信息,就可以為用戶帶來很多方便。目前 電信綠色上網(wǎng),360綠色上網(wǎng)等都可以考慮引入此引擎,相信效果會更上一層樓。、電子郵件方面 可以自動為用戶預(yù)處理郵件,將郵件分門別類,而且必要的時候,可以自動屏蔽一些沒有用的垃圾郵件,給用戶帶來了很多方便。、目前國內(nèi)外研究現(xiàn)狀 國外主要的研究單位:CMU、斯坦福。國內(nèi)主要的研究單位有:上海復(fù)旦大學(xué)、中科院計算所等,國內(nèi)的方法一般是在了解國外已有分類算法或者分類方法之后,在此基礎(chǔ)上進(jìn)行創(chuàng)新和改進(jìn),以進(jìn)一步適應(yīng)中文文本分類的需求。 到目前為止,文本自動分類在國外大致經(jīng)歷了三個發(fā)展階段: 預(yù)測分析階段(19581964)判斷文本分類是否能夠真正的在現(xiàn)實社會中起到作用 實際運用構(gòu)思階段(19651974)主要進(jìn)行文本分類的初步構(gòu)思,形成大概的理論和框架。 開發(fā)應(yīng)用階段(1975至今)進(jìn)行實際使用和運用階段,在電子郵件分類、網(wǎng)絡(luò)安全、信息過濾等方面取得較為廣泛的應(yīng)用。 我國文本分類的研究工作始于20世紀(jì)80年代,大體經(jīng)歷了可行性探討、輔助分類7系統(tǒng)、自動分類系統(tǒng)三個階段??傮w來書,中文文本分類還處于在試驗研究階段,正確分類率約為60%~90%,目前已經(jīng)在國內(nèi)受到重視,相關(guān)的學(xué)術(shù)研究成果也層出不窮,相信不久以后,文本分類將涉及到中文的各個領(lǐng)域,發(fā)揮自己的一技之長。、文本分類的發(fā)展趨勢展望 只要漢語甚至語言文字依舊在使用,那么文本分類將永遠(yuǎn)有自己的重要性,而且隨著文字?jǐn)?shù)目的增多,文件類別的加劇,文本分類引擎將會越來越得到各界人士的關(guān)注,運用領(lǐng)域?qū)絹碓綇V泛,重要性也會越來越高。相信在不就的將來,nternet方面、電子郵件、網(wǎng)絡(luò)圖書館、綠色上網(wǎng)安全方面,都會運用文本分類引擎以達(dá)到更好的效果,研究文本分類,必定會發(fā)展自己的獨特優(yōu)勢,為用戶帶來更多的方便。、本章小結(jié) 本章主要從文本分類的背景以及應(yīng)用方面入手,提出了文本分類的研究的歷史背景,以及對應(yīng)的應(yīng)用領(lǐng)域,敘述了眾多文本分類的好處,通過對比國內(nèi)外的相關(guān)研究成果,分析國內(nèi)目前文本分類的現(xiàn)狀對文本分類的前景趨勢進(jìn)行展望。19第二章 文本分類的主要過程 第二章 文本分類主要過程、文本分類的過程圖 首先把文本分類的總體流程圖展示出來,主要包括對文本的處理,對處理之后向量的降維,然后對訓(xùn)練集測試集語料庫進(jìn)行仿真,文本分類過程圖如圖所示。開始訓(xùn)練集、測試集語料庫輸入文本采用中科院nlpir分詞 文本分詞TFIDF計算權(quán)值空間文本向量降維方法向量降維分類方法:svm/決策樹...進(jìn)行文本分類Weka、C++、matlab仿真最終結(jié)果 圖21 文本分類過程圖第二章文本分類的國主要過程、關(guān)于語料庫、文本分類語料庫介紹 本次試驗中采用復(fù)旦大學(xué)語料庫,分為訓(xùn)練集與測試集,訓(xùn)練集20個類別,共計9804篇,測試集20個類別,共計9833篇。由于計算時間的關(guān)系,如果全部語料庫用來測試,那么逐篇文章遍歷,生成空間向量,需要太長的時間,因此試驗過程中為了研究某些統(tǒng)計特征,只是從語料庫中隨機抽取樣本進(jìn)行測試,分析最后結(jié)果。 復(fù)旦大學(xué)語料庫提供的預(yù)料有20個類別,但是各個類別里面的文章數(shù)差別太大,有的累里面有一千多篇,但是有的類別只有幾十篇,此處從中抽取樣本數(shù)較多的10個類別進(jìn)行分析研究,10個類別分別是:環(huán)境、計算機、經(jīng)濟、軍事、歷史、農(nóng)業(yè)、太空、藝術(shù)、運動、政治,在實驗過程中都是隨機選取其中的文章進(jìn)行試驗,沒有人為的對實驗結(jié)果進(jìn)行定向干涉,保證了結(jié)果的隨機性。也就是說,在試驗的過程中,盡可能減少人的主觀性思維,盡量避免實驗者的主觀因素去影響試驗結(jié)果,力求結(jié)果的可靠性、可認(rèn)證性。、文本分類,訓(xùn)練階段的主要步驟(1) 定義類別集合C={C1,C2,CiCm},在本次實驗中一共有10個類別,那么m的值為10,分別是:環(huán)境、計算機、經(jīng)濟、軍事、歷史、農(nóng)業(yè)、太空、藝術(shù)、運動、政治。(2) 文本集合Cm={S1,S2,SjSn},Sn表示某個類別里面的一片文章,每篇文章Sn都有所屬的類別Cm,例如Sn屬于環(huán)境類,那么就有標(biāo)識。(3) 對于訓(xùn)練集中的所有文本,對其進(jìn)行處理,形成空間文本向量,然后根據(jù)該特征向量和該文本所屬的類別,依據(jù)特定訓(xùn)練分類規(guī)則,形成分類器。這樣分類器就形成了、文本分類,分類(測試)階段的主要過程(1) 對于某個等待分類的文本,先對該文本進(jìn)行分詞形成空間向量,然后根據(jù)分類器采用的規(guī)則判斷該文本屬于訓(xùn)練集中的哪一類。(2) 然后輸出所有分類的文本的類別,并對結(jié)果進(jìn)行統(tǒng)計。、關(guān)于文本分詞第二章 文本分類的主要過程對于隨意給出的一篇文章,或者一則短消息,要獲取消息或者文章的內(nèi)容,須從中提取關(guān)鍵詞語,因此使用中科院張華平教授研發(fā)的中文分詞工具:NLPIR(原名:ICTCLAS)漢語分詞工具,把文章分詞.關(guān)于nlpir:NLPIR漢語分詞系統(tǒng),主要功能包括中文分詞;詞性標(biāo)注;命名實體識別;用戶詞典功能;新增微博分詞、新詞發(fā)現(xiàn)與關(guān)鍵詞提??;張華平博士先后傾力打造十余年。為何要對文章進(jìn)行分詞,詞是構(gòu)成文章的基礎(chǔ),計算機去識別一篇文章就是需要先對文章進(jìn)行分詞,進(jìn)而將詞表示成空間向量的形式,這樣才能進(jìn)行計算,因此分詞的好壞直接影響到最后的分類結(jié)果的好壞,一個好的分詞工具當(dāng)然是詞分的越細(xì)越好,詞語提取的越準(zhǔn)確越好,nlpir的分詞效果,較一般的分詞工具分的更準(zhǔn)確,更權(quán)威。如下圖是對語料庫里面的一篇文章的分詞處理結(jié)果: 圖22 一篇文章的分詞展示 有了分詞工具之后,接下來就是怎樣將一篇文章形成一個空間向量。、文本空間向量的形成、VSM(Vector Space Model) 俗稱向量空間模型。根據(jù)一篇文章中詞或者字出現(xiàn)的頻率,以及權(quán)值,將文本形象的轉(zhuǎn)化為一個很長維的向量,向量的總維數(shù)長度與字典里面的詞字個數(shù)相同,如果某個詞在該文章中并沒有出現(xiàn),那么相應(yīng)的此處的值為0,如果出現(xiàn)次數(shù)比較多,權(quán)重比較高,則為:1,2,3(實際計算形成的權(quán)值一般是實數(shù),很少是整數(shù))...等等。 這樣就把文本轉(zhuǎn)化為計算機可以處理計算的向量形式。然后通過比較向量之間的相似度,或者通過分析向量之間的差別來進(jìn)行文本的識別。 最后,一篇文章就被轉(zhuǎn)化為一個n維向量空間中的一個點,n可以理解為詞典中包括的總詞/短語數(shù)。用數(shù)學(xué)公式表示為:N=(W1,W2,W3,W4.WiWn),其中Wi為某個詞/短語的權(quán)值。 說明:?、向量是有順序的,如果在詞典中未出現(xiàn),那么該位標(biāo)記為0或者在該向量形成的時候,前面做標(biāo)記位進(jìn)行識別。 ? 、詞典是包含了所有語料庫中出現(xiàn)的詞根/詞/短語 ,沒有重復(fù)字詞。 ? 、即使是一篇很短的文章,也可能形成維數(shù)很長的向量。、常見的權(quán)值計算方法、布爾框架(Booolean weighting) 對于某個特征詞i,布爾框架對其權(quán)值的定義為: 權(quán)值定義為:1 特征詞i出現(xiàn)在文檔k中 (21) Wik =0 特征詞i未出現(xiàn)在文檔k中 分析:此種方法只是顯示了特征詞是否存在,但是出現(xiàn)的次數(shù)不能得到很好的統(tǒng)計,當(dāng)然對分類結(jié)果也不能達(dá)到很好的要求,因此在實驗過程中,不選擇此種框架,而采用另外一種框架TFIDF框架、TFIDF計算權(quán)值算法 TFIDF(term frequency–inverse document frequency),TFIDF是一種統(tǒng)計方法,即根據(jù)某個詞/短語在自身文章中出現(xiàn)的比例,以及該短語在總體語料庫中出現(xiàn)的比例,來計算該詞/短語的權(quán)值,權(quán)值越高,證明該詞越能表示這篇文章的類別,相反權(quán)值越低,該詞對文章的貢獻(xiàn)度越小,用這種方法來評估一個字詞對于一篇文章或一個語料庫的重要程度。詞頻與反文檔頻率的大體思想是:一個字詞對這篇文章的重要性隨著它在本篇文章中出現(xiàn)的次數(shù)正比例增加,但是相對整體語料庫而言,如果在整體語料庫中出現(xiàn)的次數(shù)太多,該字詞的表征作用會呈反比例下降。 TF(詞頻)計算公式 (22)其中Mi表示某個詞在該篇文中中出現(xiàn)的次數(shù),Q表示文中出現(xiàn)的總詞數(shù),相同的詞第二次出現(xiàn)則Q不會疊加,Q統(tǒng)計的總次數(shù),不存在重復(fù)。 舉例1:在一篇科普類文章中,地球在文中出現(xiàn)次數(shù)為7,文章中的總詞數(shù)是1000,那么地球這個詞的詞頻為:TF=3/1000=% IDF(反文檔頻率)計算公式 (23) 其中D表示語料庫文章總數(shù),Si表示在D的樣本中,包含詞i的文章篇數(shù)。 舉例2:在總語料庫中,含有地球的文章數(shù)量為100,總文章數(shù)為100000,那么地球這個詞的反文檔頻率為:IDF=lg(100000/100)=3 。TFIDF最后得到i的權(quán)值公式為 (24) 舉例3:綜合例1,例2,那么地球這個詞,在語料庫中的權(quán)值為:TF*IDF=*3=TFIDF計算權(quán)值的好處分析 首先,如果不使用此方法,例如地球的公轉(zhuǎn),“地球” 、“的”、 “公轉(zhuǎn)” 在文章中出現(xiàn)的次數(shù)分別為100、5,如果只是統(tǒng)計詞頻,假設(shè)文章有一千詞,那么三個詞的詞頻分別為: , , 顯然,“的”的詞頻很大,但是“的”占了絕大部分,顯然這個詞不能表示本文的特征,反之,地球與公轉(zhuǎn)這兩個詞能表征文本大意,但是所占的比例卻相當(dāng)?shù)男 ? 其次,引入IDF,此問題就能得到很好的解釋:如上例子,還是以“地球” 、“的”、 “公轉(zhuǎn)”為例,出現(xiàn)次數(shù)如上所示。語料庫含有的總文章數(shù)為:10^5 ,含有“地球”文章數(shù)為10^2,含有“的”的文章數(shù)為10^5,含有“公轉(zhuǎn)”的文章數(shù)為10^3,那么根據(jù)DFIDF計算公式,計算得出 W(地球)=*lg(10^5/10^2)= W(的)=*lg(10^5/10^5)=0 W(公轉(zhuǎn))=*lg(10^5/10^3)=這樣計算,得出的結(jié)果“的”的權(quán)值為0,這樣的結(jié)果符合正常的邏輯情況。、詞典、用戶詞典在對語料庫中所有的文章進(jìn)行分詞之后,勢必會有很多的字以及詞語,每當(dāng)產(chǎn)生一個新的詞語的時候,相應(yīng)的用戶詞典就會把這個詞加入進(jìn)去,每當(dāng)有新詞進(jìn)入的時候,詞典的長度就會加一,這樣對于訓(xùn)練集,訓(xùn)練集越大形成的詞典也就越大,相應(yīng)的對各篇文章的區(qū)分度會更好,有詞典的存在,每當(dāng)出現(xiàn)新詞的時候,用戶也不用擔(dān)心,加入詞典就可以。最終的詞典長度和空間向量的長度是相同的。、停用詞詞典 停用詞,顧名思義,就是文本分類過程中不需要用到的詞語,這些詞語千篇一律,不僅對文章沒有表征作用,而且會增加處理的復(fù)雜度,如果把這些詞加入計算,會影響計算的時間,因此專門設(shè)計一個停用詞詞典,對這些詞不加入計算,停用詞里面的內(nèi)容,
點擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1