【正文】
低的詞之后,剩下的詞相對就比較少了,對提升算法的速度有很大的幫助。 當然對于某些算法,不使用降維直接對空間向量進行計算,效果也不一定會很差,但是對于絕大多數(shù)算法,運用降維之后處理還是方便一些。 舉例2:在總語料庫中,含有地球的文章數(shù)量為100,總文章數(shù)為100000,那么地球這個詞的反文檔頻率為:IDF=lg(100000/100)=3 。Wn),其中Wi為某個詞/短語的權(quán)值。然后通過比較向量之間的相似度,或者通過分析向量之間的差別來進行文本的識別。這樣分類器就形成了、文本分類,分類(測試)階段的主要過程(1) 對于某個等待分類的文本,先對該文本進行分詞形成空間向量,然后根據(jù)分類器采用的規(guī)則判斷該文本屬于訓練集中的哪一類。(2) 文本集合Cm={S1,S2,也就是說,在試驗的過程中,盡可能減少人的主觀性思維,盡量避免實驗者的主觀因素去影響試驗結(jié)果,力求結(jié)果的可靠性、可認證性??傮w來書,中文文本分類還處于在試驗研究階段,正確分類率約為60%~90%,目前已經(jīng)在國內(nèi)受到重視,相關的學術研究成果也層出不窮,相信不久以后,文本分類將涉及到中文的各個領域,發(fā)揮自己的一技之長。如果將文本分類引擎引入綠色上網(wǎng)功能中,對用戶要訪問的內(nèi)容事先進行分析,去除沒有用的垃圾信息,就可以為用戶帶來很多方便。不僅耽誤時間,而且不能實現(xiàn)分布式管理,如果由多人進行這項工作,很可能導致意見不同而導致糾紛等等。t identify the real text, essentially understand only 0, 1, so if you want to categorize text, first of all, allow the puter to read each article, introduction of text vector space, said the article in the formation of key space vector, vector by calculation, the gap between to classify. Second, Text feature dimension reduction: due to the hundreds of thousands of Chinese vocabulary, then form the text vector is also very long, calculate it will be very trouble, so want to deal with vector. Third,Text classifier design: text classification method for example: KNN, naive bayes, the SVM and the decision tree, BP neural network, using these design classifier algorithm, to process the text vector, the relationship between the implementation of text categorization. Finally, the text classification used in many fields, such as: information filtering, document management, network security, electronic books and network library, search engine, it is not by keyword filtering, but based on text content filter or search, can greatly improve the accuracy of the reliability of the filter and search, no doubt make a significant breakthrough in the field of textKey words: text vector。 完成任務后提交的書面材料要求(圖紙規(guī)格、數(shù)量,論文字數(shù),外文翻譯字數(shù)等)提交畢業(yè)論文 提交設計和實現(xiàn)的系統(tǒng)軟件源程序及有關數(shù)據(jù) 提交外文資料翻譯的中文和原文資料 主要參考文獻:自然語言處理與信息檢索共享平臺:Svm(支持向量機)算法:基于神經(jīng)網(wǎng)絡的中文文本分析(趙中原):TFIDF的線性圖解:東南大學向量降維文獻: 指導教師 相明 接受設計(論文)任務日期 20130221~20130620 學生簽名: 西 安 交 通 大 學畢業(yè)設計(論文)考核評議書 院 系(專業(yè)) 班級 指導教師對學生 所完成的課題為 的畢業(yè)設計(論文)進行的情況,完成的質(zhì)量及評分的意見: 指導教師 年 月 日 畢業(yè)設計(論文)評審意見書 評審意見: 評閱人 職稱 年 月 日 畢業(yè)設計(論文)答辯結(jié)果 院 系(專業(yè)) 畢業(yè)設計(論文)答辯組對學生 所完成的課題為 的畢業(yè)設計(論文)經(jīng)過答辯,其意見為