【正文】
畢業(yè)設(shè)計(jì)(論文)答辯結(jié)果 院 系(專業(yè)) 畢業(yè)設(shè)計(jì)(論文)答辯組對(duì)學(xué)生 所完成的課題為 的畢業(yè)設(shè)計(jì)(論文)經(jīng)過答辯,其意見為 并確定成績(jī)?yōu)? 畢業(yè)設(shè)計(jì)(論文)答辯組負(fù)責(zé)人 答辯組成員 年 月 日摘要論文題目:中文文本分類算法的設(shè)計(jì)及其實(shí)現(xiàn)學(xué)生姓名:豐成平指導(dǎo)教師:相明 摘要隨著當(dāng)今社會(huì),計(jì)算機(jī)的普遍使用,出現(xiàn)了連綿不斷的文本文件,如何對(duì)這些毫無邏輯、毫無層次的文件進(jìn)行分門別類的整理,做到井井有條,層次鮮明呢?文本自動(dòng)分類就是針對(duì)上述情況,采用機(jī)器,通過一定的約束條件和一些分類算法,自動(dòng)的對(duì)這些文件進(jìn)行遍歷,從而實(shí)現(xiàn)分門別類。這樣用機(jī)器代替人來“閱讀”文章,用機(jī)器代替人來“整理”文章,不僅減輕了工作人員的負(fù)擔(dān),而且大大節(jié)省了時(shí)間,工作人員可以去做更多有意義的事情。 文本分類主要有以下三個(gè)方面:第 文本的空間向量表示:由于計(jì)算機(jī)并不能識(shí)別真正的文本,本質(zhì)上只懂得0,1,因此若要對(duì)文本進(jìn)行分類,首先要讓計(jì)算機(jī)能夠“讀懂”每篇文章,引入文本空間向量表示,將文章里面的特征詞形成空間向量,通過計(jì)算向量之間的差距,來實(shí)現(xiàn)分門別類。第 文本特征的降維:由于中文詞匯成千上萬,那么形成的文本向量肯定也很長(zhǎng),計(jì)算起來會(huì)很麻煩,因此要對(duì)向量進(jìn)行處理。第 文本分類器的設(shè)計(jì):文本分類方法例如:KNN、樸素貝葉斯、SVM、決策樹,BP神經(jīng)網(wǎng)絡(luò),運(yùn)用這些算法設(shè)計(jì)分類器,從而處理文本向量之間的關(guān)系,實(shí)現(xiàn)對(duì)文本的分門別類。最后,將文本分類運(yùn)用于眾多領(lǐng)域,例如:信息過濾、文檔管理、網(wǎng)絡(luò)安全、電子圖書整理、網(wǎng)絡(luò)圖書館,搜索引擎,這樣則不是通過關(guān)鍵字過濾,而是基于文本內(nèi)容的過濾或者是搜索,能大大提高過濾的可靠性以及搜索的準(zhǔn)確性,無疑使文本領(lǐng)域的一項(xiàng)重大的突破關(guān) 鍵 詞:文本向量;特征降維;分類算法;分類器設(shè)計(jì)。1Title: The design and implementation of Chinese text classification algorithmName: Feng ChengpingSupervisor: Xiang Ming ABSTRACT With today39。s society, the widespread use of puters, the continuous of the text file, how about these no logic, no level of sort, classify files on do in perfect order, hierarchy and bright? Text automatic classification is according to the above situation, using the machine, through a certain constraint condition and some classification algorithm, automatic to traverse these files, so as to realize classify. So using machines instead of people to read, to finish, replacing workers with machines not only reduce the burden of the staff, and greatly saves time and staff to do more meaningful things.Text classification is mainly has the following three aspects: First, Text space vector said: because of the puter and can39。t identify the real text, essentially understand only 0, 1, so if you want to categorize text, first of all, allow the puter to read each article, introduction of text vector space, said the article in the formation of key space vector, vector by calculation, the gap between to classify. Second, Text feature dimension reduction: due to the hundreds of thousands of Chinese vocabulary, then form the text vector is also very long, calculate it will be very trouble, so want to deal with vector. Third,Text classifier design: text classification method for example: KNN, naive bayes, the SVM and the decision tree, BP neural network, using these design classifier algorithm, to process the text vector, the relationship between the implementation of text categorization. Finally, the text classification used in many fields, such as: information filtering, document management, network security, electronic books and network library, search engine, it is not by keyword filtering, but based on text content filter or search, can greatly improve the accuracy of the reliability of the filter and search, no doubt make a significant breakthrough in the field of textKey words: text vector。 Characteristics will be。 Classification algorithms。 Classifier design.Key words: text vector。 feature reduction。 Classification algorithms。 Classifier design.1目錄 目錄第一章 緒論 文本分類背景和意義 文本分類的應(yīng)用領(lǐng)域 Internet上面應(yīng)用 網(wǎng)絡(luò)圖書館方面的應(yīng)用 網(wǎng)絡(luò)安全方面 電子郵件方面 目前國(guó)內(nèi)外研究現(xiàn)狀 文本分類的發(fā)展趨勢(shì)展望 本章小結(jié) 8第二章 文本分類主要過程 文本分類的過程圖 關(guān)于語料庫(kù) 文本分類語料庫(kù)介紹 文本分類,訓(xùn)練階段的主要步驟 文本分類,分類(測(cè)試)階段的主要過程 關(guān)于文本分詞 文本空間向量的形成 1VSM(Vector Space Model) 1常見的權(quán)值計(jì)算方法 1布爾框架(Booolean weighting) 1TFIDF計(jì)算權(quán)值算法 1詞典 1用戶詞典 1停用詞詞典 1常用的降維方法 1信息增益方法 1互信息方法 1期望交叉熵方法 1X^2統(tǒng)計(jì)方法 1文本證據(jù)權(quán)方法 1本章小結(jié) 18第三章 常用的文本分類方法 1k臨近分類器 1KNN算法概述 1KNN算法用于文本分類器構(gòu)造 1KNN算法用于分類 KNN算法效果評(píng)價(jià) 支持向量機(jī)分類器 2SVM算法概述 2SVM構(gòu)造分類器 2線性可分 2線性不可分 2映射函數(shù)(核函數(shù)) 2SVM分類評(píng)價(jià) 2決策樹算法分類器 2決策樹概述 2決策樹分類器的構(gòu)造 2決策樹分類器的構(gòu)造 2樸素貝葉斯分類器 2貝葉斯算法原理 2貝葉斯分類器 2貝葉斯進(jìn)行分類 2BP神經(jīng)網(wǎng)絡(luò)分類器 2BP神經(jīng)網(wǎng)絡(luò)原理 2BP神經(jīng)網(wǎng)絡(luò)分類器 BP神經(jīng)網(wǎng)絡(luò)進(jìn)行分類 3本章小結(jié) 31第四章 試驗(yàn)結(jié)果分析統(tǒng)計(jì) 3試驗(yàn)結(jié)果評(píng)估指標(biāo)簡(jiǎn)介 3使用KNN分類算法部分結(jié)果分析 3訓(xùn)練總篇數(shù)對(duì)分類結(jié)果的影響 3不同的K值對(duì)分類結(jié)果的影響 3降維深度對(duì)分類結(jié)果的影響 3采用不同的降維方法對(duì)試驗(yàn)結(jié)果的影響 3分而統(tǒng)計(jì)各個(gè)類別的詳細(xì)信息 3使用SVM分類算法結(jié)果分析 3訓(xùn)練總篇數(shù)對(duì)分類結(jié)果的影響 3降維深度對(duì)分類結(jié)果的影響 3采用不同的降維方法對(duì)試驗(yàn)結(jié)果的影響 3分而統(tǒng)計(jì)各個(gè)類別的詳細(xì)信息 本章小結(jié) 41總結(jié)與展望 42參考文獻(xiàn) 44致謝 45附錄 46 第一章 緒論、文本分類背景和意義 互聯(lián)網(wǎng)發(fā)展,網(wǎng)上電子圖書(txt文檔、pdf文檔、