【正文】
中的正標記樣本所占比例來估計無標記樣本中的正標記樣本比例,進而估計出值。在TSVM中未標記的數(shù)據(jù)也被使用,目標是找到未標記數(shù)據(jù)的一個標記,以便一個線性邊界在原始數(shù)據(jù)和未標記數(shù)據(jù)之間有最大邊緣。但是,其背后的優(yōu)化問題是困難的。自訓練還用于語法分析和機器翻譯。如果預測的可信任度降低到某個門檻值,一些算法試圖避免這一點通過“忘掉”未標記的數(shù)據(jù)點。這種方法來源于人類在沒有直接老師的情況下,對自己以前的經(jīng)歷進行自學習,半監(jiān)督學習中的自訓練即是自動地對未標記的數(shù)據(jù)進行標記,自訓練是一個迭代地對自身進行預測并且迭代地訓練分類器的過程。然后分類器用于對未標記的數(shù)據(jù)進行分類。而EM技術則是在每次迭代中,對每篇未標記文檔都標記一個臨時類別,直到迭代收斂。實驗結果表明,利用聯(lián)合訓練得到的訓練集進行文本分類,平均分類錯誤率比EMNB方法要低,性能比較穩(wěn)定。聯(lián)合訓練通過NB(Naive Bayes)分類器訓練兩種不同特征生成的單詞,由此建立兩個內(nèi)嵌的分類器A和B,利用已標記文檔,A用網(wǎng)頁特征的單詞訓練,B用鏈接特征的單詞訓練。而主要的半監(jiān)督算法有:EM算法、S3VMs、自訓練、協(xié)同訓練、基于圖的方法等。目前,已經(jīng)有一些基于這些約束的算法,例如相關成分分析(Relevant ComponentAnalysis)[9],這些方法在實際的分類問題中,獲得了很好的性能。顯然是與問題相關的,在實驗中,可以設計均勻的地方變化比較大或者存在梯度的人工仿真數(shù)據(jù)集合,這時如果利用聚類假設進行半監(jiān)督學習應當在特定的核空間才能進行。半監(jiān)督學習實際應用的研究隨著許多實際領域需要分析和利用半監(jiān)督數(shù)據(jù)集廣泛開展起來。國際研究者同時開展了與半監(jiān)督學習有著密切關聯(lián)的一些相關研究,具有代表性的是利用半監(jiān)督數(shù)據(jù)和數(shù)據(jù)的不同特征維子集在數(shù)據(jù)的不同視圖上同時訓練具有良好性能的學習機器。近幾年隨著機器學習理論在數(shù)據(jù)分析和數(shù)據(jù)挖掘的實際問題,例如網(wǎng)頁檢索和文本分類,基于生物特征的身份識別,圖像檢索和視頻檢索,醫(yī)學數(shù)據(jù)處理等問題中的廣泛應用,半監(jiān)督學習在理論和實際應用研究中都獲得了長足的發(fā)展。近幾年隨著機器學習理論在數(shù)據(jù)分析和數(shù)據(jù)挖掘的實際問題,例如網(wǎng)頁檢索和文本分類,基于生物特征的身份識別,圖像檢索和視頻檢索,醫(yī)學數(shù)據(jù)處理等問題中的廣泛應用,半監(jiān)督學習在理論和實際應用研究中都獲得了長足的發(fā)展。半監(jiān)督學習除了提供給學習算法未標記的數(shù)據(jù),還要提供給學習算法一些監(jiān)督信息。無監(jiān)督學習通過對沒有標記的訓練示例進行學習,以發(fā)現(xiàn)訓練示例中隱藏的結構性知識。全文共分五章,具體安排如下:第一章是引言,介紹本文研究背景;第二章是半監(jiān)督學習,介紹關于半監(jiān)督的一些相關知識;第三章是文本分類,介紹文本分類的一些基本知識及文本分類的關鍵技術;第四章是基于EM和KNN的半監(jiān)督文本分類算法,提出了一種基于EM和Knn的半監(jiān)督文本分類算法,并分析了算法運行的效率;第五章是實驗與分析,首先用C語言實現(xiàn)本文算法的過程,然后通過標準數(shù)據(jù)集的實驗驗證和分析了本文算法的有效性。同時,網(wǎng)上存在大量容易獲得的未標識數(shù)據(jù)資源,半監(jiān)督學習算法就是利用這些未標注樣本,在傳統(tǒng)的機器學習方法中結合未標注樣本進行學習的算法。[1][3]不可否認,上世紀90年代以來,文本分類技術取得了很大的進步,取得了值得稱道的喜人成績。例如,雖然各種搜索引擎部分地解決了Web上的資源發(fā)現(xiàn)問題,但由于搜索引擎存在著信息相關度差、精確度不高等原因,效果遠不能使人滿意;同時,搜索引擎的目的在于發(fā)現(xiàn)Web上的資源,就Web上的知識發(fā)現(xiàn)而言,即使檢索精確度再高也無法勝任?;跈C器學習的文本分類方法,更注重分類器的模型自動挖掘和生成及動態(tài)優(yōu)化能力,在分類效果和靈活性上都比之前基于知識工程和專家系統(tǒng)的文本分類模式有較大的提高與進步。1960年,M.E.Maron在Journal of ACM上發(fā)表了有關自動分類的第一篇文章《On Relevance Probabilistic Indexing and Information Retrieva1》,提出了自動關鍵詞分類技術,正式宣告了自動分類技術的誕生。其中,文本分類(TextClassification)技術是信息檢索和文本挖掘的重要基礎。 KNN目 錄1 引言 1 1 22 半監(jiān)督學習 3 3 4 5(Cotraining) 5 6(S3VMs) 7(GraphBased Methods) 8 93 文本分類 10 10 10 11 12 14 16 17 22 254 基于EM和KNN的半監(jiān)督文本分類 27 27 27 27 EM算法 30 KNN算法 31 31 32 32 33 35 36 37 385 實驗與分析 39 39 39 39 43 43總結 44參考文獻 45致 謝 46中國礦業(yè)大學2009屆本科畢業(yè)設計(論文) 第46頁1 引言隨著信息技術的發(fā)展,互聯(lián)網(wǎng)數(shù)據(jù)及資源呈現(xiàn)海量特征,而且,越來越多的信息以電子文本的形式存在。關鍵詞:文本分類;半監(jiān)督學習;聚類;EM;KNNABSTRACTWith the emergence of Internet, a large number of text messages began to exist in the form of puterreadable, to the traditional manual way for organizations to collate the information is timeconsuming effort and the result is not satisfactory. As the key technology in organizing and processing large mount of document data, Text classification can use the machine to collate the text analysis, allowing users from the tedious work of document processing liberated and can greatly improve the utilization of information. Text classification is a supervised leaning task of assigning natural language text documents to one or more predefined categories or classes according to their contents. Moreover, text classification has the broad applied future as the technical basis of information filtering, information retrieval, search engine, text database, and digital library and so on..This thesis firstly introduces the background of the text classification, text classification using semisupervised algorithm and a few key technologies about text classification. Secondly considering the contradiction of deadly need for large labeled trainset to obtain high classification accuracy and the scarcity of labeled documents,this thesis emphasizes on improvement of Semisupervised classification algorithms, Finally we design a document classification system. In order to ensure the accuracy of classification, using a data set different standards for texting and evaluation of the performance of their classification. The experiments above showed the superior performance of our method over existing methods when labeled data size is extremely small. When there is sufficient labeled data,our method is parable to other existing algorithms. Keywords: text classification。本文首先介紹了文本分類的背景,文本分類所用的半監(jiān)督算法及文本分類的幾個關鍵技術。 電子信息科學與技術畢業(yè)論文專 業(yè): 電子信息科學與技術 題 目: 基于半監(jiān)督的文本分類算法 摘 要隨著Internet的出現(xiàn),大量的文字信息開始以計算機可讀的形式存在,以傳統(tǒng)的手工方式對這些信息進行組織整理既費時費力且效果不理想。而作為信息過濾、信息檢索、搜索引擎、文本數(shù)據(jù)庫、數(shù)字化圖書館等領域的技術基礎,文本分類技術有著廣泛的應用前景。通過以上實驗表明,當有足夠的己標識文檔時,本算法與其它算法性能相當,但當已標識文檔很少時,本算法優(yōu)于現(xiàn)有的其它算法。 EM。為了有效地管理和利用這些分布式的海量信息,基于內(nèi)容的信息檢索和數(shù)據(jù)挖掘逐漸成為備受關注的領域。早在1957年,美國IBM公司的H.P.Luhn在自動分類領域最先進行了開創(chuàng)性的研究,提出了詞頻統(tǒng)計思想用于自動分類。從20世紀9O年代開始,隨著機器學習技術的不斷進步和發(fā)展,為自動文本分類器的出現(xiàn)奠定了基礎[3]。從此以后,文本分類器處理海量信息的能力逐步受到IT業(yè)和廣大用戶的賞識,開始發(fā)揮越來越大的社會與經(jīng)濟效益。Web文本挖掘技術可以同搜索引擎、信息推送、信息過濾等信息處理技術相結合,有效地提高了信息服務的質量。絕大數(shù)的有監(jiān)督的機器學習方法依賴于標注的訓練樣本集,忽略了未標注樣本的作用,利用