freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

電子信息科學(xué)與技術(shù)畢業(yè)論文-展示頁

2025-01-22 14:35本頁面
  

【正文】 五章,具體安排如下:第一章是引言,介紹本文研究背景;第二章是半監(jiān)督學(xué)習(xí),介紹關(guān)于半監(jiān)督的一些相關(guān)知識;第三章是文本分類,介紹文本分類的一些基本知識及文本分類的關(guān)鍵技術(shù);第四章是基于EM和KNN的半監(jiān)督文本分類算法,提出了一種基于EM和Knn的半監(jiān)督文本分類算法,并分析了算法運行的效率;第五章是實驗與分析,首先用C語言實現(xiàn)本文算法的過程,然后通過標(biāo)準(zhǔn)數(shù)據(jù)集的實驗驗證和分析了本文算法的有效性。本文首先介紹半監(jiān)督和文本分類的一些相關(guān)知識,然后提出了一種基于EM和KNN的半監(jiān)督文本分類算法,給出了算法的思想和步驟,并對其性能進(jìn)行了測試分析。同時,網(wǎng)上存在大量容易獲得的未標(biāo)識數(shù)據(jù)資源,半監(jiān)督學(xué)習(xí)算法就是利用這些未標(biāo)注樣本,在傳統(tǒng)的機(jī)器學(xué)習(xí)方法中結(jié)合未標(biāo)注樣本進(jìn)行學(xué)習(xí)的算法。在機(jī)器學(xué)習(xí)領(lǐng)域,分類屬于監(jiān)督學(xué)習(xí)。[1][3]不可否認(rèn),上世紀(jì)90年代以來,文本分類技術(shù)取得了很大的進(jìn)步,取得了值得稱道的喜人成績。Web文本挖掘技術(shù)包括Web網(wǎng)頁文本內(nèi)容的挖掘及結(jié)構(gòu)挖掘。例如,雖然各種搜索引擎部分地解決了Web上的資源發(fā)現(xiàn)問題,但由于搜索引擎存在著信息相關(guān)度差、精確度不高等原因,效果遠(yuǎn)不能使人滿意;同時,搜索引擎的目的在于發(fā)現(xiàn)Web上的資源,就Web上的知識發(fā)現(xiàn)而言,即使檢索精確度再高也無法勝任。這種分類方法適應(yīng)性強(qiáng),方便移植,不需要行業(yè)專家的介入?;跈C(jī)器學(xué)習(xí)的文本分類方法,更注重分類器的模型自動挖掘和生成及動態(tài)優(yōu)化能力,在分類效果和靈活性上都比之前基于知識工程和專家系統(tǒng)的文本分類模式有較大的提高與進(jìn)步?;谥R工程的分類系統(tǒng)具有較好的分類效果,但無法移植,需要大量領(lǐng)域?qū)<业膮⑴c。1960年,M.E.Maron在Journal of ACM上發(fā)表了有關(guān)自動分類的第一篇文章《On Relevance Probabilistic Indexing and Information Retrieva1》,提出了自動關(guān)鍵詞分類技術(shù),正式宣告了自動分類技術(shù)的誕生。因為文本分類可以極大地增強(qiáng)人們對海量信息的處理能力,早在上世紀(jì)中葉,有關(guān)文本分類的研究就已經(jīng)開展起來。其中,文本分類(TextClassification)技術(shù)是信息檢索和文本挖掘的重要基礎(chǔ)。截至2006年,全球每年制造、復(fù)制出的數(shù)字信息量共計1610億GB,這大約是有史以來出版的圖書信息總量的300萬倍。 KNN目 錄1 引言 1 1 22 半監(jiān)督學(xué)習(xí) 3 3 4 5(Cotraining) 5 6(S3VMs) 7(GraphBased Methods) 8 93 文本分類 10 10 10 11 12 14 16 17 22 254 基于EM和KNN的半監(jiān)督文本分類 27 27 27 27 EM算法 30 KNN算法 31 31 32 32 33 35 36 37 385 實驗與分析 39 39 39 39 43 43總結(jié) 44參考文獻(xiàn) 45致 謝 46中國礦業(yè)大學(xué)2009屆本科畢業(yè)設(shè)計(論文) 第46頁1 引言隨著信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)數(shù)據(jù)及資源呈現(xiàn)海量特征,而且,越來越多的信息以電子文本的形式存在。 clustering。關(guān)鍵詞:文本分類;半監(jiān)督學(xué)習(xí);聚類;EM;KNNABSTRACTWith the emergence of Internet, a large number of text messages began to exist in the form of puterreadable, to the traditional manual way for organizations to collate the information is timeconsuming effort and the result is not satisfactory. As the key technology in organizing and processing large mount of document data, Text classification can use the machine to collate the text analysis, allowing users from the tedious work of document processing liberated and can greatly improve the utilization of information. Text classification is a supervised leaning task of assigning natural language text documents to one or more predefined categories or classes according to their contents. Moreover, text classification has the broad applied future as the technical basis of information filtering, information retrieval, search engine, text database, and digital library and so on..This thesis firstly introduces the background of the text classification, text classification using semisupervised algorithm and a few key technologies about text classification. Secondly considering the contradiction of deadly need for large labeled trainset to obtain high classification accuracy and the scarcity of labeled documents,this thesis emphasizes on improvement of Semisupervised classification algorithms, Finally we design a document classification system. In order to ensure the accuracy of classification, using a data set different standards for texting and evaluation of the performance of their classification. The experiments above showed the superior performance of our method over existing methods when labeled data size is extremely small. When there is sufficient labeled data,our method is parable to other existing algorithms. Keywords: text classification。最后本文設(shè)計了一個文本分類原型系統(tǒng),為保證分類的準(zhǔn)確性,采用了不同的標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行測試,并評價了其分類的性能。本文首先介紹了文本分類的背景,文本分類所用的半監(jiān)督算法及文本分類的幾個關(guān)鍵技術(shù)。文本分類是指分析文本內(nèi)容并按一定的策略把文本歸入一個或多個合適的類別的應(yīng)用技術(shù)。 電子信息科學(xué)與技術(shù)畢業(yè)論文專 業(yè): 電子信息科學(xué)與技術(shù)   題 目: 基于半監(jiān)督的文本分類算法 摘 要隨著Internet的出現(xiàn),大量的文字信息開始以計算機(jī)可讀的形式存在,以傳統(tǒng)的手工方式對這些信息進(jìn)行組織整理既費時費力且效果不理想。文本分類作為處理和組織大量文本數(shù)據(jù)的關(guān)鍵技術(shù),可以利用機(jī)器來對文本進(jìn)行分析整理,使用戶從繁瑣的文檔處理工作中解放出來,并能極大地提高了信息的利用率。而作為信息過濾、信息檢索、搜索引擎、文本數(shù)據(jù)庫、數(shù)字化圖書館等領(lǐng)域的技術(shù)基礎(chǔ),文本分類技術(shù)有著廣泛的應(yīng)用前景。然后鑒于高分類精度需要大規(guī)模己標(biāo)記訓(xùn)練集而已標(biāo)記文檔缺乏,利用未標(biāo)識文檔進(jìn)行學(xué)習(xí)的半監(jiān)督學(xué)習(xí)算法己成為文本分類的研究重點這一情況,著重研究了半監(jiān)督分類算法。通過以上實驗表明,當(dāng)有足夠的己標(biāo)識文檔時,本算法與其它算法性能相當(dāng),但當(dāng)已標(biāo)識文檔很少時,本算法優(yōu)于現(xiàn)有的其它算法。 semisupervised leaning。 EM。統(tǒng)計表明,目前網(wǎng)頁的數(shù)量呈指數(shù)型增長,平均每年增加一倍。為了有效地管理和利用這些分布式的海量信息,基于內(nèi)容的信息檢索和數(shù)據(jù)挖掘逐漸成為備受關(guān)注的領(lǐng)域。文本分類在自然語言處理、信息組織與管理、內(nèi)容信息過濾等領(lǐng)域都有著廣泛的應(yīng)用。早在1957年,美國IBM公司的H.P.Luhn在自動分類領(lǐng)域最先進(jìn)行了開創(chuàng)性的研究,提出了詞頻統(tǒng)計思想用于自動分類。[1]從20世紀(jì)60年代起步至80年代末,文本分類主要是以專家人工構(gòu)建的知識工程技術(shù)為支撐,具有代表性的是卡內(nèi)基集團(tuán)為路透社開發(fā)的新聞自動分類系統(tǒng)(Construe System)。從20世紀(jì)9O年代開始,隨著機(jī)器學(xué)習(xí)技術(shù)的不斷進(jìn)步和發(fā)展,為自動文本分類器的出現(xiàn)奠定了基礎(chǔ)[3]。從預(yù)先經(jīng)人工正確分類的訓(xùn)練文本集合中學(xué)習(xí)類別的特征信息,根據(jù)算法生成分類器。從此以后,文本分類器處理海量信息的能力逐步受到IT業(yè)和廣大用戶的賞識,開始發(fā)揮越來越大的社會與經(jīng)濟(jì)效益。為此,我們需要開發(fā)比搜索引擎信息檢索技術(shù)更高層次的新技術(shù)。Web文本挖掘技術(shù)可以同搜索引擎、信息推送、信息過濾等信息處理技術(shù)相結(jié)合,有效地提高了信息服務(wù)的質(zhì)量。隨著時代的進(jìn)步,互聯(lián)網(wǎng)中分布傳播的海量電子化文本數(shù)量呈幾何級數(shù)增長,文本之間的關(guān)系也越來越復(fù)雜;同時,人們對分類效果評估指標(biāo)(如查全率和查準(zhǔn)率)的要求也越來越高,傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù)已經(jīng)呈現(xiàn)“老態(tài)”。絕大數(shù)的有監(jiān)督的機(jī)器學(xué)習(xí)方法依賴于標(biāo)注的訓(xùn)練樣本集,忽略了未標(biāo)注樣本的作用,利用大規(guī)模的標(biāo)注過的訓(xùn)練數(shù)據(jù)固然可以提高學(xué)習(xí)算法結(jié)果的準(zhǔn)確度,但是標(biāo)記必須由人手工完成,這是一項費時費力的工作,己經(jīng)不能適應(yīng)Internet網(wǎng)上信息的增長速度。無疑它將在一定程度上提高學(xué)習(xí)算法的性能。最后,給出了系統(tǒng)的實驗和分析結(jié)果。總結(jié)部分對本文的工作進(jìn)行了總結(jié),并指出了進(jìn)一步需要開展的工作。監(jiān)督學(xué)習(xí)通過具
點擊復(fù)制文檔內(nèi)容
高考資料相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1