freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

電子信息科學(xué)與技術(shù)畢業(yè)論文-文庫(kù)吧資料

2025-01-19 14:35本頁(yè)面
  

【正文】 權(quán)重和成反比。 詞頻權(quán)重該方法將特征詞的頻次作為權(quán)重。 布爾權(quán)重布爾權(quán)重是最簡(jiǎn)單的一種加權(quán)方法,如果特征詞出現(xiàn)次數(shù)為0,則其權(quán)重為0,如果特征詞出現(xiàn)詞數(shù)大于0,則其權(quán)重為1。目前最普遍的賦權(quán)重的方法是運(yùn)用統(tǒng)計(jì)方法,即用文本的統(tǒng)計(jì)信息,主要是詞頻,來(lái)計(jì)算特征項(xiàng)的權(quán)重。一個(gè)詞單獨(dú)可能對(duì)分類器的作用不大,選擇時(shí)被刪去,但和其它一些詞結(jié)合卻是很好的辨別因素等等。和是任意不同但相關(guān)的文檔,術(shù)語(yǔ)的權(quán)值可由下式計(jì)算出: (37)但是實(shí)際中發(fā)現(xiàn)某些值很低的特征反而是信息量比較高的,不能從特征空間中刪去,因此這種方法在某些情況下不可靠。算法的計(jì)算復(fù)雜度也為。對(duì)于詞,我們可以采用兩種方法來(lái)求取其在訓(xùn)練集上的統(tǒng)計(jì)量值: (35)或是: (36) 同相同,如果有個(gè)類,每個(gè)就會(huì)有個(gè)值,取它們的平均,就能得到特征選取所需的一個(gè)線性序列。這兩個(gè)向量間的不同之處在于互信息是一個(gè)非規(guī)格化的值,其取值范圍很大,特別是對(duì)于那些邊緣概率分布很小的情況。這樣的話,==/2,而==。和類似,如果和不相關(guān),則 (,)值為0,因?yàn)樵谶@種情況下,個(gè)訓(xùn)練文本的數(shù)目應(yīng)該在這四種文本中均勻分布,即===。 為和同時(shí)沒(méi)有出現(xiàn)的次數(shù)。 為出現(xiàn)而沒(méi)有出現(xiàn)的次數(shù)。如果特征項(xiàng)和類別反相關(guān),就說(shuō)明含有特征項(xiàng)的文檔不屬于的概率要大一些,這對(duì)于判斷一篇文檔是否不屬于類別也是很有指導(dǎo)意義的。假設(shè)文檔集合分為類,記為,…,特征項(xiàng)對(duì)于文檔類別的互信息 (,)的計(jì)算公式如下: (33)其中 (,)為特征項(xiàng)出現(xiàn)在類中的概率, (,)為特征項(xiàng)在所有文檔中的出現(xiàn)概率。文本分類中,一個(gè)特征詞只有一個(gè)信息增益和文檔頻率,但擁有的互信息數(shù)目卻是與訓(xùn)練語(yǔ)料中類別的數(shù)目相同的,對(duì)應(yīng)于每個(gè)類,該特征詞都會(huì)有一個(gè)互信息值。 互信息互信息方法(Mutual Information),可以度量特征項(xiàng)和類別的共現(xiàn)關(guān)系,特征項(xiàng)對(duì)于類別的互信息越大,說(shuō)明特征中包含的與類別有關(guān)的鑒別信息就越多。 表示類文本在語(yǔ)料中現(xiàn)的概率。它從信息論角度出發(fā),用各個(gè)特征取值情況來(lái)劃分學(xué)習(xí)樣本空間,根據(jù)所獲取信息增益的多寡,來(lái)選擇相應(yīng)的特征。但在信息檢索領(lǐng)域,文檔頻率較低的特征項(xiàng)被認(rèn)為是信息含量較高,與文本分類中的原則是相反的。文檔頻率的計(jì)算復(fù)雜度較低,隨訓(xùn)練集的增加而線性增加,能夠適用于大規(guī)模語(yǔ)料,因此是特征降維的常用方法。文檔頻率文檔頻率(Document Frequency),就是文檔集合中出現(xiàn)某個(gè)特征項(xiàng)的文檔數(shù)目。常用的文本特征選擇方法有:文檔頻率()、信息增益()、互信息()、統(tǒng)計(jì)量(),文本證據(jù)權(quán),優(yōu)勢(shì)率,統(tǒng)計(jì)()等。因此,需要在不犧牲分類質(zhì)量的前提下盡可能地降低特征項(xiàng)空間的維數(shù)。實(shí)現(xiàn)文本自動(dòng)分類的基本困難之一是特征項(xiàng)空間的維數(shù)過(guò)高。(3)利用余弦公式,根據(jù)待測(cè)文獻(xiàn)與訓(xùn)練文獻(xiàn)之間的相似度對(duì)其進(jìn)行排序。向量空間模型的主要優(yōu)點(diǎn)在于:(l)標(biāo)引詞加權(quán)改進(jìn)了檢索效果。這樣自然語(yǔ)言形式的文本文檔就可以在向量空間中完全由特征向量來(lái)表示。特征項(xiàng)的權(quán)重:對(duì)于含有個(gè)特征項(xiàng)的文本,常用一定的權(quán)重表示特征項(xiàng)在文本中的重要程度。下面介紹文檔向量空間的一些基本概念:文本:泛指一般的文獻(xiàn)或文獻(xiàn)中的片段(段落、句子或句子組),一般指一篇文章(假設(shè)文檔中不包含除文字以外的其他多媒體信息)。這樣,只需要提取出一份文檔中蘊(yùn)涵的各個(gè)特征詞的詞頻信息就可以對(duì)其進(jìn)行正確的分類。向量空間模型的基于兩個(gè)基本假設(shè),一是文檔所屬的類別僅與某些特定的詞或詞組在該文檔中出現(xiàn)的頻數(shù)有關(guān),而與詞或詞組在文檔中出現(xiàn)的位置或順序無(wú)關(guān)。隨著信息檢索技術(shù)的發(fā)展,逐漸發(fā)展起來(lái)的主要有三個(gè)文本檢索模型,分別是:布爾模型[10] (Boolean Model,BM)、向量空間模型[12][13](Vector Space Model,VSM)和概率模型 (Probabilistic Model,PM),這些模型從不同角度使用不同的方法處理特征加權(quán)、類別學(xué)習(xí)和相似度計(jì)算等問(wèn)題,而最經(jīng)典、最實(shí)用的是向量空間模型,本文的研究是建立在向量空間模型之上的。在當(dāng)前的計(jì)算機(jī)技術(shù)的研究水平下,機(jī)器還不可能識(shí)別自然文本,從根本上說(shuō),它只認(rèn)識(shí)0和1,所以必須將文本轉(zhuǎn)換為計(jì)算機(jī)可以識(shí)別的形式。(1) 生成訓(xùn)練語(yǔ)料庫(kù)的文本特征全集;(2) 文本特征提取,形成特征子集;(3) 采用某種數(shù)學(xué)模型和分類方法進(jìn)行分類器構(gòu)造;(4) 利用訓(xùn)練語(yǔ)料庫(kù)中的文本對(duì)分類器進(jìn)行訓(xùn)練,得到分類器的相關(guān)參數(shù)。如上海交通大學(xué)、中國(guó)科學(xué)院、清華大學(xué)、北京大學(xué)、北京信息工程學(xué)院、復(fù)旦大學(xué)、東北大學(xué)、山西大學(xué)以及新加坡、香港和臺(tái)灣的一些大學(xué)都有相應(yīng)的研究成果,也研制出了不少的實(shí)驗(yàn)系統(tǒng)。關(guān)于中文文本分類的研究相對(duì)較少,國(guó)內(nèi)外的研究基本上是在英文文本分類研究的基礎(chǔ)上采取相應(yīng)策略,結(jié)合中文文本的特定知識(shí),然后應(yīng)用于中文之上,繼而形成中文文本自動(dòng)分類研究體系。1981年侯漢清對(duì)計(jì)算機(jī)在文獻(xiàn)分類工作中的應(yīng)用作了探討[27],并介紹了國(guó)外在計(jì)算機(jī)管理分類表、計(jì)算機(jī)分類檢索、計(jì)算機(jī)自動(dòng)分類、計(jì)算機(jī)編制分類表等方面的概況。Susan Dumais等學(xué)者對(duì)這5種方法進(jìn)行了專門的比較研究。這些方法在英文以及歐洲語(yǔ)種文本自動(dòng)分類上有廣泛的研究,而且很多研究表明KNN和SVM是英文文本分類的最好方法。第三階段(1975年至今),自動(dòng)分類的實(shí)用化階段。國(guó)外的自動(dòng)分類研究大體上可以分為三個(gè)階段:第一階段(1958年1964年)主要進(jìn)行自動(dòng)分類的可行性研究。 1962年博科()等人提出了利用因子分析法進(jìn)行文獻(xiàn)的自動(dòng)分類。國(guó)外自動(dòng)分類研究始于1950年代末,他首先將詞頻統(tǒng)計(jì)的思想用于文本分類中。主要是由于單類別分類算法可以非常容易地轉(zhuǎn)化成多類別分類算法,不過(guò)這種方法有一個(gè)假設(shè)條件,即各個(gè)類之間是獨(dú)立的,沒(méi)有相互依存關(guān)系或其它影響,當(dāng)然在實(shí)際應(yīng)用中,絕大多數(shù)情況是可以滿足此假設(shè)條件的。當(dāng)遇到新文本時(shí),根據(jù)總結(jié)出的類別判別規(guī)則確定文本所屬的類別。從數(shù)學(xué)的角度來(lái)看,文本分類是一個(gè)映射過(guò)程,它將未標(biāo)明類別的文本映射到現(xiàn)有類別中,該映射可以是一一映射,也可以是一對(duì)多映射,因?yàn)橥ǔR黄谋究梢耘c多個(gè)類別相關(guān)聯(lián)。文本分類是指按照預(yù)先定義的分類體系,根據(jù)文本內(nèi)容自動(dòng)地將文本集合的每個(gè)文本歸入某個(gè)類別,系統(tǒng)的輸入是需要進(jìn)行分類處理的大量文本,而系統(tǒng)的輸出是與文本關(guān)聯(lián)的類別。但是,這種人工分類的做法存在著許多弊端,不僅耗費(fèi)大量的人力、物力和財(cái)力,而且存在著分類性能不佳的問(wèn)題。3 文本分類Internet信息量的迅猛增加,增加了人們獲取有效信息的難度,而且信息產(chǎn)生的速度遠(yuǎn)遠(yuǎn)超過(guò)人們收集信息、利用信息的速度,使得人們無(wú)法快速地查找到最新的信息,從而造成了時(shí)間、資金和精力的巨大浪費(fèi)。但有時(shí)源數(shù)據(jù)已經(jīng)具有圖的形式。圖的信息傳播也能有助于改進(jìn)一個(gè)給定的考慮未標(biāo)記的數(shù)據(jù)的分類。現(xiàn)在有多種方法來(lái)定義圖的拉普拉斯算子,較為著名的有:規(guī)范化圖的拉普拉斯算子,未規(guī)范化圖的拉普拉斯算子,分別表示為:通常預(yù)測(cè)由未標(biāo)記節(jié)點(diǎn)的標(biāo)記組成。邊的權(quán)重我指示出數(shù)據(jù)間的相似度。大多數(shù)圖方法通過(guò)利用圖的拉普拉斯算子來(lái)涉及到圖。當(dāng)前有許多種基于圖的方法,它們都是相似的。圖的正規(guī)化:許多基于圖的方法可被視作估算一個(gè)在圖上的函數(shù),需要同時(shí)滿足兩個(gè)條件:(1) 其應(yīng)該接近于給定的在已標(biāo)記的節(jié)點(diǎn)的標(biāo)記;(2) 其應(yīng)在整個(gè)圖上是平滑的。圖方法是非參量的、判別的、直推式的。(GraphBased Methods)這曾經(jīng)是半監(jiān)督學(xué)習(xí)研究最活躍的領(lǐng)域。鐘清流等提出了一種漸近式半監(jiān)督學(xué)習(xí)算法[25], 它采用的特定取樣規(guī)則和核參數(shù)可以確保減少誤標(biāo)記數(shù)量并控制決策面的動(dòng)態(tài)調(diào)節(jié)進(jìn)程,通過(guò)刪除非支持向量來(lái)提高訓(xùn)練速度。對(duì)這個(gè)問(wèn)題,陳毅松等提出了一種改進(jìn)算法漸進(jìn)直推式支持向量機(jī)(Progressive Transductive Support Vector Machine, PTSVM)[24],該算法通過(guò)成對(duì)標(biāo)記和標(biāo)記重置的辦法改進(jìn)了TSVM的性能,但只適合于無(wú)標(biāo)記樣本較少的情況,樣本較多時(shí),這種頻繁的標(biāo)記與標(biāo)記重置將導(dǎo)致算法的復(fù)雜性迅速增加,并且遠(yuǎn)超過(guò)一般的TSVM算法。但該算法在執(zhí)行前必須人為指定待訓(xùn)練的無(wú)標(biāo)記樣本中的正標(biāo)記樣本數(shù),而值一般是很難準(zhǔn)確地估計(jì)的,在TSVM算法中采用了一種簡(jiǎn)單的方法,即根據(jù)有標(biāo)記樣本中的正標(biāo)記樣本所占比例來(lái)估計(jì)無(wú)標(biāo)記樣本中的正標(biāo)記樣本比例,進(jìn)而估計(jì)出值。盡管找到精確的TSVM解是NP完全問(wèn)題,但一些近似的方法已經(jīng)提出并有積極的效果[23]。在TSVM中未標(biāo)記的數(shù)據(jù)也被使用,目標(biāo)是找到未標(biāo)記數(shù)據(jù)的一個(gè)標(biāo)記,以便一個(gè)線性邊界在原始數(shù)據(jù)和未標(biāo)記數(shù)據(jù)之間有最大邊緣。TSVM是一種使用未標(biāo)記數(shù)據(jù)的標(biāo)準(zhǔn)的支持向量機(jī)的擴(kuò)展。但是,其背后的優(yōu)化問(wèn)題是困難的。(S3VMs)半監(jiān)督支持向量機(jī)(SemiSupervised SVMs)本來(lái)被稱為直推式支持向量機(jī)(TSVM),之所以現(xiàn)在稱為半監(jiān)督支持向量機(jī)是因?yàn)樗鼈円策m用于歸納,而不僅僅是直推。自訓(xùn)練還用于語(yǔ)法分析和機(jī)器翻譯。Yarowsky使用自訓(xùn)練用于詞義消歧。如果預(yù)測(cè)的可信任度降低到某個(gè)門檻值,一些算法試圖避免這一點(diǎn)通過(guò)“忘掉”未標(biāo)記的數(shù)據(jù)點(diǎn)。生成式模型以及EM方法可看成是“軟”自訓(xùn)練的特例。這種方法來(lái)源于人類在沒(méi)有直接老師的情況下,對(duì)自己以前的經(jīng)歷進(jìn)行自學(xué)習(xí),半監(jiān)督學(xué)習(xí)中的自訓(xùn)練即是自動(dòng)地對(duì)未標(biāo)記的數(shù)據(jù)進(jìn)行標(biāo)記,自訓(xùn)練是一個(gè)迭代地對(duì)自身進(jìn)行預(yù)測(cè)并且迭代地訓(xùn)練分類器的過(guò)程。然后分類器重新訓(xùn)練并且重復(fù)上述過(guò)程。然后分類器用于對(duì)未標(biāo)記的數(shù)據(jù)進(jìn)行分類。多種資源數(shù)據(jù)也不易統(tǒng)一切分特征屬性,在某些領(lǐng)域(如自然語(yǔ)言),聯(lián)合訓(xùn)練算法也存在許多局限[6][7]。而EM技術(shù)則是在每次迭代中,對(duì)每篇未標(biāo)記文檔都標(biāo)記一個(gè)臨時(shí)類別,直到迭代收斂。原因之二是它將兩個(gè)用NB分類算法建立的分類器作為內(nèi)嵌的分類器訓(xùn)練數(shù)據(jù),從而降低了NB假設(shè)條件的影響。實(shí)驗(yàn)結(jié)果表明,利用聯(lián)合訓(xùn)練得到的訓(xùn)練集進(jìn)行文本分類,平均分類錯(cuò)誤率比EMNB方法要低,性能比較穩(wěn)定。然后利用此訓(xùn)練集集合某種分類器再進(jìn)行分類。聯(lián)合訓(xùn)練通過(guò)NB(Naive Bayes)分類器訓(xùn)練兩種不同特征生成的單詞,由此建立兩個(gè)內(nèi)嵌的分類器A和B,利用已標(biāo)記文檔,A用網(wǎng)頁(yè)特征的單詞訓(xùn)練,B用鏈接特征的單詞訓(xùn)練。(Cotraining)CoTraining方法[3]通過(guò)把特征集分為兩個(gè)獨(dú)立部分并分別在各個(gè)特征空間下用己標(biāo)記數(shù)據(jù)訓(xùn)練分類器,再用分類器來(lái)分類未標(biāo)記數(shù)據(jù),挑出最確定的正例和反例加到標(biāo)記例子中,兩個(gè)分類器針對(duì)增大的標(biāo)記例子集合重新訓(xùn)練,該過(guò)程重復(fù)執(zhí)行。而主要的半監(jiān)督算法有:EM算法、S3VMs、自訓(xùn)練、協(xié)同訓(xùn)練、基于圖的方法等。根據(jù)半監(jiān)督學(xué)習(xí)算法的工作方式,可以大致將現(xiàn)有的很多半監(jiān)督學(xué)習(xí)算法分為三大類。目前,已經(jīng)有一些基于這些約束的算法,例如相關(guān)成分分析(Relevant ComponentAnalysis)[9],這些方法在實(shí)際的分類問(wèn)題中,獲得了很好的性能。第二個(gè)問(wèn)題是如何將監(jiān)督信息中的等約束和不等約束(Sideinformation)[8]引入更多的半監(jiān)督學(xué)習(xí)算法。顯然是與問(wèn)題相關(guān)的,在實(shí)驗(yàn)中,可以設(shè)計(jì)均勻的地方變化比較大或者存在梯度的人工仿真數(shù)據(jù)集合,這時(shí)如果利用聚類假設(shè)進(jìn)行半監(jiān)督學(xué)習(xí)應(yīng)當(dāng)在特定的核空間才能進(jìn)行。主要探討的問(wèn)題是在歐氏空間聚集程度比較高的地方,也就是比較大的地方,變化一定很平緩的假設(shè)的合理性。半監(jiān)督學(xué)習(xí)實(shí)際應(yīng)用的研究隨著許多實(shí)際領(lǐng)域需要分析和利用半監(jiān)督數(shù)據(jù)集廣泛開(kāi)展起來(lái)。一方面半監(jiān)督學(xué)習(xí)的前提:聚類假設(shè)的數(shù)學(xué)分析依然不是十分完善,另一方面不同的監(jiān)督和非監(jiān)督算法的半監(jiān)督修改版本依然存在相當(dāng)多的問(wèn)題,有的因計(jì)算量太大受到問(wèn)題規(guī)模的限制,有的是因?yàn)槿狈碚撘罁?jù)只是技術(shù)上的設(shè)計(jì),有的是因?yàn)槟P蛥?shù)過(guò)多非常容易陷入局部極值等等。國(guó)際研究者同時(shí)開(kāi)展了與半監(jiān)督學(xué)習(xí)有著密切關(guān)聯(lián)的一些相關(guān)研究,具有代表性的是利用半監(jiān)督數(shù)據(jù)和數(shù)據(jù)的不同特征維子集在數(shù)據(jù)的不同視圖上同時(shí)訓(xùn)練具有良好性能的學(xué)習(xí)機(jī)器。其涵蓋的范圍非常廣泛,例如半監(jiān)督回歸問(wèn)題;利用標(biāo)簽和特征維都缺失的數(shù)據(jù)集進(jìn)行學(xué)習(xí);標(biāo)簽有噪聲時(shí)的數(shù)據(jù)處理;利用少量正樣本和大量未標(biāo)注數(shù)據(jù)進(jìn)行學(xué)習(xí)以及對(duì)于大量未標(biāo)注數(shù)據(jù)中已知只存在少量正樣本的情況下對(duì)于正樣本進(jìn)行檢測(cè);對(duì)各種監(jiān)督學(xué)習(xí)算法進(jìn)行修改,探討如何融入非監(jiān)督數(shù)據(jù)信息或者對(duì)于非監(jiān)督學(xué)習(xí)算法進(jìn)行修改,探討監(jiān)督數(shù)據(jù)信息的引入;利用有限混合模型對(duì)于數(shù)據(jù)的概率分布進(jìn)行建?;蛘呃闷渌P蛯?duì)于數(shù)據(jù)標(biāo)簽關(guān)于特征維的條件概率進(jìn)行建模,利用EM算法學(xué)習(xí)模型參數(shù)的半監(jiān)督學(xué)習(xí)的研究;引入合適的數(shù)學(xué)方法進(jìn)行半監(jiān)督學(xué)習(xí),例如基于核矩陣的譜的分析,高斯隨機(jī)場(chǎng)的利用,利用圖論中的方法來(lái)對(duì)于樣本集進(jìn)行聚類分析;半監(jiān)督數(shù)據(jù)的流形分析等。近幾年隨著機(jī)器學(xué)習(xí)理論在數(shù)據(jù)分析和數(shù)據(jù)挖掘的實(shí)際問(wèn)題,例如網(wǎng)頁(yè)檢索和文本分類,基于生物特征的身份識(shí)別,圖像檢索和視頻檢索,醫(yī)學(xué)數(shù)據(jù)處理等問(wèn)題中的廣泛應(yīng)用,半監(jiān)督學(xué)習(xí)在理論和實(shí)際應(yīng)用研究中都獲得了長(zhǎng)足的發(fā)展。半監(jiān)督學(xué)習(xí)的理論研究對(duì)于我們深入理解機(jī)器學(xué)習(xí)中的許多重要理論問(wèn)題,例如數(shù)據(jù)的流形與數(shù)據(jù)的類別信息的關(guān)系,缺失數(shù)據(jù)的合理處理,標(biāo)注數(shù)據(jù)的有效利用,監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)之間的聯(lián)系,主動(dòng)學(xué)習(xí)算法的設(shè)計(jì)等都有非常重要的指導(dǎo)意義。近幾年隨著機(jī)器學(xué)習(xí)理論在數(shù)據(jù)分析和數(shù)據(jù)挖掘的實(shí)際問(wèn)題,例如網(wǎng)頁(yè)檢索和文本分類,基于生物特征的身份識(shí)別,圖像檢索和視頻檢索,醫(yī)學(xué)數(shù)據(jù)處理等問(wèn)題中的廣泛應(yīng)用,半監(jiān)督學(xué)習(xí)在理論和實(shí)際應(yīng)用研究中都獲得了長(zhǎng)足的發(fā)展。這里均為維向量,為示例的標(biāo)記,||和||分別為和的大小,即它們所包含的示例數(shù)。半監(jiān)督學(xué)習(xí)除了提供給學(xué)習(xí)算法未標(biāo)記的數(shù)據(jù),還要提供給學(xué)習(xí)算法一些監(jiān)督信息。然而,未標(biāo)記的數(shù)據(jù)能夠很容易就被收集到,但卻沒(méi)有方法使用它們。無(wú)監(jiān)督學(xué)習(xí)通過(guò)對(duì)沒(méi)有標(biāo)記的訓(xùn)練示例進(jìn)行學(xué)習(xí),以發(fā)現(xiàn)訓(xùn)練示例中隱藏的結(jié)構(gòu)性知識(shí)。2 半監(jiān)督學(xué)習(xí)半監(jiān)督學(xué)習(xí)是相對(duì)于監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)提出來(lái)的,其介于監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)之間。全文共分
點(diǎn)擊復(fù)制文檔內(nèi)容
高考資料相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1