【正文】
T LabsResearch, USA摘 要:,這里我們將它擴(kuò)展到不完全可分的訓(xùn)練數(shù)據(jù)集..關(guān)鍵詞:模式識(shí)別, 有效的學(xué)習(xí)算法, 神經(jīng)網(wǎng)路, 徑向基函數(shù)分類器, 多項(xiàng)式分類器1 介紹60多年前,[7](m1,∑1)和N(m2,∑2), m1 和m2為各個(gè)分布的均值向量, ∑1和∑2為各個(gè)分布的協(xié)方差矩陣,并給出最優(yōu)解為如下二次決策函數(shù): . (1)當(dāng)∑1 = ∑2 = ∑時(shí)該二次決策函數(shù)(1)退化為一個(gè)線性函數(shù): . (2)評(píng)估二次決策函數(shù)需要確定n(n+3)/2個(gè)自由參數(shù),(小于10n2)的情況下評(píng)估O(n2),在∑1 ≠∑2 時(shí)也采用線性判別函數(shù)(2),其中的∑采用如下形式: , (3).1962年,Rosenblatt[11]提出了一種不同的學(xué)習(xí)機(jī)器:感知器(或神經(jīng)網(wǎng)絡(luò)).感知器由相關(guān)聯(lián)的神經(jīng)元構(gòu)成,每個(gè)神經(jīng)元實(shí)現(xiàn)一個(gè)分類超平面,.Fig 1: A simple feedforward perceptron with 8 input units, 2 layers of hidden units, and 1 output unit. The grayshading of the Vector entries reflects their numeric value.Rosenblatt沒有提出通過調(diào)整網(wǎng)絡(luò)的所有權(quán)值來最小化向量集上誤差的算法,: (4),再次將構(gòu)建決策規(guī)則歸結(jié)為構(gòu)造某個(gè)空間的線性超平面.1986年,針對(duì)模式識(shí)別問題出現(xiàn)了通過調(diào)整神經(jīng)網(wǎng)絡(luò)所有權(quán)值來局部最小化向量集上誤差的算法[12,13,10,8],神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了分段線性決策函數(shù).本文提出了一種全新的學(xué)習(xí)機(jī)器,:,該決策面的一些性質(zhì)保證支持向量網(wǎng)絡(luò)具有好的推廣能力.例如:要構(gòu)造一個(gè)與二階多項(xiàng)式對(duì)應(yīng)的決策面,我們可以構(gòu)造一個(gè)特征空間Z,它有如下的N=n(n+3)/2個(gè)坐標(biāo): , n coordinates, , n coordinates, , n(n1)/2 coordinates ,其中,x = .分類超平面便是在該空間中構(gòu)造的.以上方法存在兩個(gè)問題:一個(gè)是概念上的,另一個(gè)是技術(shù)上的.(1)概念上的問題:怎樣找到一個(gè)推廣性很好的分類超平面?特征空間的維數(shù)將會(huì)很高,能將數(shù)據(jù)分開的超平面不一定都具有很好的推廣性.(2)技術(shù)上的問題:怎樣在計(jì)算上處理如此高維的空間?要在一個(gè)200維的空間中構(gòu)建一個(gè)4或5階的多項(xiàng)式,需要構(gòu)造一個(gè)上十億的特征空間.概念上的問題在1965年[14],構(gòu)造最優(yōu)超平面只需考慮訓(xùn)練集中決定分類隔間的少量數(shù)據(jù),則一個(gè)測(cè)試樣例被錯(cuò)判的期望概率以支持向量的期望數(shù)目與訓(xùn)練集向量數(shù)目比值為上界,即: . (5)注意,如果支持向量的個(gè)數(shù)相對(duì)與整個(gè)訓(xùn)練集很小,則構(gòu)建出來的分類超平面將具有很好的推廣性,通過實(shí)際問題我們驗(yàn)證了比值(5).Fig 2. An example of a separable problem in a 2 dimensional space. The support vectors, marked with grey squares, define the margin of largest separation between the two classes.令,特征空間中最優(yōu)超平面的權(quán)值可以寫成支持向量的某個(gè)線性組合 . (6)從而特征空間里的線性決策函數(shù)I(z)為如下形式: , (7),.盡管最優(yōu)超平面保證了好的推廣性,在文獻(xiàn)[3]中證明構(gòu)造決策函數(shù)的步驟可以交換順序:不必先將輸入向量通過某種非線性變換映射到特征空間再與特征空間中的支持向量做內(nèi)積;而可以先在輸入空間通過內(nèi)積或者某種別的距離進(jìn)行比較,.,、.Fig 3. Classification by a supportvector network of an unknown pattern is conceptually done by first transforming the pattern into some highdimensional feature space. An optimal hyperplane constructed in this feature space determines the output. The similarity to a twolayer perceptron can be seen by parison to Fig 1.Fig 4. Classification of an unknown pattern by a supportvector network. The pattern is in input space pared to support vectors. The resulting values are nonlinearly transformed. A linear function of these transformed values determines the output of the classifier.2 最優(yōu)超平面本節(jié)回顧文獻(xiàn)[14],用來處理訓(xùn)練集不完全可分情況下的學(xué)習(xí)問題. 最優(yōu)超平面算法訓(xùn)練樣本集 , (8)是線性可分的。我還要感謝在一起愉快的度過畢業(yè)論文小組的同學(xué)們,尤其是盛晶晶、梁慧和邱文杰同學(xué),正是由于你們的幫助和支持,我才能克服一個(gè)一個(gè)的困難和疑惑,直至本文的順利完成。在將近四個(gè)月的研究中,她嚴(yán)肅的科學(xué)態(tài)度,嚴(yán)謹(jǐn)?shù)闹螌W(xué)精神,精益求精的工作作風(fēng),深深地感染和激勵(lì)著我。這時(shí),需要我們有足夠的耐心和毅力,從各個(gè)方面審視自己的錯(cuò)誤,反復(fù)的調(diào)試,才能夠使問題迎刃而解。在研究工作中,尤其是自主完成的研究工作中,大部分的困難是需要研究者獨(dú)立解決的。只是針對(duì)某一項(xiàng)知識(shí)進(jìn)行鉆研是遠(yuǎn)遠(yuǎn)不夠的,為了達(dá)到某個(gè)研究目的,通常需要進(jìn)行極其廣泛的涉獵,別且將自己所具有的知識(shí)進(jìn)行總結(jié)、歸納、延伸以及靈活的運(yùn)用。為了能夠順利的完成此次程序設(shè)計(jì),我和同實(shí)驗(yàn)室的同學(xué)們都進(jìn)行了大量的學(xué)習(xí)以及廣泛的涉獵。在老師和同學(xué)們的幫助下,我還是順利的完成了此次的畢業(yè)程序設(shè)計(jì)。對(duì)于這樣一個(gè)并不簡(jiǎn)單的課題,我在一開始的時(shí)候感到巨大的壓力,不僅僅是因?yàn)橹車耐瑢W(xué)都是即將從事研究工作的準(zhǔn)研究生,更加擔(dān)心以我的理論水平無法完成這樣一個(gè)任務(wù)。人們常說態(tài)度決定一切,通過這次畢業(yè)設(shè)計(jì)我對(duì)這句話的感受又加深了一些。 心得體會(huì)從選定課題到基本完成研究任務(wù),經(jīng)過了將近四個(gè)月的辛苦努力。同時(shí),在無監(jiān)督分類——kmeans分類功能上面,“更換初始聚類中心進(jìn)行分類”的功能有待加入,以方面使用者得到最理想穩(wěn)定的分類結(jié)果。這樣的功能需求已經(jīng)表現(xiàn)在醫(yī)學(xué)、生物、交通等各個(gè)方面。本系統(tǒng)的有監(jiān)督分類的分類正確率已接近理想分類的正確率,可以投入到之后的可續(xù)研究工作當(dāng)中,對(duì)其他的更加深入的圖像處理工作能夠起到一定的輔助作用。而無監(jiān)督的Kmeans分類能夠自主的根據(jù)圖像的顏色特征將樣本圖像分為三個(gè)色塊區(qū)域。分類算法包括SVM算法以及Kmeans算法。圖像預(yù)處理包括圖像的灰度化、中值濾波以及圖像增強(qiáng)。有的算法是通過類的自動(dòng)合并和分裂,得到較為合理的類型數(shù)目 K,例如 ISODATA 算法。,不應(yīng)事先給定數(shù)據(jù)集所要分出的類別數(shù)。針對(duì)這樣的問題,可以有以下解決方法:,對(duì)比最后的運(yùn)算結(jié)果,一直到結(jié)果趨于穩(wěn)定結(jié)束。如果待測(cè)圖片的波段區(qū)分不明顯,程序會(huì)報(bào)錯(cuò),提示出現(xiàn)空類別,即無法很好的區(qū)分出三個(gè)類別。大部分圖片都是作者手動(dòng)摳圖得到的,這個(gè)過程中難免會(huì)對(duì)原先圖片的邊緣信息造成一定程度的損壞,這個(gè)無法避免的信息損失也對(duì)正確率造成了一定程度的影響。針對(duì)這樣的問題,我們對(duì)系統(tǒng)所涉及的所有圖片進(jìn)行了統(tǒng)一化處理,均將大小改為00533像素。顯然,這樣的方法也會(huì)損失一部分的分類正確率。由于工具包功能的限制,未有一個(gè)好的解決辦法,但是有一個(gè)折中的方法,即,將所有類別向后平移一個(gè)單位,即原本第一次進(jìn)行分類判別的分類推后到第二個(gè)進(jìn)行,以此類推,而將第一個(gè)進(jìn)行分類判別的類別換成“其他”類。(2)總結(jié)分類正確率較低的原因有以下幾點(diǎn):本系統(tǒng)的初始設(shè)計(jì)中未包含有“其他”類選項(xiàng),則出現(xiàn)一個(gè)問題:當(dāng)待分類的圖片不屬于系統(tǒng)提供的三個(gè)類別中的任何一個(gè)時(shí),系統(tǒng)默認(rèn)將圖片歸入第一個(gè)進(jìn)行判別的類別當(dāng)中。 結(jié)果與分析在測(cè)試程序的過程中,我們對(duì)每一類選取7張測(cè)試圖片,共21張測(cè)試圖片進(jìn)行分類測(cè)試。在創(chuàng)建訓(xùn)練網(wǎng)絡(luò)時(shí),程序自動(dòng)一次讀入24張圖片并進(jìn)行各個(gè)類別的特征提取,將各類的特征值作為輸入向量,聯(lián)合相應(yīng)的輸出向量對(duì)SVM進(jìn)行訓(xùn)練,以達(dá)到分類效果。點(diǎn)擊“kmeans Cluster”按鈕后,選擇一張圖片進(jìn)行kmeans分類。創(chuàng)建完畢訓(xùn)練網(wǎng)絡(luò),即可在計(jì)算機(jī)中選擇需要進(jìn)行分類的圖片。每一類包含6張訓(xùn)練圖片共24張圖庫(kù)圖片。6 系統(tǒng)界面系統(tǒng)界面如圖61所示:圖61 GUI界面各按鈕功能運(yùn)行演示如下:1. Generate Database點(diǎn)擊“Generate Database”按鈕后,系統(tǒng)開始讀入圖庫(kù)圖片并開始提取圖庫(kù)圖片的特征值。對(duì)于有監(jiān)督分類,本系統(tǒng)能夠在完成訓(xùn)練網(wǎng)絡(luò)的基礎(chǔ)上將新輸入圖片進(jìn)行分類。第六章 系統(tǒng)測(cè)試在研究圖像矩不變特征的表達(dá)方式和特征的提取算法基礎(chǔ)上,結(jié)合SVM和kmeans分類算法,在MatLab中編寫了能完成圖像分類并顯示分類結(jié)果的軟件。本系統(tǒng)只采用了較為簡(jiǎn)單的GUI界面。 整數(shù)本系統(tǒng)所使用到得函數(shù)中的變量設(shè)置為:輸入:Ab:N*P的數(shù)據(jù)矩陣nColors:表示將X劃分為幾類,為整數(shù)3Distance:sqEuclidean(歐氏距離)Start:默認(rèn)值Replicates:3輸出:cluster_idx:N*1的向量,存儲(chǔ)的是每個(gè)點(diǎn)的聚類標(biāo)號(hào)cluster_center:3*P的矩陣,存儲(chǔ)的是3個(gè)聚類質(zhì)心位置 GUI界面編程創(chuàng)建MatLab GUI界面通常有兩種方法:使用m文件直接動(dòng)態(tài)添加控件和使用GUIDE快速的生成GUI界面。 針對(duì)有時(shí)序關(guān)系的值‘Hamming’ 只針對(duì)二進(jìn)制數(shù)據(jù)2. ‘Start’(初始質(zhì)心位置選擇方法)‘sample’ 從X中隨機(jī)選取K個(gè)質(zhì)心點(diǎn)‘uniform’ 根據(jù)X的分布范圍均勻的隨機(jī)生成K個(gè)質(zhì)心‘cluster’ 初始聚類階段隨機(jī)選擇10%的X的子樣本(此方法初始使用’sample’方法)matrix 提供一K*P的矩陣,作為初始質(zhì)心位置集合3. ‘Replicates’(聚類重復(fù)次數(shù)),Val2,…)這其中的參數(shù)ParamParam2等,主要可以設(shè)置為如下:1. ‘Distance’(距離測(cè)度)‘sqEuclidean’ 歐式距離(默認(rèn)時(shí),采用此距離方式)‘cityblock’ 絕度誤差和,又稱:L1‘cosine’ 針對(duì)向量‘correlation’,Val1,39。kmeans的函數(shù)形式是:[…]=Kmeans(…,39。Replicates39。sqEuclidean39。distance39。Kmeans分類方法對(duì)于“躁聲”和孤立點(diǎn)數(shù)據(jù)是敏感的,少量的該類數(shù)據(jù)能夠?qū)ζ骄诞a(chǎn)生極大的影響。誠(chéng)然kmeans算法也存在著一些不足之處,如在簇的平均值被定義的情況下才能使用,這對(duì)于處理符號(hào)屬性的數(shù)據(jù)不適用。因?yàn)樗膹?fù)雜度是 , 其中, n 是所有對(duì)象的數(shù)目, k 是簇的數(shù)目, t 是迭代的次數(shù)。輸入:X:Nd大小的圖庫(kù)特征值矩陣Y:N1大小的圖庫(kù)特征值向量Type:cGam: Regularization parameterKernel parameter :Sig2 Kernel type:RBF_kernelpreprocess:preprocessalpha : N x m 大小的支持向量特征值矩陣b : 1 x m 大小的支持向量偏差項(xiàng)向量Xt:Ntd大小的測(cè)試數(shù)據(jù)矩陣輸出:Yd0:Nt x m 大小的包含了分類信息和輸出結(jié)果的矩陣 kmeans分類函數(shù)kmeans分類算法是解決非監(jiān)督聚類問題的一種經(jīng)典算法,簡(jiǎn)單、快速。第一個(gè)單元格包含用于定義的LS SVM的需要的所有參數(shù)。需要說明的是Xt這一項(xiàng)。輸入:X:Nd大小的圖庫(kù)特征值矩陣Y:N1大小的圖庫(kù)特征值向量Type:cGam: Regularization parameterKernel parameter :Sig2 Kernel type:RBF_kernelpreprocess:preprocess輸出:alpha : N x m 大小的支持向量特征值矩陣 b : 1 x m 大小的支持向量偏差項(xiàng)向量2. 分類調(diào)用函數(shù):Yd0 = simlssvm({X,Yc,type,gam,sig2,kernel_type,preprocess},{alpha,b},Xt)。這樣的訓(xùn)練會(huì)在適合的時(shí)候調(diào)用預(yù)處理功能(prelssvm,postlssvm)和編碼器。Preprocess:訓(xùn)練的預(yù)處理類型。在一個(gè)RBF核常見的情況下,一個(gè)大的sig2