【正文】
27133616173681130000異常點(diǎn)分布43851028000000 25個(gè)隱層實(shí)驗(yàn)結(jié)果 單位:個(gè)數(shù)分區(qū)正常點(diǎn)計(jì)算分布00031614039911491829226異常點(diǎn)分布0000385079899(單位:縱軸個(gè)數(shù),)注:,橫軸表示0到1區(qū)間,縱軸表示個(gè)數(shù);系列1表示非異常點(diǎn)計(jì)算結(jié)果,系列2表示異常點(diǎn)計(jì)算結(jié)果 5個(gè)隱層實(shí)驗(yàn)結(jié)果(單位:縱軸個(gè)數(shù),)注:,橫軸表示0到1區(qū)間,縱軸表示個(gè)數(shù);系列1表示非異常點(diǎn)計(jì)算結(jié)果,系列2表示異常點(diǎn)計(jì)算結(jié)果 15個(gè)隱層實(shí)驗(yàn)結(jié)果(單位:縱軸個(gè)數(shù),)注:,橫軸表示0到1區(qū)間,縱軸表示個(gè)數(shù);系列1表示非異常點(diǎn)計(jì)算結(jié)果,系列2表示異常點(diǎn)計(jì)算結(jié)果 25個(gè)隱層實(shí)驗(yàn)結(jié)果數(shù)據(jù)分布一樣,無(wú)法區(qū)分。通過(guò)上面幾個(gè)實(shí)驗(yàn)可以知道,并非BP結(jié)構(gòu)過(guò)擬化,應(yīng)該是數(shù)據(jù)問(wèn)題。,規(guī)范化數(shù)據(jù),隨機(jī)生成具備兩類(lèi)特征數(shù)據(jù)。本實(shí)驗(yàn)BP結(jié)構(gòu)采用隱層5個(gè)神經(jīng)元,輸出層一個(gè)。出于簡(jiǎn)化方案,只訓(xùn)練非異常數(shù)據(jù),異常數(shù)據(jù)特征不太可控。(1) 生成隨機(jī)數(shù)據(jù)。先生成20組數(shù)據(jù),17組正常數(shù)據(jù),3組異常。(2) 接入神經(jīng)網(wǎng)絡(luò)對(duì)非異常數(shù)據(jù)進(jìn)行訓(xùn)練。組數(shù)據(jù)結(jié)束條件教師信號(hào)與實(shí)際輸出相差絕對(duì)值 300次。(3) 保存訓(xùn)練后權(quán)值,對(duì)原訓(xùn)練數(shù)據(jù)進(jìn)行收斂性檢查,同時(shí)查看二十組數(shù)據(jù)分布。(4) 隨機(jī)生成具備(1)特征地另一組數(shù)據(jù),采用(2)已經(jīng)訓(xùn)練地權(quán)值,進(jìn)行計(jì)算測(cè)試,查看分析結(jié)果數(shù)據(jù)分布。(單位:縱軸屬性值,橫軸順序表示屬性順序,同一種圖形表示一組數(shù)據(jù))注:。總20組,17組正常數(shù)據(jù),3組異常。每一組數(shù)據(jù)由一種圖形構(gòu)成。17,18,19為異常數(shù)據(jù)。 隨機(jī)數(shù)訓(xùn)練完后神經(jīng)網(wǎng)絡(luò)與訓(xùn)練數(shù)據(jù)計(jì)算結(jié)果,。計(jì)算第二組生成地隨機(jī)測(cè)試數(shù)據(jù)。單位:橫軸表示順序,縱軸表示計(jì)算結(jié)果數(shù)值。 測(cè)試訓(xùn)練收斂與否(每個(gè)點(diǎn)代表一個(gè)結(jié)果)根據(jù)上面結(jié)果,可以看出BP具備特征記憶能力能夠在這種情況下被使用,并且能夠區(qū)分自身訓(xùn)練集合地特征。,可以明顯區(qū)分開(kāi)發(fā)來(lái)。證明BP具備一定數(shù)據(jù)特征篩選能力。在本實(shí)驗(yàn)過(guò)程中同時(shí)進(jìn)行了不同數(shù)據(jù)集合地實(shí)驗(yàn),多屬性特征穿插混淆,總體能夠的到穩(wěn)定結(jié)果,多屬性特征則比較不穩(wěn)定。 根據(jù)上面實(shí)驗(yàn),總地來(lái)說(shuō)在實(shí)際異常點(diǎn)檢測(cè)上面,單純BP神經(jīng)網(wǎng)未能達(dá)到預(yù)期異常點(diǎn)檢測(cè)地效果,,不管異常非異常在訓(xùn)練后,計(jì)算結(jié)果分布都呈現(xiàn)難以區(qū)分判斷地現(xiàn)象。,總體呈現(xiàn)靠近非異常點(diǎn)教師信號(hào)分布,對(duì)未知數(shù)據(jù)無(wú)法得到確切的判斷方案。,異常與非異常點(diǎn)計(jì)算結(jié)果都是,很難獲得一個(gè)較高準(zhǔn)確率地檢測(cè)方案,數(shù)據(jù)較集中分布狀況一樣,無(wú)法很好分離開(kāi)來(lái)。究其原因,可能是BP結(jié)構(gòu)隱層單元過(guò)多,數(shù)據(jù)特性之間交叉特性太多,以使計(jì)算結(jié)果無(wú)法區(qū)分開(kāi)來(lái)。,而是由于數(shù)據(jù)特征相似性太大,只有一兩個(gè)屬性相異來(lái)分類(lèi)。對(duì)于大規(guī)模多特征地?cái)?shù)據(jù)集合,單純BP很難做出很好解決方案。通過(guò)在圖表中顯示地coil2000異常與非異常數(shù)據(jù),具有很高地相似性,只有小部分屬性分布不同,很難使用bp獲得很好地分離方案。單位:橫軸表示順序,縱軸表示計(jì)算結(jié)果數(shù)值。 測(cè)試訓(xùn)練收斂與否(每個(gè)點(diǎn)代表一個(gè)結(jié)果),對(duì)于區(qū)別單一、兩類(lèi)特征數(shù)據(jù),還是具備相當(dāng)?shù)乜尚行?。試?yàn)中我們采用了兩類(lèi)特征地隨機(jī)數(shù),得到了很好地區(qū)分度。根據(jù)數(shù)據(jù)分布,可以很好得到判斷方案??梢?jiàn)BP具備一定的分類(lèi)器能力,采用多分類(lèi)器方法對(duì)數(shù)據(jù)集合進(jìn)行學(xué)習(xí),還是具備一定地可行性。當(dāng)然實(shí)際應(yīng)用還會(huì)出現(xiàn)其他很多需要解決地問(wèn)題。,可以知道如果做分類(lèi)器對(duì)待多特征可以采用多BP網(wǎng)絡(luò)學(xué)習(xí)。同時(shí)對(duì)于出現(xiàn)特征交叉的問(wèn)題,比如數(shù)據(jù)組A的前幾個(gè)屬性和B數(shù)據(jù)組前幾個(gè)屬性一樣,然后最后屬性存在不同,屬于不同類(lèi)(異常和非異常),對(duì)與這種情況很難處理。時(shí)間限制未作深入研究??偨Y(jié)與展望綜上分析所述,BP具備一定特征分類(lèi)能力,但是要通過(guò)這種分類(lèi)能力去做異常點(diǎn)檢測(cè)需要考慮很多因素,并且需要做很多輔助工作。特別是對(duì)于不同類(lèi)數(shù)據(jù)而且特征較少數(shù)據(jù),難以分離區(qū)別。假設(shè)應(yīng)用BP神經(jīng)網(wǎng)絡(luò)做異常點(diǎn)檢測(cè),實(shí)際應(yīng)用則采用BP充當(dāng)分類(lèi)器,并且根據(jù)特征采用多分類(lèi)器結(jié)構(gòu),解決數(shù)據(jù)多特征問(wèn)題。同時(shí)對(duì)于那些不同類(lèi)而且是數(shù)據(jù)特征相似性較大(比如很多屬性處在相同空間范圍,局部屬性不同)則需要采用更多神經(jīng)網(wǎng)絡(luò)訓(xùn)練這些特征,以便分離,或者采用專(zhuān)家系統(tǒng)方式,對(duì)這些具備相似性較高而又不同類(lèi)進(jìn)行量化可控地判斷。同時(shí)對(duì)于超出已知范疇特性地?cái)?shù)據(jù),進(jìn)行保存處理,訓(xùn)練出新的神經(jīng)網(wǎng)絡(luò),同時(shí)通過(guò)人工專(zhuān)家系統(tǒng)進(jìn)行更新。這樣保證在可控范圍能得到更高準(zhǔn)確性。同樣如果能夠有好地方案,能夠明顯獲得已知數(shù)據(jù)特征,并且能夠很好分離相近特征屬性的方案,那將是有很好速度檢測(cè)到異常數(shù)據(jù),同時(shí)配合專(zhuān)家決策系統(tǒng)能夠使結(jié)果更具實(shí)際地準(zhǔn)確性,而不是單純地?cái)?shù)據(jù)異常準(zhǔn)確性。當(dāng)然這建立在已知數(shù)據(jù)集合有足夠豐富特征。對(duì)于未知數(shù)據(jù)特征可以報(bào)警,通過(guò)人工干預(yù)使系統(tǒng)學(xué)習(xí)到新特征,或者自動(dòng)控制地方法學(xué)習(xí)。總地來(lái)說(shuō),使用神經(jīng)網(wǎng)絡(luò)分類(lèi),對(duì)于相似性比較高,差異集中在局部特征的數(shù)據(jù),可以使用特征映射相關(guān)技術(shù)遺傳算法、啟發(fā)式搜索、特征隨機(jī)選取等得到這些特征差異。對(duì)于正常數(shù)據(jù)多特征地問(wèn)題,特別是正常數(shù)據(jù)有多類(lèi)數(shù)據(jù)的,可以采用多神經(jīng)網(wǎng)絡(luò)融合,即多神經(jīng)網(wǎng)絡(luò)記錄多特征。參考文獻(xiàn)[1] Hawkins D. Identification of Outliers[M]. and hall. 1980.[2] Edwin M. Knorr, Raymond T. Ng,Vladimir Tucakov. DistanceBased Outlier:Algorithms Applications[J].(34):237253.[3] Edwin M. Knorr, Raymod T. Ng. Algorithms for Mining DistanceBased Outliers in Large Datasets[R]. Very Large Data Bases Conference :2427.[4] 王元明,熊偉. 異常數(shù)據(jù)的檢測(cè)方法[J]. 重慶工業(yè)學(xué)院學(xué)報(bào)(自然科學(xué)),2009,第23卷:8689.[5] 楊永銘,王喆. 孤立點(diǎn)算法研究[J]. 計(jì)算機(jī)與數(shù)字工程,2008,219期:1115.[6] Aleksandar Lazarevic, Vipin Kumar. Feature Bagging for Outlier Detection[C]. Proceedings of the eleventh ACM SIGKDD international conference on Knowledge discovery in data mining,Chicago, Illinois, USA,Pages: 157 166.[7] Tom . 機(jī)器學(xué)習(xí)[M]. 北京:機(jī)械工業(yè)出版社,2002:6090.[8] Jiawei Han. 數(shù)據(jù)挖掘概念與技術(shù)[M]. 北京:機(jī)械工業(yè)出版社,2006:295301.[9] 馬少平,朱小燕. 人工智能[M]. 北京:清華出版社,2007:245268.[10] 彭清娥,曹叔尤,劉興年,黃爾,李昌志. BP算法中固定學(xué)習(xí)率的性能分析[A].成都:四川大學(xué)高速水力學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室,2000.[11] Stefano Melacci, Marco Maggini, Lorenzo Sarti. Semisupervised Clustering using Similarity Neural Networks[A]. Proceedings of International Joint Conference on Neural Networks[C], Atlanta, Georgia, USA, June 1419, 2009.[12] 李炎,李皓. 異常檢測(cè)算法分析[J]. 計(jì)算機(jī)工程,2002,28(6):56,32.[13] 鄢團(tuán)軍,劉勇. 孤立點(diǎn)檢測(cè)算法與應(yīng)用[J]. 三峽大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,31(1):98102.[14] 劉合兵,尚俊平. 基于距離和密度的聚類(lèi)和孤立檢測(cè)算法[J]. 河南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,38(3):3840.[15] 張寧. 離群點(diǎn)檢測(cè)算法研究[J]. 桂林電子科技大學(xué)學(xué)報(bào),2009,29(1):2225.致 謝本論文是在我的指導(dǎo)老師王麗娟老師的親切關(guān)懷和悉心指導(dǎo)下完成的。她嚴(yán)肅的科學(xué)態(tài)度,嚴(yán)謹(jǐn)?shù)闹螌W(xué)精神,精益求精的工作作風(fēng),深深地感染和激勵(lì)這我。從題目的選擇到最終完成,王麗娟老師適中基于我細(xì)心的指導(dǎo)和不懈的支持。比如題目開(kāi)題研究前期,老師幫忙找了很多資料,并及時(shí)和我溝通,因?yàn)榍捌谠谕鈱?shí)習(xí),有時(shí)候老師還會(huì)打電話詢(xún)問(wèn)具體進(jìn)度,并及時(shí)對(duì)出現(xiàn)問(wèn)題進(jìn)行引導(dǎo)。后期實(shí)驗(yàn)出現(xiàn)了問(wèn)題,在老師指導(dǎo)下才知道如何論證本算法地可行性,并支持了我設(shè)計(jì)上地一些問(wèn)題。這些都給我很大地幫助。也是一步步支持我能夠圓滿結(jié)題地推動(dòng)力。在此,感謝老師地辛勤付出!愿一切順利平安!