【正文】
一樣,無法區(qū)分。通過上面幾個實驗可以知道,并非BP結(jié)構(gòu)過擬化,應(yīng)該是數(shù)據(jù)問題。,規(guī)范化數(shù)據(jù),隨機生成具備兩類特征數(shù)據(jù)。本實驗BP結(jié)構(gòu)采用隱層5個神經(jīng)元,輸出層一個。出于簡化方案,只訓(xùn)練非異常數(shù)據(jù),異常數(shù)據(jù)特征不太可控。(1) 生成隨機數(shù)據(jù)。先生成20組數(shù)據(jù),17組正常數(shù)據(jù),3組異常。(2) 接入神經(jīng)網(wǎng)絡(luò)對非異常數(shù)據(jù)進(jìn)行訓(xùn)練。組數(shù)據(jù)結(jié)束條件教師信號與實際輸出相差絕對值 300次。(3) 保存訓(xùn)練后權(quán)值,對原訓(xùn)練數(shù)據(jù)進(jìn)行收斂性檢查,同時查看二十組數(shù)據(jù)分布。(4) 隨機生成具備(1)特征地另一組數(shù)據(jù),采用(2)已經(jīng)訓(xùn)練地權(quán)值,進(jìn)行計算測試,查看分析結(jié)果數(shù)據(jù)分布。(單位:縱軸屬性值,橫軸順序表示屬性順序,同一種圖形表示一組數(shù)據(jù))注:。總20組,17組正常數(shù)據(jù),3組異常。每一組數(shù)據(jù)由一種圖形構(gòu)成。17,18,19為異常數(shù)據(jù)。 隨機數(shù)訓(xùn)練完后神經(jīng)網(wǎng)絡(luò)與訓(xùn)練數(shù)據(jù)計算結(jié)果,。計算第二組生成地隨機測試數(shù)據(jù)。單位:橫軸表示順序,縱軸表示計算結(jié)果數(shù)值。 測試訓(xùn)練收斂與否(每個點代表一個結(jié)果)根據(jù)上面結(jié)果,可以看出BP具備特征記憶能力能夠在這種情況下被使用,并且能夠區(qū)分自身訓(xùn)練集合地特征。,可以明顯區(qū)分開發(fā)來。證明BP具備一定數(shù)據(jù)特征篩選能力。在本實驗過程中同時進(jìn)行了不同數(shù)據(jù)集合地實驗,多屬性特征穿插混淆,總體能夠的到穩(wěn)定結(jié)果,多屬性特征則比較不穩(wěn)定。 根據(jù)上面實驗,總地來說在實際異常點檢測上面,單純BP神經(jīng)網(wǎng)未能達(dá)到預(yù)期異常點檢測地效果,,不管異常非異常在訓(xùn)練后,計算結(jié)果分布都呈現(xiàn)難以區(qū)分判斷地現(xiàn)象。,總體呈現(xiàn)靠近非異常點教師信號分布,對未知數(shù)據(jù)無法得到確切的判斷方案。,異常與非異常點計算結(jié)果都是,很難獲得一個較高準(zhǔn)確率地檢測方案,數(shù)據(jù)較集中分布狀況一樣,無法很好分離開來。究其原因,可能是BP結(jié)構(gòu)隱層單元過多,數(shù)據(jù)特性之間交叉特性太多,以使計算結(jié)果無法區(qū)分開來。,而是由于數(shù)據(jù)特征相似性太大,只有一兩個屬性相異來分類。對于大規(guī)模多特征地數(shù)據(jù)集合,單純BP很難做出很好解決方案。通過在圖表中顯示地coil2000異常與非異常數(shù)據(jù),具有很高地相似性,只有小部分屬性分布不同,很難使用bp獲得很好地分離方案。單位:橫軸表示順序,縱軸表示計算結(jié)果數(shù)值。 測試訓(xùn)練收斂與否(每個點代表一個結(jié)果),對于區(qū)別單一、兩類特征數(shù)據(jù),還是具備相當(dāng)?shù)乜尚行浴T囼炛形覀儾捎昧藘深愄卣鞯仉S機數(shù),得到了很好地區(qū)分度。根據(jù)數(shù)據(jù)分布,可以很好得到判斷方案。可見BP具備一定的分類器能力,采用多分類器方法對數(shù)據(jù)集合進(jìn)行學(xué)習(xí),還是具備一定地可行性。當(dāng)然實際應(yīng)用還會出現(xiàn)其他很多需要解決地問題。,可以知道如果做分類器對待多特征可以采用多BP網(wǎng)絡(luò)學(xué)習(xí)。同時對于出現(xiàn)特征交叉的問題,比如數(shù)據(jù)組A的前幾個屬性和B數(shù)據(jù)組前幾個屬性一樣,然后最后屬性存在不同,屬于不同類(異常和非異常),對與這種情況很難處理。時間限制未作深入研究。總結(jié)與展望綜上分析所述,BP具備一定特征分類能力,但是要通過這種分類能力去做異常點檢測需要考慮很多因素,并且需要做很多輔助工作。特別是對于不同類數(shù)據(jù)而且特征較少數(shù)據(jù),難以分離區(qū)別。假設(shè)應(yīng)用BP神經(jīng)網(wǎng)絡(luò)做異常點檢測,實際應(yīng)用則采用BP充當(dāng)分類器,并且根據(jù)特征采用多分類器結(jié)構(gòu),解決數(shù)據(jù)多特征問題。同時對于那些不同類而且是數(shù)據(jù)特征相似性較大(比如很多屬性處在相同空間范圍,局部屬性不同)則需要采用更多神經(jīng)網(wǎng)絡(luò)訓(xùn)練這些特征,以便分離,或者采用專家系統(tǒng)方式,對這些具備相似性較高而又不同類進(jìn)行量化可控地判斷。同時對于超出已知范疇特性地數(shù)據(jù),進(jìn)行保存處理,訓(xùn)練出新的神經(jīng)網(wǎng)絡(luò),同時通過人工專家系統(tǒng)進(jìn)行更新。這樣保證在可控范圍能得到更高準(zhǔn)確性。同樣如果能夠有好地方案,能夠明顯獲得已知數(shù)據(jù)特征,并且能夠很好分離相近特征屬性的方案,那將是有很好速度檢測到異常數(shù)據(jù),同時配合專家決策系統(tǒng)能夠使結(jié)果更具實際地準(zhǔn)確性,而不是單純地數(shù)據(jù)異常準(zhǔn)確性。當(dāng)然這建立在已知數(shù)據(jù)集合有足夠豐富特征。對于未知數(shù)據(jù)特征可以報警,通過人工干預(yù)使系統(tǒng)學(xué)習(xí)到新特征,或者自動控制地方法學(xué)習(xí)??偟貋碚f,使用神經(jīng)網(wǎng)絡(luò)分類,對于相似性比較高,差異集中在局部特征的數(shù)據(jù),可以使用特征映射相關(guān)技術(shù)遺傳算法、啟發(fā)式搜索、特征隨機選取等得到這些特征差異。對于正常數(shù)據(jù)多特征地問題,特別是正常數(shù)據(jù)有多類數(shù)據(jù)的,可以采用多神經(jīng)網(wǎng)絡(luò)融合,即多神經(jīng)網(wǎng)絡(luò)記錄多特征。參考文獻(xiàn)[1] Hawkins D. Identification of Outliers[M]. and hall. 1980.[2] Edwin M. Knorr, Raymond T. Ng,Vladimir Tucakov. DistanceBased Outlier:Algorithms Applications[J].(34):237253.[3] Edwin M. Knorr, Raymod T. Ng. Algorithms for Mining DistanceBased Outliers in Large Datasets[R]. Very Large Data Bases Conference :2427.[4] 王元明,熊偉. 異常數(shù)據(jù)的檢測方法[J]. 重慶工業(yè)學(xué)院學(xué)報(自然科學(xué)),2009,第23卷:8689.[5] 楊永銘,王喆. 孤立點算法研究[J]. 計算機與數(shù)字工程,2008,219期:1115.[6] Aleksandar Lazarevic, Vipin Kumar. Feature Bagging for Outlier Detection[C]. Proceedings of the eleventh ACM SIGKDD international conference on Knowledge discovery in data mining,Chicago, Illinois, USA,Pages: 157 166.[7] Tom . 機器學(xué)習(xí)[M]. 北京:機械工業(yè)出版社,2002:6090.[8] Jiawei Han. 數(shù)據(jù)挖掘概念與技術(shù)[M]. 北京:機械工業(yè)出版社,2006:295301.[9] 馬少平,朱小燕. 人工智能[M]. 北京:清華出版社,2007:245268.[10] 彭清娥,曹叔尤,劉興年,黃爾,李昌志. BP算法中固定學(xué)習(xí)率的性能分析[A].成都:四川大學(xué)高速水力學(xué)國家重點實驗室,2000.[11] Stefano Melacci, Marco Maggini, Lorenzo Sarti. Semisupervised Clustering using Similarity Neural Networks[A]. Proceedings of International Joint Conference on Neural Networks[C], Atlanta, Georgia, USA, June 1419, 2009.[12] 李炎,李皓. 異常檢測算法分析[J]. 計算機工程,2002,28(6):56,32.[13] 鄢團(tuán)軍,劉勇. 孤立點檢測算法與應(yīng)用[J]. 三峽大學(xué)學(xué)報(自然科學(xué)版),2009,31(1):98102.[14] 劉合兵,尚俊平. 基于距離和密度的聚類和孤立檢測算法[J]. 河南師范大學(xué)學(xué)報(自然科學(xué)版),2008,38(3):3840.[15] 張寧. 離群點檢測算法研究[J]. 桂林電子科技大學(xué)學(xué)報,2009,29(1):2225.致 謝本論文是在我的指導(dǎo)老師王麗娟老師的親切關(guān)懷和悉心指導(dǎo)下完成的。她嚴(yán)肅的科學(xué)態(tài)度,嚴(yán)謹(jǐn)?shù)闹螌W(xué)精神,精益求精的工作作風(fēng),深深地感染和激勵這我。從題目的選擇到最終完成,王麗娟老師適中基于我細(xì)心的指導(dǎo)和不懈的支持。比如題目開題研究前期,老師幫忙找了很多資料,并及時和我溝通,因為前期在外實習(xí),有時候老師還會打電話詢問具體進(jìn)度,并及時對出現(xiàn)問題進(jìn)行引導(dǎo)。后期實驗出現(xiàn)了問題,在老師指導(dǎo)下才知道如何論證本算法地可行性,并支持了我設(shè)計上地一些問題。這些都給我很大地幫助。也是一步步支持我能夠圓滿結(jié)題地推動力。在此,感謝老師地辛勤付出!愿一切順利平安!41