【正文】
r not representative, so the normal data class learning is not sufficient, leading to abnormal can not judge. To solve the above problem, this paper proposes the following improvements: (1) BP algorithm before feature reduction (map) benefit from anomaly detection features selected (2) integration of multiple neural networks, different neural network to recognize the different characteristics of each each other, the final fusion result.Key Words:OutliersData,BP,Algorithms,Neural Networks目 錄1引言 1 1 傳統(tǒng)已有異常點(diǎn)算法介紹 1 1 2 3 5 62基于屬性特征在異常點(diǎn)檢測(cè)中的研究 73 BP神經(jīng)網(wǎng)絡(luò)介紹 9 9 9 修正權(quán)值 104 異常檢測(cè)中BP神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì) 13 13 13 145實(shí)驗(yàn)研究 17 17:把bp神經(jīng)網(wǎng)絡(luò)相似性代替距離算法相似度量 17:用單個(gè)神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)庫(kù)整體特性進(jìn)行學(xué)習(xí) 18:多神經(jīng)網(wǎng)絡(luò)各種形式訓(xùn)練及其決策 19 19 20 22 23 25 25 26 29 31 31 31 32 33 33總結(jié)與展望 35致謝 391引言異常點(diǎn)(離群點(diǎn)或者孤立點(diǎn))檢測(cè)是數(shù)據(jù)挖掘中一個(gè)重要方面,Hawkins[1]最早給出了異常點(diǎn)的本質(zhì)定義:異常點(diǎn)是數(shù)據(jù)集中與眾不同地?cái)?shù)據(jù),以至于使人懷疑這些數(shù)據(jù)并非隨機(jī)偏差,而是產(chǎn)生與完全不同的機(jī)制。BP算法是一種常用的數(shù)據(jù)挖掘算法。相對(duì)于大量的正常數(shù)據(jù)挖掘而言,異常點(diǎn)檢測(cè)被稱作小模式數(shù)據(jù)挖掘。 but (2) the characteristics of similar large data sets, separation is difficult to judge。傳統(tǒng)數(shù)據(jù)挖掘主要有以下幾類:基于統(tǒng)計(jì)的方法,基于距離的方法,基于偏移方法,基于聚類方法,基于密度方法。但當(dāng)數(shù)據(jù)集較大,此類方法在維數(shù)上的伸縮性不好。他們用DB(p,d)來(lái)表示數(shù)據(jù)集中的異常點(diǎn),采用不同的參數(shù)與,可以表示所有的異常點(diǎn)。 Knorr和Ng通過(guò)試驗(yàn)證明,當(dāng)時(shí)此算法優(yōu)于NL算法。他們用聚類算法首先對(duì)數(shù)據(jù)集進(jìn)行聚類,然后在類中發(fā)現(xiàn)異常點(diǎn)。另外,徐雪松等利用聚類算法與第k個(gè)最近鄰的原理提出了基于距離的再聚類的異常點(diǎn)算法,它克服一些基于距離算法的缺點(diǎn),并取得較好的試驗(yàn)結(jié)果。所謂密度是基于任意一點(diǎn)和P點(diǎn)距離小于給定半徑R的鄰域空間內(nèi)的數(shù)據(jù)點(diǎn)的個(gè)數(shù)計(jì)算得到的。(4)Dongmei Ren等采用相對(duì)密度系數(shù)(Rela—tive Density Factor,簡(jiǎn)稱RDF),即P點(diǎn)的密度相對(duì)該點(diǎn)的鄰域密度的比值作為孤立程度的度量方法,其基本思路是首先基于RDF對(duì)位于簇中心的數(shù)據(jù)點(diǎn)進(jìn)行剪枝,然后僅僅在剩下的較小的數(shù)據(jù)集中進(jìn)行異常點(diǎn)檢測(cè)。在現(xiàn)有的計(jì)算局部異常因子(LOF)算法中,把具有很高LOF值的對(duì)象作為異常點(diǎn)。因此,在該方法中,屬于偏差通常用于指異常點(diǎn)。第一種概念有缺陷,遺漏了不少異常點(diǎn),時(shí)間復(fù)雜度與數(shù)據(jù)集大小成線性關(guān)系,適用性不高。取代了用聚類中心初始化,改進(jìn)了聚類的目標(biāo)函數(shù),降低了算法的時(shí)間復(fù)雜度,但該算法沒(méi)有提到如何選取核函數(shù),對(duì)于算法模糊性的控制不好撐握。映射到維度為三十歲以下這個(gè)維度地病人比較少,映射到維度為十歲以上較多。由于特征地不可確定性,數(shù)值不確定,組合不確定。人工神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的非線性,這種非線性分散在每個(gè)神經(jīng)元,通過(guò)傳遞函數(shù)實(shí)現(xiàn)。根據(jù)神經(jīng)網(wǎng)絡(luò)記憶分類地特性,本文設(shè)想通過(guò)這些特性學(xué)習(xí)出能夠辨別異常點(diǎn)非異常點(diǎn)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),主要研究其可行性。由誤差函數(shù)調(diào)整權(quán)值有: 其中 其中 ()其中為學(xué)習(xí)速率,一般在[0,1]內(nèi)取值。本算法就是想把所有整數(shù)據(jù)特征映射到一個(gè)小范圍來(lái)處理判斷。(3)將學(xué)習(xí)模式不斷輸入到輸入層,再根據(jù)輸出層產(chǎn)生的誤差不斷修正神經(jīng)元間連結(jié)的權(quán)值和神經(jīng)元的閾值,直到學(xué)習(xí)模式全部輸入或誤差達(dá)到一定的值。每個(gè)單元為86個(gè)權(quán)重。第二,訓(xùn)練方案地問(wèn)題,數(shù)據(jù)集合里面,缺乏異常點(diǎn)地訓(xùn)練,bp權(quán)值能增長(zhǎng)方向把小規(guī)模局部數(shù)據(jù)地特征給掩蓋掉了,難以輸出好地?cái)?shù)據(jù)來(lái)區(qū)分。(1) 對(duì)所有非異常點(diǎn)數(shù)據(jù),按組分別對(duì)BP1進(jìn)行訓(xùn)練,教師信號(hào)都為1,()保存BP1權(quán)值;(2)加載BP1數(shù)據(jù)到BP2, 針對(duì)數(shù)據(jù)庫(kù)每個(gè)異常點(diǎn),正向(數(shù)據(jù)庫(kù)地方向順序)訓(xùn)練一次,再逆向訓(xùn)練一次。比如本次第一次訓(xùn)練教師信號(hào)1。每個(gè)訓(xùn)練次數(shù)少于40次(根據(jù)實(shí)際增長(zhǎng)速度,減少控制次數(shù)),以便使數(shù)據(jù)有一定地區(qū)分度。,證明異常數(shù)據(jù)特性被正常數(shù)據(jù)所包含。注:訓(xùn)練數(shù)據(jù)庫(kù)中的,每個(gè)點(diǎn)代表一個(gè)屬性值,橫軸代表屬性順序,縱軸代表屬性值.如圖 ,大多數(shù)屬性屬于一個(gè)范圍空間,這種情況在BP屬于相似性很大地情況,很難區(qū)分開(kāi)來(lái)。125個(gè)隱層結(jié)點(diǎn)訓(xùn)練后測(cè)試結(jié)果與已知結(jié)果對(duì)照表: 5個(gè)隱層測(cè)試結(jié)果前11組 (單位:相似度)序號(hào)123456789101112異常與否010000000001計(jì)算結(jié)果分布 15個(gè)隱層測(cè)試結(jié)果前11組 (單位:相似度)序號(hào)123456789101112異常與否010000000001計(jì)算結(jié)果分布 15個(gè)隱層測(cè)試結(jié)果前12組 (單位:相似度)序號(hào)123456789101112異常與否010000000001計(jì)算結(jié)果分布 表計(jì)算結(jié)果分析,沒(méi)有出現(xiàn)較好區(qū)分度,無(wú)法做未知數(shù)據(jù)異常與否地判斷。通過(guò)上面幾個(gè)實(shí)驗(yàn)可以知道,并非BP結(jié)構(gòu)過(guò)擬化,應(yīng)該是數(shù)據(jù)問(wèn)題。(3) 保存訓(xùn)練后權(quán)值,對(duì)原訓(xùn)練數(shù)據(jù)進(jìn)行收斂性檢查,同時(shí)查看二十組數(shù)據(jù)分布。單位:橫軸表示順序,縱軸表示計(jì)算結(jié)果數(shù)值。究其原因,可能是BP結(jié)構(gòu)隱層單元過(guò)多,數(shù)據(jù)特性之間交叉特性太多,以使計(jì)算結(jié)果無(wú)法區(qū)分開(kāi)來(lái)??梢?jiàn)BP具備一定的分類器能力,采用多分類器方法對(duì)數(shù)據(jù)集合進(jìn)行學(xué)習(xí),還是具備一定地可行性。同時(shí)對(duì)于那些不同類而且是數(shù)據(jù)特征相似性較大(比如很多屬性處在相同空間范圍,局部屬性不同)則需要采用更多神經(jīng)網(wǎng)絡(luò)訓(xùn)練這些特征,以便分離,或者采用專家系統(tǒng)方式,對(duì)這些具備相似性較高而又不同類進(jìn)行量化可控地判斷。參考文獻(xiàn)[1] Hawkins D. Identification of Outliers[M]. and hall. 1980.[2] Edwin M. Knorr, Raymond T. Ng,Vladimir Tucakov. DistanceBased Outlier:Algorithms Applications[J].(34):237253.[3] Edwin M. Knorr, Raymod T. Ng. Algorithms for Mining DistanceBased Outliers in Large Datasets[R]. Very Large Data Bases Conference :2427.[4] 王元明,熊偉. 異常數(shù)據(jù)的檢測(cè)方法[J]. 重慶工業(yè)學(xué)院學(xué)報(bào)(自然科學(xué)),2009,第23卷:8689.[5] 楊永銘,王喆. 孤立點(diǎn)算法研究[J]. 計(jì)算機(jī)與數(shù)字工程,2008,219期:1115.[6] Aleksandar Lazarevic, Vipin Kumar. Feature Bagging for Outlier Detection[C]. Proceedings of the eleventh ACM SIGKDD international conference on Knowledge discovery in data mining,Chicago, Illinois, USA,Pages: 157 166在此,感謝老師地辛勤付出!愿一切順利