【正文】
參考文獻(xiàn)[1] Hawkins D. Identification of Outliers[M]. and hall. 1980.[2] Edwin M. Knorr, Raymond T. Ng,Vladimir Tucakov. DistanceBased Outlier:Algorithms Applications[J].(34):237253.[3] Edwin M. Knorr, Raymod T. Ng. Algorithms for Mining DistanceBased Outliers in Large Datasets[R]. Very Large Data Bases Conference :2427.[4] 王元明,熊偉. 異常數(shù)據(jù)的檢測方法[J]. 重慶工業(yè)學(xué)院學(xué)報(自然科學(xué)),2009,第23卷:8689.[5] 楊永銘,王喆. 孤立點算法研究[J]. 計算機(jī)與數(shù)字工程,2008,219期:1115.[6] Aleksandar Lazarevic, Vipin Kumar. Feature Bagging for Outlier Detection[C]. Proceedings of the eleventh ACM SIGKDD international conference on Knowledge discovery in data mining,Chicago, Illinois, USA,Pages: 157 166可見BP具備一定的分類器能力,采用多分類器方法對數(shù)據(jù)集合進(jìn)行學(xué)習(xí),還是具備一定地可行性。單位:橫軸表示順序,縱軸表示計算結(jié)果數(shù)值。通過上面幾個實驗可以知道,并非BP結(jié)構(gòu)過擬化,應(yīng)該是數(shù)據(jù)問題。注:訓(xùn)練數(shù)據(jù)庫中的,每個點代表一個屬性值,橫軸代表屬性順序,縱軸代表屬性值.如圖 ,大多數(shù)屬性屬于一個范圍空間,這種情況在BP屬于相似性很大地情況,很難區(qū)分開來。每個訓(xùn)練次數(shù)少于40次(根據(jù)實際增長速度,減少控制次數(shù)),以便使數(shù)據(jù)有一定地區(qū)分度。(1) 對所有非異常點數(shù)據(jù),按組分別對BP1進(jìn)行訓(xùn)練,教師信號都為1,()保存BP1權(quán)值;(2)加載BP1數(shù)據(jù)到BP2, 針對數(shù)據(jù)庫每個異常點,正向(數(shù)據(jù)庫地方向順序)訓(xùn)練一次,再逆向訓(xùn)練一次。每個單元為86個權(quán)重。本算法就是想把所有整數(shù)據(jù)特征映射到一個小范圍來處理判斷。根據(jù)神經(jīng)網(wǎng)絡(luò)記憶分類地特性,本文設(shè)想通過這些特性學(xué)習(xí)出能夠辨別異常點非異常點數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),主要研究其可行性。由于特征地不可確定性,數(shù)值不確定,組合不確定。取代了用聚類中心初始化,改進(jìn)了聚類的目標(biāo)函數(shù),降低了算法的時間復(fù)雜度,但該算法沒有提到如何選取核函數(shù),對于算法模糊性的控制不好撐握。因此,在該方法中,屬于偏差通常用于指異常點。(4)Dongmei Ren等采用相對密度系數(shù)(Rela—tive Density Factor,簡稱RDF),即P點的密度相對該點的鄰域密度的比值作為孤立程度的度量方法,其基本思路是首先基于RDF對位于簇中心的數(shù)據(jù)點進(jìn)行剪枝,然后僅僅在剩下的較小的數(shù)據(jù)集中進(jìn)行異常點檢測。另外,徐雪松等利用聚類算法與第k個最近鄰的原理提出了基于距離的再聚類的異常點算法,它克服一些基于距離算法的缺點,并取得較好的試驗結(jié)果。 Knorr和Ng通過試驗證明,當(dāng)時此算法優(yōu)于NL算法。但當(dāng)數(shù)據(jù)集較大,此類方法在維數(shù)上的伸縮性不好。 but (2) the characteristics of similar large data sets, separation is difficult to judge。BP算法是一種常用的數(shù)據(jù)挖掘算法。本文從特征與異常檢測的關(guān)系出發(fā)進(jìn)行研究。與此 定 義 相應(yīng)的算法有三種,它們是基于索引(Indexbased)的算法,嵌套循環(huán)(NestLoop,NL)算法,基于單元或劃分(cellbased)的算法等。相對于異常點挖掘,異常點挖掘方法人為干預(yù)的因素要小一些。一般的對密度的定義是點到其量近鄰的平均距離,平均距離小則密度小。計算LOF要耗費很大的計算量,針對此問題malik Agyemang提出了修改算法,即局部稀疏系數(shù)(LSC)算法。第二種搜索空間大,人工探測困難,效率不高,只適用多維數(shù)據(jù)。這樣我們可以添加一個權(quán)值與年齡這一項數(shù)據(jù)乘積,這個乘積必須使權(quán)值與當(dāng)前數(shù)據(jù)乘積出來的數(shù)據(jù)成正比,表示年齡增長能夠體現(xiàn)在這組數(shù)據(jù)中的重要性。利用神經(jīng)網(wǎng)絡(luò)的非線性特性,可解決藥學(xué)研究及實驗數(shù)據(jù)處理過程中大量的非線性問題。權(quán)值修正為: () ()4 異常檢測中BP神經(jīng)網(wǎng)絡(luò)的設(shè)計fX0 = 1WnW2W1XnX2X1W0 = Θ圖 如圖 可微閾值單元,圖中為sigmoid單元,與感知器相似,sigmoid單元先計算它的線性組合,然后應(yīng)用一個閾值到此結(jié)果。反向傳播算法在網(wǎng)絡(luò)規(guī)模較大時計算量很大,收斂較慢,而且存在局部最小的問題,根據(jù)這一問題,在具體操作時采用了加入動量項的方法: () 稱為動量因子,這樣后一次的權(quán)值更新適當(dāng)考慮上一次的權(quán)值更新,可以改善收斂特性。第三,數(shù)據(jù)特征不顯著。正態(tài)分布地兩邊。,剛好是已知異常點個數(shù)。同時也可看到與上面實驗一樣結(jié)果,證明不是算法問題,而是數(shù)據(jù)特征不好區(qū)分。(4) 隨機(jī)生成具備(1)特征地另一組數(shù)據(jù),采用(2)已經(jīng)訓(xùn)練地權(quán)值,進(jìn)行計算測試,查看分析結(jié)果數(shù)據(jù)分布。而是由于數(shù)據(jù)特征相似性太大,只有一兩個屬性相異來分類。同時對于超出已知范疇特性地數(shù)據(jù),進(jìn)行保存處理,訓(xùn)練出新的神經(jīng)網(wǎng)絡(luò),同時通過人工專家系統(tǒng)進(jìn)行更新。也是一步步支持我能夠圓滿結(jié)題地推動力。假設(shè)應(yīng)用BP神經(jīng)網(wǎng)絡(luò)做異常點檢測,實際應(yīng)用則采用BP充當(dāng)分類器,并且根據(jù)特征采用多分類器結(jié)構(gòu),解決數(shù)據(jù)多特征問題。異常與非異常點計算結(jié)果都是,很難獲得一個較高準(zhǔn)確率地檢測方案,數(shù)據(jù)較集中分布狀況一樣,無法很好分離開來。組數(shù)據(jù)結(jié)束條件教師信號與實際輸出相差絕對值 300次。一下摘取部分信息。,正異常數(shù)據(jù)地實際輸出。根據(jù)實際數(shù)據(jù),越逼近1地越小于第二次訓(xùn)練地教師信號地,都為異常點。經(jīng)過大量實驗,失敗原因:第一,bp處理輸出區(qū)分度不夠,難以有判斷方案。(2)調(diào)節(jié)權(quán)值的公式為: () 其中為學(xué)習(xí)步長,取正參數(shù),代表上一層神經(jīng)元的輸出,而有兩種情況:1) 如果j是輸出層(第m層)的神經(jīng)元,則 () 2) 如果j不在輸出層,而是隱含層的神經(jīng)元,則 () 是該神經(jīng)元的輸出,而求本層的必須用到上一層的,可見誤差函數(shù)的求取是一個始于輸出層的反向傳播的遞歸過程。輸出層節(jié)點輸入,輸出分別為: () 若令,則有: () 修正權(quán)值設(shè) 其中為第p個學(xué)習(xí)樣本產(chǎn)生的輸出誤差,為總誤差。(2)非線性特性。例如檢測是否是糖尿病人的數(shù)據(jù)庫,三十歲以下這個年齡維度上病人較少,然而五十歲后這個維度病人比例就多了。此方法由于搜索空間很大,人工探測非常困難。文獻(xiàn)有關(guān)發(fā)面對LOF進(jìn)行推廣:一是由原來的一個鄰域的變化為兩個(計算密度領(lǐng)域和比較密度領(lǐng)域);二是剪除非異常對象來減小計算代價;因此,使用算法比傳統(tǒng)的LOF算法有所提高。局部異常觀點摒棄了以前所有的異常定義中非此即彼的絕對異常觀念,更加符合現(xiàn)實生活的中的應(yīng)用。如果對數(shù)據(jù)對象根據(jù)它們的距離進(jìn)行排序,那么前n個點就被看作異常點。基于距離方法最早是由Knorr和Ng在1998年提出的。目前異常點檢測已經(jīng)開始用于信用卡欺詐、網(wǎng)絡(luò)入侵檢測以及金融申請和交易欺詐等領(lǐng)域[2],近年來異常點檢測已成為數(shù)據(jù)挖掘研究中的一個熱點問題。因此,異常點檢測被廣泛應(yīng)用于網(wǎng)絡(luò)入侵檢測,金融保險,天氣預(yù)報以及新藥研制等領(lǐng)域。異常點可能由于度量或執(zhí)行錯誤產(chǎn)生,也可能是由于固有數(shù)據(jù)可變性的結(jié)果。其次,此方法在很大程度上依賴于待挖掘的數(shù)據(jù)集是否滿足某種概率分布模型、模型的參數(shù)、異常點的數(shù)目等對基于統(tǒng)計的方法都有非常重要的意義,而確定這些參數(shù)通常比較困難;另外,此方法大多適合于挖掘單變量的數(shù)值型數(shù)據(jù),然而許多數(shù)據(jù)挖掘問題要求在多維空間中發(fā)現(xiàn)異常點,目前幾乎沒有多元的不一致檢驗,當(dāng)沒有特定的檢驗時,或觀察到的分布不能恰當(dāng)?shù)赜萌魏螛?biāo)準(zhǔn)的分布建模時,此類方法不能確保所有的異常點被發(fā)現(xiàn)。此算法需要將數(shù)據(jù)空間分隔成彼此獨立的單元結(jié)構(gòu),經(jīng)過多次選擇來判斷離群數(shù)據(jù)。(1) 在理論上可以處理任意維任意類型的數(shù)據(jù),這就克服了基于統(tǒng)計方法僅能檢測單個屬性的缺點。(5)Breuning 提出