【正文】
ve Density Factor,簡(jiǎn)稱 RDF),即 P 點(diǎn)的密度相對(duì)該點(diǎn)的鄰域密度的比值作為孤立程度的度量方法,其基本思路是首先基于RDF 對(duì)位于簇中心的數(shù)據(jù)點(diǎn)進(jìn)行剪枝,然后僅僅在剩下的較小的數(shù)據(jù)集中進(jìn)行異常點(diǎn)檢測(cè)。 (1)Brito 等提出相互 k 近鄰圖 (Mutual k— Nearest Neighbor,簡(jiǎn)稱 MkNN)算法,其主要思想是對(duì)每個(gè)連通子圖進(jìn)行檢測(cè),如果包含多個(gè)結(jié)點(diǎn)就組成一個(gè)簇,如果僅有一個(gè)結(jié)點(diǎn),那么該結(jié)點(diǎn)就是異常點(diǎn)。 所謂密度是基于 任意一點(diǎn)和 P 點(diǎn)距離小于給定半徑 R 的鄰域空間內(nèi)的數(shù)據(jù)點(diǎn)的個(gè)數(shù)計(jì)算得到的。實(shí)際上在給出了距離的度量,并對(duì)數(shù)據(jù)進(jìn)行預(yù)處理后。另外,徐雪松等利用聚類算法與第 k 個(gè)最近鄰的原理提出了基于距離的再聚類的異常點(diǎn)算法,它克服一些基于距離算法的缺點(diǎn),并取得較好的試驗(yàn)結(jié)果。 Bay 和 Sc hwabacher 在沿用 Rastogi 和 Ramaswamy 對(duì)于異 常定義的基礎(chǔ)上,提出了一種基于隨機(jī)抽樣的檢測(cè)方法,它通過(guò)隨機(jī)抽樣的方法,減少了尋找 k 近鄰的范圍,在試驗(yàn)數(shù)據(jù)上獲得了幾乎線性的計(jì)算復(fù)雜度。他們用聚類算法首先對(duì)數(shù)據(jù)集進(jìn)行聚類,然后在類中發(fā)現(xiàn)異常點(diǎn)。后來(lái), Rastogi 和Ramaswamy 提出了一個(gè)新的基于距離的異常點(diǎn)定義,即基于距離的第 k 最近鄰 (kth Nearest Neighbor)異常點(diǎn)挖掘方法。 Knorr 和 Ng 通過(guò)試驗(yàn)證明,當(dāng) 4k??時(shí)此算法優(yōu)于 NL 算法。 NL 算法可以避免構(gòu)建索引結(jié)構(gòu),減少了算法的 OI/ 次數(shù)。他們用 DB(p,d)來(lái)表示數(shù)據(jù)集中的異常點(diǎn),采用不同的參數(shù) p 與 d , ( ,d)DBp 可以表示所有的異常點(diǎn)。通常這類異常被描述為 ( ,d min)DB pct 。但當(dāng)數(shù)據(jù)集較大,此類方法在維數(shù)上的伸縮2 性不好。 傳統(tǒng)已有異常點(diǎn)算法介紹 基于統(tǒng)計(jì) 學(xué)的異常點(diǎn)檢測(cè)算法 早期的異常點(diǎn)檢測(cè)算法大多數(shù)是基于統(tǒng)計(jì)學(xué)實(shí)現(xiàn)的,通??梢苑譃榛诜植嫉臋z測(cè)算法和基于深度的檢測(cè)算法兩類。 傳統(tǒng)數(shù)據(jù)挖掘主要有以下幾類:基于統(tǒng)計(jì)的方法,基于距離的方法,基于偏移方法,基于聚類方法,基于密度方法。許多數(shù)據(jù)挖掘算法試圖減少異常點(diǎn)的對(duì)挖掘結(jié)果的影響,或者在挖掘過(guò)程中排除異常點(diǎn)。 but (2) the characteristics of similar large data sets, separation is difficult to judge。( 1) BP 神經(jīng)網(wǎng)絡(luò)能夠較好的分離特征單一的仿真數(shù)據(jù);但是( 2)特征相似性較大的數(shù)據(jù)集,難以分離判斷;( 3)正常數(shù)據(jù)不充分或者不具有代表性,因此正常數(shù)據(jù)類學(xué)習(xí)不充分,從而導(dǎo)致異常無(wú)法判斷。相對(duì)于大量的正常數(shù)據(jù)挖掘而言,異常點(diǎn)檢測(cè)被稱作小模式數(shù)據(jù)挖掘。 本科畢業(yè)設(shè)計(jì)(論文) BP 神經(jīng)網(wǎng)絡(luò)的異常點(diǎn)檢測(cè)應(yīng)用可行性研究 II 摘 要 異常點(diǎn)數(shù)據(jù)是指數(shù)據(jù)集中與眾不同數(shù)據(jù)。 BP 算法是一種常用的數(shù)據(jù)挖掘算法。針對(duì)以上問(wèn)題,本文提出了以下的改進(jìn)措施:( 1)BP 算法前進(jìn)行特征約簡(jiǎn)(映射)從中選取有益于異常檢測(cè)的特征( 2)多神經(jīng)網(wǎng)絡(luò)融合,不同神經(jīng)網(wǎng)絡(luò)識(shí)別不同的特征,相互取長(zhǎng)補(bǔ)短,融合后得到最終的結(jié)果。 (3) normal data is not sufficient or not representative, so the normal data class learning is not sufficient, leading to abnormal can not judge. To solve the above problem, this paper proposes the following improvements: (1) BP algorithm before feature reduction (map) benefit from anomaly detection features selected (2) integration of multiple neural works, different neural work to recognize the different characteristics of each each other, the final fusion result. Key Words: OutliersData, BP, Algorithms, Neural Networks V VI 目 錄 1 引言 .......................................................................................................................................... 1 背景 ................................................................................................................................ 1 ............................................................................................. 1 基于統(tǒng)計(jì)學(xué)的異常點(diǎn)檢測(cè)算法 .......................................................................... 1 基于距離的異常點(diǎn)檢測(cè)算法 .............................................................................. 2 基于密度的算法 .................................................................................................. 3 基于偏差的異常點(diǎn)檢測(cè) ...................................................................................... 5 基于聚類的異常點(diǎn)檢測(cè)算法 .............................................................................. 6 2 基于屬性特征在異常點(diǎn)檢測(cè)中的研究 .................................................................................. 7 3 BP 神經(jīng)網(wǎng)絡(luò)介紹 ..................................................................................................................... 9 模型簡(jiǎn)介 ........................................................................................................................ 9 計(jì)算各層節(jié)點(diǎn)輸出 ........................................................................................................ 9 修正權(quán)值 ......................................................................................................................10 4 異常檢測(cè)中 BP 神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì) .........................................................................................13 可微閾值單元 ...............................................................................................................13 單個(gè) BP 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì) ................................................................................................13 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過(guò)程的基本步驟 ..............................................................................14 5 實(shí)驗(yàn)研究 .................................................................................................................................17 研究使用的數(shù)據(jù)庫(kù)介紹 ...............................................................................................17 訓(xùn)練方案一實(shí)驗(yàn):把 bp 神經(jīng)網(wǎng)絡(luò)相似性代替距離算法相似度量 .........................17 訓(xùn)練方案二實(shí)驗(yàn):用單個(gè)神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)庫(kù)整體特性進(jìn)行學(xué)習(xí) ...................18 訓(xùn)練方案三實(shí)驗(yàn):多神經(jīng)網(wǎng)絡(luò)各種形式訓(xùn)練及其決策 ...........................................19 實(shí)驗(yàn)設(shè)計(jì)思路 .....................................................................................................19 實(shí)驗(yàn)方案及步驟 .................................................................................................20 實(shí)驗(yàn)分析 .............................................................................................................22 實(shí)驗(yàn)失敗原因分析 .............................................................................................23 調(diào)參實(shí)驗(yàn) ..................................................................................................................25 對(duì)實(shí)驗(yàn)一調(diào)整隱層實(shí)驗(yàn) .....................................................................................25 對(duì)實(shí)驗(yàn)二調(diào)整隱層實(shí)驗(yàn) .....................................................................................26 對(duì)實(shí)驗(yàn)三調(diào)整隱層實(shí)驗(yàn) .....................................................................................29 數(shù)據(jù)仿真實(shí)驗(yàn) ...............................................................................................................31 實(shí)驗(yàn)思路 .............................................................................................................31 實(shí)驗(yàn)步驟 .............................................................................................................31 實(shí)驗(yàn)結(jié)果 .............................................................................................................32 結(jié)果分析 ...............................................