【正文】
............10 4 異常檢測中 BP 神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì) .........................................................................................13 可微閾值單元 ...............................................................................................................13 單個(gè) BP 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì) ................................................................................................13 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過程的基本步驟 ..............................................................................14 5 實(shí)驗(yàn)研究 .................................................................................................................................17 研究使用的數(shù)據(jù)庫介紹 ...............................................................................................17 訓(xùn)練方案一實(shí)驗(yàn):把 bp 神經(jīng)網(wǎng)絡(luò)相似性代替距離算法相似度量 .........................17 訓(xùn)練方案二實(shí)驗(yàn):用單個(gè)神經(jīng)網(wǎng)絡(luò)對訓(xùn)練數(shù)據(jù)庫整體特性進(jìn)行學(xué)習(xí) ...................18 訓(xùn)練方案三實(shí)驗(yàn):多神經(jīng)網(wǎng)絡(luò)各種形式訓(xùn)練及其決策 ...........................................19 實(shí)驗(yàn)設(shè)計(jì)思路 .....................................................................................................19 實(shí)驗(yàn)方案及步驟 .................................................................................................20 實(shí)驗(yàn)分析 .............................................................................................................22 實(shí)驗(yàn)失敗原因分析 .............................................................................................23 調(diào)參實(shí)驗(yàn) ..................................................................................................................25 對實(shí)驗(yàn)一調(diào)整隱層實(shí)驗(yàn) .....................................................................................25 對實(shí)驗(yàn)二調(diào)整隱層實(shí)驗(yàn) .....................................................................................26 對實(shí)驗(yàn)三調(diào)整隱層實(shí)驗(yàn) .....................................................................................29 數(shù)據(jù)仿真實(shí)驗(yàn) ...............................................................................................................31 實(shí)驗(yàn)思路 .............................................................................................................31 實(shí)驗(yàn)步驟 .............................................................................................................31 實(shí)驗(yàn)結(jié)果 .............................................................................................................32 結(jié)果分析 .............................................................................................................33 實(shí)驗(yàn)整體分析 ...............................................................................................................33 總結(jié)與展望 ...............................................................................................................................35 致謝 ...........................................................................................................................................39 VII 1 1 引言 背景 異常點(diǎn)(離群 點(diǎn)或者孤立點(diǎn))檢測是數(shù)據(jù)挖掘中一個(gè)重要方面, Hawkins[1]最早給出了異常點(diǎn)的本質(zhì)定義:異常點(diǎn)是數(shù)據(jù)集中與眾不同地?cái)?shù)據(jù),以至于使人懷疑這些數(shù)據(jù)并非隨機(jī)偏差,而是產(chǎn)生與完全不同的機(jī)制。 III IV Abstract Outlier data is the data set different data. This part of the small amount of data, but for our daily production and life of great. Therefore, the anomaly detection is widely used in work intrusion detection, finance, insurance, weather, and new drug development and other fields. Relative to the large number of normal data mining, the anomaly detection model is called data mining small. BP algorithm is a monly used data mining algorithm. But the BP algorithm to real data outliers exist in the data mining process: the higher the dimension of the actual data, there are redundant features of the interference, and highdimensional feature, the issue of inadequate data. Therefore, this paper analyzes a variety of BP neural work processing of data, and to get the following results. (1) BP neural work can better separation characteristics of a single simulation data。針對以上問題,本文提出了以下的改進(jìn)措施:( 1)BP 算法前進(jìn)行特征約簡(映射)從中選取有益于異常檢測的特征( 2)多神經(jīng)網(wǎng)絡(luò)融合,不同神經(jīng)網(wǎng)絡(luò)識別不同的特征,相互取長補(bǔ)短,融合后得到最終的結(jié)果。因此,本文分析 BP 神經(jīng)網(wǎng)絡(luò)處理各種數(shù)據(jù)的情況,并得到以下結(jié)果。 BP 算法是一種常用的數(shù)據(jù)挖掘算法。因此,異常點(diǎn)檢測被廣泛應(yīng)用于網(wǎng)絡(luò)入侵檢測,金融保險(xiǎn),天氣預(yù)報(bào)以及新藥研制等領(lǐng)域。 本科畢業(yè)設(shè)計(jì)(論文) BP 神經(jīng)網(wǎng)絡(luò)的異常點(diǎn)檢測應(yīng)用可行性研究 II 摘 要 異常點(diǎn)數(shù)據(jù)是指數(shù)據(jù)集中與眾不同數(shù)據(jù)。這部分?jǐn)?shù)據(jù)的量小,但是對于我們的日常生產(chǎn)生活的影響極大。相對于大量的正常數(shù)據(jù)挖掘而言,異常點(diǎn)檢測被稱作小模式數(shù)據(jù)挖掘。但是 BP 算法進(jìn)行實(shí)際數(shù)據(jù)的異常點(diǎn)數(shù)據(jù)挖掘過程中存在:實(shí)際數(shù)據(jù)的維數(shù)較高,存在冗余特征的干擾,以及在 高維特征下,數(shù)據(jù)量不充分的問題。( 1) BP 神經(jīng)網(wǎng)絡(luò)能夠較好的分離特征單一的仿真數(shù)據(jù);但是( 2)特征相似性較大的數(shù)據(jù)集,難以分離判斷;( 3)正常數(shù)據(jù)不充分或者不具有代表性,因此正常數(shù)據(jù)類學(xué)習(xí)不充分,從而導(dǎo)致異常無法判斷。 關(guān)鍵字 :異常, BP,異常點(diǎn)檢測,神 經(jīng)網(wǎng)絡(luò) 注:本設(shè)計(jì)(論文)題目來源于教師的國家級(或部級、省級、廳級、市級、校級、企業(yè))科研項(xiàng)目,項(xiàng)目編號為: 。 but (2) the characteristics of similar large data sets, separation is difficult to judge。異常點(diǎn)可能由于度量或執(zhí)行錯(cuò)誤產(chǎn)生,也可能是由于固有數(shù)據(jù)可變性的結(jié)果。許多數(shù)據(jù)挖掘算法試圖減少異常點(diǎn)的對挖掘結(jié)果的影響,或者在挖掘過程中排除異常點(diǎn)。因此人們開始逐漸研究異常點(diǎn)挖掘算法。 傳統(tǒng)數(shù)據(jù)挖掘主要有以下幾類:基于統(tǒng)計(jì)的方法,基于距離的方法,基于偏移方法,基于聚類方法,基于密度方法。 BP 神經(jīng)網(wǎng)絡(luò)適用于儲(chǔ)存和描述這種復(fù)雜的關(guān)系。 傳統(tǒng)已有異常點(diǎn)算法介紹 基于統(tǒng)計(jì) 學(xué)的異常點(diǎn)檢測算法 早期的異常點(diǎn)檢測算法大多數(shù)是基于統(tǒng)計(jì)學(xué)實(shí)現(xiàn)的,通??梢苑譃榛诜植嫉臋z測算法和基于深度的檢測算法兩類。此類算法估計(jì)多維分布的概率模型的難度較大,且準(zhǔn)確性低。但當(dāng)數(shù)據(jù)集較大,此類方法在維數(shù)上的伸縮2 性不好。其次,此方法在很大程度上依賴于待挖掘的數(shù)據(jù)集是否滿足某種概率分布模型、模型的參數(shù)、異常點(diǎn)的數(shù)目等對基于統(tǒng)計(jì)的方法都有非常重要的意義,而確定這些參數(shù)通常比較困難;另外,此方法大多適合于挖掘單變量的數(shù)值型數(shù)據(jù),然而許多數(shù)據(jù)挖掘問題要求在多維空間中發(fā)現(xiàn)異常點(diǎn),目前幾乎沒有多元的不一致檢驗(yàn),當(dāng)沒有特定的檢驗(yàn)時(shí),或觀察到的分布不能恰當(dāng)?shù)赜萌魏螛?biāo)準(zhǔn)的分布建模時(shí),此類方法不能確保所有的異常點(diǎn)被發(fā)現(xiàn)。通常這類異常被描述為 ( ,d min)DB pct 。這類方法與基于密度的檢測算法有很大的相似之處,不需要事先知道數(shù)據(jù)集的分布模型,對于任意分布模型均有效。他們用 DB(p,d)來表示數(shù)據(jù)集中的異常點(diǎn),采用不同的參數(shù) p 與 d , ( ,d)DBp 可以表示所有的異常點(diǎn)?;谒饕姆椒ㄒ蕾嚩嗑S索引結(jié)構(gòu) (Rtrees,X trees,KD tress 等 )的性能。 NL 算法可以避免構(gòu)建索引結(jié)構(gòu),減少了算法的 OI/ 次數(shù)?;趩卧姆椒ㄊ前褦?shù)據(jù)集劃分為單元,逐個(gè)單元的檢測,而非逐個(gè)對象的檢測。 Knorr 和 Ng 通過試驗(yàn)證明,當(dāng) 4k??時(shí)此算法優(yōu)于 NL 算法。 3 此算法需要將數(shù)據(jù)空間分隔成彼此獨(dú)立的單元結(jié)構(gòu),經(jīng)過多次選擇來判斷離群數(shù)據(jù)。后來, Rastogi 和Ramaswamy 提出了一個(gè)新的基于距離的異常點(diǎn)定義,即基于距離的第 k 最近鄰 (kth Nearest Neighbor)異常點(diǎn)挖掘方法。如果滿足 )()( pDqD kk ? 的點(diǎn) q 不超過 n1 個(gè),即 1)}()(|{ ???? npDqDDq kk ,那么稱 p 為 knD 異常點(diǎn)。他們用聚類算法首先對數(shù)據(jù)集進(jìn)行聚類,然后在類中發(fā)現(xiàn)異常點(diǎn)。但它也有自身缺陷,就是要計(jì)算數(shù)據(jù)集中所有點(diǎn)的 )(pDk ,這顯然影響到算法的效率。 Bay 和 Sc hwabacher 在沿用 Rastogi 和 Ramaswamy 對于異 常定義的基礎(chǔ)上,提出了一種基于隨機(jī)抽