freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

bp神經(jīng)網(wǎng)絡(luò)的異常點(diǎn)檢測應(yīng)用可行性分析畢業(yè)論文(更新版)

2025-08-06 07:46上一頁面

下一頁面
  

【正文】 r not representative, so the normal data class learning is not sufficient, leading to abnormal can not judge. To solve the above problem, this paper proposes the following improvements: (1) BP algorithm before feature reduction (map) benefit from anomaly detection features selected (2) integration of multiple neural networks, different neural network to recognize the different characteristics of each each other, the final fusion result.Key Words:OutliersData,BP,Algorithms,Neural Networks 目 錄1引言 1 1 傳統(tǒng)已有異常點(diǎn)算法介紹 1 1 2 3 5 62基于屬性特征在異常點(diǎn)檢測中的研究 73 BP神經(jīng)網(wǎng)絡(luò)介紹 9 9 9 修正權(quán)值 104 異常檢測中BP神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì) 13 13 13 145實(shí)驗(yàn)研究 17 17:把bp神經(jīng)網(wǎng)絡(luò)相似性代替距離算法相似度量 17:用單個(gè)神經(jīng)網(wǎng)絡(luò)對訓(xùn)練數(shù)據(jù)庫整體特性進(jìn)行學(xué)習(xí) 18:多神經(jīng)網(wǎng)絡(luò)各種形式訓(xùn)練及其決策 19 19 20 22 23 25 25 26 29 31 31 31 32 33 33總結(jié)與展望 35致謝 39 1引言異常點(diǎn)(離群點(diǎn)或者孤立點(diǎn))檢測是數(shù)據(jù)挖掘中一個(gè)重要方面,Hawkins[1]最早給出了異常點(diǎn)的本質(zhì)定義:異常點(diǎn)是數(shù)據(jù)集中與眾不同地?cái)?shù)據(jù),以至于使人懷疑這些數(shù)據(jù)并非隨機(jī)偏差,而是產(chǎn)生與完全不同的機(jī)制。BP算法是一種常用的數(shù)據(jù)挖掘算法。相對于大量的正常數(shù)據(jù)挖掘而言,異常點(diǎn)檢測被稱作小模式數(shù)據(jù)挖掘。 but (2) the characteristics of similar large data sets, separation is difficult to judge。傳統(tǒng)數(shù)據(jù)挖掘主要有以下幾類:基于統(tǒng)計(jì)的方法,基于距離的方法,基于偏移方法,基于聚類方法,基于密度方法。但當(dāng)數(shù)據(jù)集較大,此類方法在維數(shù)上的伸縮性不好。他們用DB(p,d)來表示數(shù)據(jù)集中的異常點(diǎn),采用不同的參數(shù)與,可以表示所有的異常點(diǎn)。 Knorr和Ng通過試驗(yàn)證明,當(dāng)時(shí)此算法優(yōu)于NL算法。他們用聚類算法首先對數(shù)據(jù)集進(jìn)行聚類,然后在類中發(fā)現(xiàn)異常點(diǎn)。另外,徐雪松等利用聚類算法與第k個(gè)最近鄰的原理提出了基于距離的再聚類的異常點(diǎn)算法,它克服一些基于距離算法的缺點(diǎn),并取得較好的試驗(yàn)結(jié)果。所謂密度是基于任意一點(diǎn)和P點(diǎn)距離小于給定半徑R的鄰域空間內(nèi)的數(shù)據(jù)點(diǎn)的個(gè)數(shù)計(jì)算得到的。(4)Dongmei Ren等采用相對密度系數(shù)(Rela—tive Density Factor,簡稱RDF),即P點(diǎn)的密度相對該點(diǎn)的鄰域密度的比值作為孤立程度的度量方法,其基本思路是首先基于RDF對位于簇中心的數(shù)據(jù)點(diǎn)進(jìn)行剪枝,然后僅僅在剩下的較小的數(shù)據(jù)集中進(jìn)行異常點(diǎn)檢測。在現(xiàn)有的計(jì)算局部異常因子(LOF)算法中,把具有很高LOF值的對象作為異常點(diǎn)。因此,在該方法中,屬于偏差通常用于指異常點(diǎn)。第一種概念有缺陷,遺漏了不少異常點(diǎn),時(shí)間復(fù)雜度與數(shù)據(jù)集大小成線性關(guān)系,適用性不高。取代了用聚類中心初始化,改進(jìn)了聚類的目標(biāo)函數(shù),降低了算法的時(shí)間復(fù)雜度,但該算法沒有提到如何選取核函數(shù),對于算法模糊性的控制不好撐握。映射到維度為三十歲以下這個(gè)維度地病人比較少,映射到維度為十歲以上較多。由于特征地不可確定性,數(shù)值不確定,組合不確定。人工神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的非線性,這種非線性分散在每個(gè)神經(jīng)元,通過傳遞函數(shù)實(shí)現(xiàn)。根據(jù)神經(jīng)網(wǎng)絡(luò)記憶分類地特性,本文設(shè)想通過這些特性學(xué)習(xí)出能夠辨別異常點(diǎn)非異常點(diǎn)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),主要研究其可行性。由誤差函數(shù)調(diào)整權(quán)值有: 其中 其中 ()其中為學(xué)習(xí)速率,一般在[0,1]內(nèi)取值。本算法就是想把所有整數(shù)據(jù)特征映射到一個(gè)小范圍來處理判斷。(3)將學(xué)習(xí)模式不斷輸入到輸入層,再根據(jù)輸出層產(chǎn)生的誤差不斷修正神經(jīng)元間連結(jié)的權(quán)值和神經(jīng)元的閾值,直到學(xué)習(xí)模式全部輸入或誤差達(dá)到一定的值。每個(gè)單元為86個(gè)權(quán)重。第二,訓(xùn)練方案地問題,數(shù)據(jù)集合里面,缺乏異常點(diǎn)地訓(xùn)練,bp權(quán)值能增長方向把小規(guī)模局部數(shù)據(jù)地特征給掩蓋掉了,難以輸出好地?cái)?shù)據(jù)來區(qū)分。(1) 對所有非異常點(diǎn)數(shù)據(jù),按組分別對BP1進(jìn)行訓(xùn)練,教師信號都為1,()保存BP1權(quán)值;(2)加載BP1數(shù)據(jù)到BP2, 針對數(shù)據(jù)庫每個(gè)異常點(diǎn),正向(數(shù)據(jù)庫地方向順序)訓(xùn)練一次,再逆向訓(xùn)練一次。比如本次第一次訓(xùn)練教師信號1。每個(gè)訓(xùn)練次數(shù)少于40次(根據(jù)實(shí)際增長速度,減少控制次數(shù)),以便使數(shù)據(jù)有一定地區(qū)分度。,證明異常數(shù)據(jù)特性被正常數(shù)據(jù)所包含。注:訓(xùn)練數(shù)據(jù)庫中的,每個(gè)點(diǎn)代表一個(gè)屬性值,橫軸代表屬性順序,縱軸代表屬性值.如圖 ,大多數(shù)屬性屬于一個(gè)范圍空間,這種情況在BP屬于相似性很大地情況,很難區(qū)分開來。125個(gè)隱層結(jié)點(diǎn)訓(xùn)練后測試結(jié)果與已知結(jié)果對照表: 5個(gè)隱層測試結(jié)果前11組 (單位:相似度)序號123456789101112異常與否010000000001計(jì)算結(jié)果分布 15個(gè)隱層測試結(jié)果前11組 (單位:相似度)序號123456789101112異常與否010000000001計(jì)算結(jié)果分布 15個(gè)隱層測試結(jié)果前12組 (單位:相似度)序號123456789101112異常與否010000000001計(jì)算結(jié)果分布 表計(jì)算結(jié)果分析,沒有出現(xiàn)較好區(qū)分度,無法做未知數(shù)據(jù)異常與否地判斷。通過上面幾個(gè)實(shí)驗(yàn)可以知道,并非BP結(jié)構(gòu)過擬化,應(yīng)該是數(shù)據(jù)問題。(3) 保存訓(xùn)練后權(quán)值,對原訓(xùn)練數(shù)據(jù)進(jìn)行收斂性檢查,同時(shí)查看二十組數(shù)據(jù)分布。單位:橫軸表示順序,縱軸表示計(jì)算結(jié)果數(shù)值。究其原因,可能是BP結(jié)構(gòu)隱層單元過多,數(shù)據(jù)特性之間交叉特性太多,以使計(jì)算結(jié)果無法區(qū)分開來。可見BP具備一定的分類器能力,采用多分類器方法對數(shù)據(jù)集合進(jìn)行學(xué)習(xí),還是具備一定地可行性。同時(shí)對于那些不同類而且是數(shù)據(jù)特征相似性較大(比如很多屬性處在相同空間范圍,局部屬性不同)則需要采用更多神經(jīng)網(wǎng)絡(luò)訓(xùn)練這些特征,以便分離,或者采用專家系統(tǒng)方式,對這些具備相似性較高而又不同類進(jìn)行量化可控地判斷。 參考文獻(xiàn)[1] Hawkins D. Identification of Outliers[M]. and hall. 1980.[2] Edwin M. Knorr, Raymond T. Ng,Vladimir Tucakov. DistanceBased Outlier:Algorithms Applications[J].(34):237253.[3] Edwin M. Knorr, Raymod T. Ng. Algorithms for Mining DistanceBased Outliers in Large Datasets[R]. Very Large Data Bases Conference :2427.[4] 王元明,熊偉. 異常數(shù)據(jù)的檢測方法[J]. 重慶工業(yè)學(xué)院學(xué)報(bào)(自然科學(xué)),2009,第23卷:8689.[5] 楊永銘,王喆. 孤立點(diǎn)算法研究[J]. 計(jì)算機(jī)與數(shù)字工程,2008,219期:1115.[6] Aleksandar Lazarevic, Vipin Kumar. Feature Bagging for Outlier Detection[C]. Proceedings of the eleventh ACM SIGKDD international conference on Knowledge discovery in data mining,Chicago, Illinois, USA,Pages: 157 166在此,感謝老師地辛勤付出!愿一切順利
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1