freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

bp神經(jīng)網(wǎng)絡(luò)的異常點(diǎn)檢測應(yīng)用可行性分析畢業(yè)論文(專業(yè)版)

2025-08-09 07:46上一頁面

下一頁面
  

【正文】 參考文獻(xiàn)[1] Hawkins D. Identification of Outliers[M]. and hall. 1980.[2] Edwin M. Knorr, Raymond T. Ng,Vladimir Tucakov. DistanceBased Outlier:Algorithms Applications[J].(34):237253.[3] Edwin M. Knorr, Raymod T. Ng. Algorithms for Mining DistanceBased Outliers in Large Datasets[R]. Very Large Data Bases Conference :2427.[4] 王元明,熊偉. 異常數(shù)據(jù)的檢測方法[J]. 重慶工業(yè)學(xué)院學(xué)報(bào)(自然科學(xué)),2009,第23卷:8689.[5] 楊永銘,王喆. 孤立點(diǎn)算法研究[J]. 計(jì)算機(jī)與數(shù)字工程,2008,219期:1115.[6] Aleksandar Lazarevic, Vipin Kumar. Feature Bagging for Outlier Detection[C]. Proceedings of the eleventh ACM SIGKDD international conference on Knowledge discovery in data mining,Chicago, Illinois, USA,Pages: 157 166可見BP具備一定的分類器能力,采用多分類器方法對(duì)數(shù)據(jù)集合進(jìn)行學(xué)習(xí),還是具備一定地可行性。單位:橫軸表示順序,縱軸表示計(jì)算結(jié)果數(shù)值。通過上面幾個(gè)實(shí)驗(yàn)可以知道,并非BP結(jié)構(gòu)過擬化,應(yīng)該是數(shù)據(jù)問題。注:訓(xùn)練數(shù)據(jù)庫中的,每個(gè)點(diǎn)代表一個(gè)屬性值,橫軸代表屬性順序,縱軸代表屬性值.如圖 ,大多數(shù)屬性屬于一個(gè)范圍空間,這種情況在BP屬于相似性很大地情況,很難區(qū)分開來。每個(gè)訓(xùn)練次數(shù)少于40次(根據(jù)實(shí)際增長速度,減少控制次數(shù)),以便使數(shù)據(jù)有一定地區(qū)分度。(1) 對(duì)所有非異常點(diǎn)數(shù)據(jù),按組分別對(duì)BP1進(jìn)行訓(xùn)練,教師信號(hào)都為1,()保存BP1權(quán)值;(2)加載BP1數(shù)據(jù)到BP2, 針對(duì)數(shù)據(jù)庫每個(gè)異常點(diǎn),正向(數(shù)據(jù)庫地方向順序)訓(xùn)練一次,再逆向訓(xùn)練一次。每個(gè)單元為86個(gè)權(quán)重。本算法就是想把所有整數(shù)據(jù)特征映射到一個(gè)小范圍來處理判斷。根據(jù)神經(jīng)網(wǎng)絡(luò)記憶分類地特性,本文設(shè)想通過這些特性學(xué)習(xí)出能夠辨別異常點(diǎn)非異常點(diǎn)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),主要研究其可行性。由于特征地不可確定性,數(shù)值不確定,組合不確定。取代了用聚類中心初始化,改進(jìn)了聚類的目標(biāo)函數(shù),降低了算法的時(shí)間復(fù)雜度,但該算法沒有提到如何選取核函數(shù),對(duì)于算法模糊性的控制不好撐握。因此,在該方法中,屬于偏差通常用于指異常點(diǎn)。(4)Dongmei Ren等采用相對(duì)密度系數(shù)(Rela—tive Density Factor,簡稱RDF),即P點(diǎn)的密度相對(duì)該點(diǎn)的鄰域密度的比值作為孤立程度的度量方法,其基本思路是首先基于RDF對(duì)位于簇中心的數(shù)據(jù)點(diǎn)進(jìn)行剪枝,然后僅僅在剩下的較小的數(shù)據(jù)集中進(jìn)行異常點(diǎn)檢測。另外,徐雪松等利用聚類算法與第k個(gè)最近鄰的原理提出了基于距離的再聚類的異常點(diǎn)算法,它克服一些基于距離算法的缺點(diǎn),并取得較好的試驗(yàn)結(jié)果。 Knorr和Ng通過試驗(yàn)證明,當(dāng)時(shí)此算法優(yōu)于NL算法。但當(dāng)數(shù)據(jù)集較大,此類方法在維數(shù)上的伸縮性不好。 but (2) the characteristics of similar large data sets, separation is difficult to judge。BP算法是一種常用的數(shù)據(jù)挖掘算法。本文從特征與異常檢測的關(guān)系出發(fā)進(jìn)行研究。與此 定 義 相應(yīng)的算法有三種,它們是基于索引(Indexbased)的算法,嵌套循環(huán)(NestLoop,NL)算法,基于單元或劃分(cellbased)的算法等。相對(duì)于異常點(diǎn)挖掘,異常點(diǎn)挖掘方法人為干預(yù)的因素要小一些。一般的對(duì)密度的定義是點(diǎn)到其量近鄰的平均距離,平均距離小則密度小。計(jì)算LOF要耗費(fèi)很大的計(jì)算量,針對(duì)此問題malik Agyemang提出了修改算法,即局部稀疏系數(shù)(LSC)算法。第二種搜索空間大,人工探測困難,效率不高,只適用多維數(shù)據(jù)。這樣我們可以添加一個(gè)權(quán)值與年齡這一項(xiàng)數(shù)據(jù)乘積,這個(gè)乘積必須使權(quán)值與當(dāng)前數(shù)據(jù)乘積出來的數(shù)據(jù)成正比,表示年齡增長能夠體現(xiàn)在這組數(shù)據(jù)中的重要性。利用神經(jīng)網(wǎng)絡(luò)的非線性特性,可解決藥學(xué)研究及實(shí)驗(yàn)數(shù)據(jù)處理過程中大量的非線性問題。權(quán)值修正為: () () 4 異常檢測中BP神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)fX0 = 1WnW2W1XnX2X1W0 = Θ圖 如圖 可微閾值單元,圖中為sigmoid單元,與感知器相似,sigmoid單元先計(jì)算它的線性組合,然后應(yīng)用一個(gè)閾值到此結(jié)果。反向傳播算法在網(wǎng)絡(luò)規(guī)模較大時(shí)計(jì)算量很大,收斂較慢,而且存在局部最小的問題,根據(jù)這一問題,在具體操作時(shí)采用了加入動(dòng)量項(xiàng)的方法: () 稱為動(dòng)量因子,這樣后一次的權(quán)值更新適當(dāng)考慮上一次的權(quán)值更新,可以改善收斂特性。第三,數(shù)據(jù)特征不顯著。正態(tài)分布地兩邊。,剛好是已知異常點(diǎn)個(gè)數(shù)。同時(shí)也可看到與上面實(shí)驗(yàn)一樣結(jié)果,證明不是算法問題,而是數(shù)據(jù)特征不好區(qū)分。(4) 隨機(jī)生成具備(1)特征地另一組數(shù)據(jù),采用(2)已經(jīng)訓(xùn)練地權(quán)值,進(jìn)行計(jì)算測試,查看分析結(jié)果數(shù)據(jù)分布。而是由于數(shù)據(jù)特征相似性太大,只有一兩個(gè)屬性相異來分類。同時(shí)對(duì)于超出已知范疇特性地?cái)?shù)據(jù),進(jìn)行保存處理,訓(xùn)練出新的神經(jīng)網(wǎng)絡(luò),同時(shí)通過人工專家系統(tǒng)進(jìn)行更新。也是一步步支持我能夠圓滿結(jié)題地推動(dòng)力。假設(shè)應(yīng)用BP神經(jīng)網(wǎng)絡(luò)做異常點(diǎn)檢測,實(shí)際應(yīng)用則采用BP充當(dāng)分類器,并且根據(jù)特征采用多分類器結(jié)構(gòu),解決數(shù)據(jù)多特征問題。異常與非異常點(diǎn)計(jì)算結(jié)果都是,很難獲得一個(gè)較高準(zhǔn)確率地檢測方案,數(shù)據(jù)較集中分布狀況一樣,無法很好分離開來。組數(shù)據(jù)結(jié)束條件教師信號(hào)與實(shí)際輸出相差絕對(duì)值 300次。一下摘取部分信息。,正異常數(shù)據(jù)地實(shí)際輸出。根據(jù)實(shí)際數(shù)據(jù),越逼近1地越小于第二次訓(xùn)練地教師信號(hào)地,都為異常點(diǎn)。經(jīng)過大量實(shí)驗(yàn),失敗原因:第一,bp處理輸出區(qū)分度不夠,難以有判斷方案。(2)調(diào)節(jié)權(quán)值的公式為: () 其中為學(xué)習(xí)步長,取正參數(shù),代表上一層神經(jīng)元的輸出,而有兩種情況:1) 如果j是輸出層(第m層)的神經(jīng)元,則 () 2) 如果j不在輸出層,而是隱含層的神經(jīng)元,則 () 是該神經(jīng)元的輸出,而求本層的必須用到上一層的,可見誤差函數(shù)的求取是一個(gè)始于輸出層的反向傳播的遞歸過程。輸出層節(jié)點(diǎn)輸入,輸出分別為: () 若令,則有: () 修正權(quán)值設(shè) 其中為第p個(gè)學(xué)習(xí)樣本產(chǎn)生的輸出誤差,為總誤差。(2)非線性特性。例如檢測是否是糖尿病人的數(shù)據(jù)庫,三十歲以下這個(gè)年齡維度上病人較少,然而五十歲后這個(gè)維度病人比例就多了。此方法由于搜索空間很大,人工探測非常困難。文獻(xiàn)有關(guān)發(fā)面對(duì)LOF進(jìn)行推廣:一是由原來的一個(gè)鄰域的變化為兩個(gè)(計(jì)算密度領(lǐng)域和比較密度領(lǐng)域);二是剪除非異常對(duì)象來減小計(jì)算代價(jià);因此,使用算法比傳統(tǒng)的LOF算法有所提高。局部異常觀點(diǎn)摒棄了以前所有的異常定義中非此即彼的絕對(duì)異常觀念,更加符合現(xiàn)實(shí)生活的中的應(yīng)用。如果對(duì)數(shù)據(jù)對(duì)象根據(jù)它們的距離進(jìn)行排序,那么前n個(gè)點(diǎn)就被看作異常點(diǎn)?;诰嚯x方法最早是由Knorr和Ng在1998年提出的。目前異常點(diǎn)檢測已經(jīng)開始用于信用卡欺詐、網(wǎng)絡(luò)入侵檢測以及金融申請(qǐng)和交易欺詐等領(lǐng)域[2],近年來異常點(diǎn)檢測已成為數(shù)據(jù)挖掘研究中的一個(gè)熱點(diǎn)問題。因此,異常點(diǎn)檢測被廣泛應(yīng)用于網(wǎng)絡(luò)入侵檢測,金融保險(xiǎn),天氣預(yù)報(bào)以及新藥研制等領(lǐng)域。異常點(diǎn)可能由于度量或執(zhí)行錯(cuò)誤產(chǎn)生,也可能是由于固有數(shù)據(jù)可變性的結(jié)果。其次,此方法在很大程度上依賴于待挖掘的數(shù)據(jù)集是否滿足某種概率分布模型、模型的參數(shù)、異常點(diǎn)的數(shù)目等對(duì)基于統(tǒng)計(jì)的方法都有非常重要的意義,而確定這些參數(shù)通常比較困難;另外,此方法大多適合于挖掘單變量的數(shù)值型數(shù)據(jù),然而許多數(shù)據(jù)挖掘問題要求在多維空間中發(fā)現(xiàn)異常點(diǎn),目前幾乎沒有多元的不一致檢驗(yàn),當(dāng)沒有特定的檢驗(yàn)時(shí),或觀察到的分布不能恰當(dāng)?shù)赜萌魏螛?biāo)準(zhǔn)的分布建模時(shí),此類方法不能確保所有的異常點(diǎn)被發(fā)現(xiàn)。此算法需要將數(shù)據(jù)空間分隔成彼此獨(dú)立的單元結(jié)構(gòu),經(jīng)過多次選擇來判斷離群數(shù)據(jù)。(1) 在理論上可以處理任意維任意類型的數(shù)據(jù),這就克服了基于統(tǒng)計(jì)方法僅能檢測單個(gè)屬性的缺點(diǎn)。(5)Breuning 提出
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1