freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

軟件工程畢業(yè)設計-bp神經(jīng)網(wǎng)絡的異常點檢測應用可行性研究-文庫吧資料

2025-06-12 18:04本頁面
  

【正文】 統(tǒng)計( tictgts2021 中為 1) (單位:個數(shù)) 輸出范圍 小 地數(shù)據(jù)數(shù) 測試數(shù)據(jù)庫正常數(shù)據(jù)數(shù)量 個數(shù) 0 0 0 1 0 36 54 163 512 2974 0 3762 實驗分析 (單位:縱軸個數(shù),橫軸順序表示每隔 地區(qū)間) 注:橫軸表示 0 到 1 區(qū)間,比如 1 表示 0 到 計算結(jié)果分布,縱軸表示個數(shù); 系列 1 表示異常點計算結(jié)果,系列 2 表示非異常點計算結(jié)果 圖 使用已訓練的 BP1 計算結(jié)果分布 (單位: 縱軸個數(shù),橫軸順序表示每隔 地區(qū)間) 注:橫軸表示 0 到 1 區(qū)間,比如 1 表示 0 到 計算結(jié)果分布,縱軸表示個數(shù); 系列 2 表示異常點計算結(jié)果,系列 1 表示非異常點計算結(jié)果 圖 使用已訓練的 BP2 計算結(jié)果分布 已知 BP1 保存的是正常數(shù)據(jù)地特性,越逼近 0 越是屬于正常數(shù)據(jù)特性; BP2 保存的是異常數(shù)據(jù)地特性。 流程: ( 1)第一組數(shù)據(jù)單個輸入 BP1 訓練,保存相應 BP1 權(quán)值,教師信號 , ticdata2021正常數(shù)據(jù)訓練; ( 2)第二組 數(shù)據(jù)單個輸入 BP2 訓練,保存 BP2 權(quán)值,教師信號 , ticdata2021 異常數(shù)據(jù)訓練; 測試方法 : ... ... X1 X2 Xn ... 異常與否 BP1 隱層 BP2 隱層 通過測試地兩個數(shù)據(jù)庫,輸?shù)接柧毢蟮貎蓚€神經(jīng)網(wǎng)絡,同時借助已知數(shù)據(jù)捕獲有用數(shù)據(jù)進行分析。 訓練準備:訓練采用 地前 4000 組數(shù)據(jù),前 85 個屬性為訓練輸入,第86 個為訓練用教師信號。每個訓練次數(shù)少于 40 次(根據(jù)實際增長速度, 減少控制次數(shù)),以便使數(shù)據(jù)有一定地區(qū)分度。同時測試數(shù)據(jù)可以通過進行不同神經(jīng)網(wǎng)絡計算兩次,以便得結(jié)果進行具體判斷結(jié)果。 解決方案,找一種訓練方法讓異常非異常點往不同方向逼近,并使其不互相影響。第二次訓練把非異常數(shù)據(jù)都集中在兩次教師信號中間。比如本次第一次訓練教師信號 1,第二次異常點信號 ,結(jié)果異常點主要集中在小于 和大于 之間,其中小于 和大于 異常點占地比率最大。數(shù)據(jù)難以區(qū)分。數(shù)據(jù)主要疊加在兩個教師信號數(shù)值之間 ,難以區(qū)分。 實驗觀察:測試數(shù)據(jù)庫獨個輸進 BP1 計算。 (1) 對所有非異常點數(shù)據(jù),按組 分別對 BP1 進行訓練,教師信號都為 1,( 數(shù)據(jù)庫里面大部分為正常數(shù)據(jù))保存 BP1 權(quán)值; (2)加載 BP1 數(shù)據(jù)到 BP2, 針對數(shù)據(jù)庫每個異常點,教師信號統(tǒng)一修改為 至 之間地任何一個數(shù)值,正向(數(shù)據(jù)庫地方向順序)訓練一次,再逆向訓練一次。 實驗方案:對神經(jīng)網(wǎng)絡 BP1,先使用非異常點經(jīng)行訓練,教師信號為 0。 訓練方案二實驗:用單個神經(jīng)網(wǎng)絡對訓練數(shù)據(jù)庫整體特性進行學習 實驗設計思路:為避免上述問題,改變訓練順序和訓練方法,單組數(shù)據(jù)輸入單個 bp神經(jīng)網(wǎng)絡。第四,訓練順序?qū)е?。第二,訓練方案地問題,數(shù)據(jù)集合里面,缺乏異常點地訓練, bp 權(quán)值能增長方向把小規(guī)模局部數(shù)據(jù)地特征給掩蓋掉了,難以輸出 好地數(shù)據(jù)來區(qū)分。 經(jīng)多次嘗試,降低訓練次數(shù)精度,本實驗方案依然失敗。輸出結(jié)果的所有數(shù)據(jù),在 0 到 1 區(qū)間之間,不管相似不相似都集中分布在靠近 0,沒有區(qū)分度,不能明顯表示相似與否地概念。 實驗訓練數(shù)據(jù)庫 100 與 4000 組數(shù)據(jù)做兩兩訓練還有 4000 組與 4000 組數(shù)據(jù)訓練。每個單元為 86 個權(quán)重,初始化權(quán)值按 給出的方法。假設這樣能夠成功,則以后只要判斷測試數(shù)據(jù)與整體已知數(shù)據(jù)庫地整體差異大小,就可以判斷異常與否。采用 WiYiXiabs ??? )( 表示 X 與 Y 兩者相似性差異。 5 實驗研究 研究使用的數(shù)據(jù)庫介紹 在嘗試各種算法方案地研究中,使用的數(shù)據(jù)庫名稱: The Insurance Company Benchmark (COIL 2021).關(guān)于保險的數(shù)據(jù),其中包括: ,訓練數(shù)據(jù), 5822組數(shù)據(jù),每組 86 個屬性,第 86 個為是否異常的標志變量,總地為兩類數(shù)據(jù);TICEVAL2021,測試數(shù)據(jù), 4000 組,每組為 85 個特征屬性; ,與ticeval2021 對應組地結(jié)果。 ( 3)將學習模式不斷輸入到輸入層,再根據(jù)輸出層產(chǎn)生的誤差不斷修正神經(jīng)元間連結(jié)的權(quán)值和神經(jīng)元的閾值,直到學習模式全部輸入或誤差達到一定的值。 神經(jīng)網(wǎng)絡 學習過程的 基本步驟 ( 1)定義誤差函數(shù) r 為期望輸出與實際輸出之差的平方和: ? ?? j jmj yVr 2)(21 ( ) 其中 yj 是輸出單元的期望輸出, mjV 是實際的輸出。 隱層輸出層的神經(jīng)元,每個的 0W 都初始化為 ,其他權(quán)值都初始化: (double) ((rand()/)*21);隨機數(shù)種子為系統(tǒng)時間。 圖 BP 結(jié)構(gòu) 輸入層為一組數(shù)據(jù),全連接到隱層,隱層計算輸出受擠壓函數(shù)處理后的數(shù)值,輸出層的輸入為隱層輸出。 本算法就是想把所有整數(shù)據(jù)特征映射到一個小范圍來處理判斷。因為 這個函數(shù)把非常大的書值域映射到一個小范圍的輸出。 )( ?? ?? xw?? ( ) 其中: yey ??? 11)(? ( ) ? 經(jīng)常被稱為 sigmoid 函數(shù)或者也可以稱為 logistic 函數(shù)。然而,對 sigmoid 單元,閾值輸出是輸入的連續(xù)函數(shù)。 由誤差函數(shù)調(diào)整權(quán)值有: pjpkkjpkjp ovEv ??????? ? 其中 )1()( pkpkpkpkpk oooy ?????? pipjjipjip owEw ??????? ? 其中 ?? ?????mk kjpkpjpjpjvoo1)()1( ?? ?? ???Np kjpkjvv1? ?? ???Np jipji ww 1? () 其中 ? 為學習速率,一般在 [0, 1]內(nèi)取值。1 krj pjkjpk ovne t ??? ?? () 若令 39。 計算各層節(jié)點輸出 輸入層節(jié)點,取其輸出 pio 與輸入 pix 相同,即 pipi xo ? 隱含層節(jié)點輸入 pj ,輸出 pjo 分別為: jni pijirj owne t ??? ??1 () 若令 1, 00 ??? pjj ow ? 則有: ??? ni pijirj ow 1 , 1() 1pjp j p j n eto f n et e ??? ?。 設輸入層節(jié)點數(shù)為 n,隱含層節(jié)點數(shù)為 r,輸出層節(jié)點數(shù)為 m,隱含層與輸入層之間的權(quán)值矩陣為 )( jiwW? ,隱含層節(jié)點閥值為 j? ,輸出層與隱含層之間權(quán)值矩陣為)( kjvV? ,輸出層節(jié)點閥值為 ?k? ,并設有 N 個學習樣本 )3,2,1)(,( NPYX pP ??? 其中TpnppP xxxx ),( 21 ?? 為第 P 個學習樣本的輸入向量,Tpmppp yyyY ),( 21 ?? 為其實際輸出向量。 BP 神經(jīng)網(wǎng)絡模型是人工神經(jīng)網(wǎng)絡的重要模型之一,應用尤為廣泛。 根據(jù)神經(jīng)網(wǎng)絡記憶分類地特性,本文設想通過這些特性學習出能夠辨別異常點非異常點數(shù)據(jù)的神經(jīng)網(wǎng)絡,主要研究其可行性 。從單個權(quán)值中看不出所存儲的信息內(nèi)容,因而是分布式的存儲方式,這使得網(wǎng)絡具有良好的容錯性,既能進行模式信息處理工作,又能進行模式識別工作。 ( 4)良好的容錯性與聯(lián)想記憶功能。 ( 3)高度并行性。人工神經(jīng)網(wǎng)絡具有很強的非線性,這種非線性分散在每個神經(jīng)元,通過傳遞函數(shù)實現(xiàn)。人工神經(jīng)網(wǎng)絡的輸入 輸出映射能力對于預測有特別重要的意義。 人工神經(jīng)網(wǎng)絡作為一種新型信息處理系統(tǒng),在信息處理方面,具有如下顯著的特點: (1)輸入 輸出映射能力。同時根據(jù)已知數(shù)據(jù)訓練修改這些權(quán)值,使其具有識別某種組合特征的能力。 由于特征地不可確定性,數(shù)值不確定,組合不確定。所有在屬性權(quán)值之上需要一組對屬性不同組合特征的 權(quán)值調(diào)整。異?;蛘叻钱惓#梢酝ㄟ^趨向某個數(shù)值表示特征異常,另一個方向數(shù)值表示非異常。以便全局統(tǒng)籌決策較容易。映射到維度為三十歲以下這個維度地病人比較少,映射到維度為十歲以上較多。假設數(shù)據(jù)特征表示在每個屬性上面,獨立沒有組合屬性表現(xiàn)特征地情況下,每一組數(shù)據(jù)屬性對應權(quán)值數(shù)據(jù)乘積和,表示這個數(shù)據(jù)在這組數(shù)據(jù)中全局中所占的重要性。而本文直接從已知部分數(shù)據(jù)維度的特征著手,即是直接從每一組數(shù)據(jù)的 特征來研究。本文的方向是從特征出發(fā)研究。取代了用聚類中心初始化,改進了聚類的目標函數(shù),降低了算法的時間復雜度,但該算法沒有提到如何選取核函數(shù),對于算法模糊性的控制不好撐握。此類算法沒有先驗知識指導如何確定聚類中心,只能是隨機選取,優(yōu)化搜索空間較大,算法的復雜度較大。 Su 等人首先提出基于聚類 的異常點檢測算法,聚集的較小簇被認為是異常點,但這中方法忽略了小聚集簇和大聚集簇之間的距離,當一個小聚集簇和一個大聚集簇非常接近的時候,小聚集簇中的這些點更可能是大聚集簇的邊界點而不是異常點。 基于聚類的異常點檢測算法 在聚類算法中, 異常點檢測僅僅是聚類的副產(chǎn)品。 第一種概念有缺陷,遺漏了不少異常點,時間復雜度與數(shù)據(jù)集大小成線性關(guān)系,適用性不高。此方法是發(fā) 現(xiàn)驅(qū)動探索的一種形式。但是并沒有得到普遍的認同,這是因為序列異常在概念上有一定的缺陷,它對異常點存在的假設太過理想化,對現(xiàn)實復雜數(shù)據(jù)效果不太好。 (1) 序列異常技術(shù): Aming 和 Argrawal 提出一種序列異常 (sequential exception)的概念。因此,在該方法中,屬于偏差通常用于指異常點。相反,它通過檢查一組對象的主要特征來識別異常點。 另外,岳峰等利用反向 K 近鄰 (RKNN)這個概念提出了一個異常點檢測算法(ODRKNN), 在綜 合數(shù)據(jù)集和正式數(shù)據(jù)集上的實驗結(jié)構(gòu)表明,該算法能有效地檢測出異常點,且算法效率高于典型的基于密度的異常點檢測算法 LOF 和 LSC 的效率。這種方法主要是引入局部稀疏系數(shù) (LSC)這一概念,根據(jù)每個對象的 LSC 值按從大到小的順序排列整個數(shù)據(jù)集并把前 n 個對象作為異常點。 在現(xiàn)有的計算局部異常因子( LOF)算法中,把具有很高 LOF 值的對象作為異常點 。 LOF 算法充分體現(xiàn)了 “ 局部 ” 的概念, 每個點都給出了一個離群程度,離群程度最強的那個幾個點被標記為異常點。一個對象領(lǐng)域內(nèi)的密度可以用包含固定結(jié)點個數(shù)的域半徑指定半徑領(lǐng)域中包含的結(jié)點數(shù)來描述。 (5)Breuning 提出了局部異常的概念及相應異常檢測方法( DBOM 算法),即 數(shù)據(jù)集中的每個對象的異常程度用局部異常因子 LOF 來衡量。 (4)Dongmei Ren 等采用相對密度系數(shù) (Rela— tive Density Factor,簡稱 RDF),即 P 點的密度相對該點的鄰域密度的比值作為孤立程度的度量方法,其基本思路是首先基于RDF 對位于簇中心的數(shù)據(jù)點進行剪枝,然后僅僅在剩下的較小的數(shù)據(jù)集中進行異常點檢測。 (2)Ville Hautamaki 等提出兩種基于密度的異常點檢測算法,第一種算法思路為在kNN 圖中,若頂點 u 成為其它點的 k 近鄰的次數(shù)少于給定閾值 T 時就被認為是異常點,另一種算法則是先對所有頂點的平均 k 近鄰距離進行排序,然后將平均 k 近鄰距離大于T 點頂點視為異常點。 (1)Brito 等提出相互 k 近鄰圖 (Mutual k— Nearest Neighbor,簡稱 MkNN)算法,其主要思想是對每個連通子圖進行檢測,如果包含多個結(jié)點就組成一個簇,如果僅有一個結(jié)點,那么該結(jié)點就是異常點?;诿芏鹊漠惓|c檢測,就是探測局部密度,通過 不同的密度估計策略來檢測異常點。 所謂密度是基于 任意 一點和 P 點距離小于給定半徑 R 的鄰域空間內(nèi)的數(shù)據(jù)點的個數(shù)計算得到的。基于密度的異常觀點比基于距離的異常觀點更貼近 Hawkins 的異常定義,因此能夠檢測出基于距離異常算法所不能識別的局部異常。實際上在給出了距離的度量,并對數(shù)據(jù)進行預處理后。 (1) 在理論上可以 處理任意維任意類型的數(shù)據(jù),這就克服了基于統(tǒng)計方法僅能檢測單個屬性的缺點。另外,徐雪松等利用聚類算法與第 k 個最近鄰的原理提出了基于距離的再聚類的異常點算法,它克服一些基于距離算法的缺點,并取得較好的試驗結(jié)果。代表性的算法有 : 陸聲鏈等提出一個判斷異常點的新定義,并設計基于抽樣近似檢測算法。 Bay 和 Sc hwabacher 在沿用 Rastogi 和 Ramaswam
點擊復制文檔內(nèi)容
畢業(yè)設計相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1