freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

bp神經(jīng)網(wǎng)絡(luò)的異常點檢測應(yīng)用可行性分析畢業(yè)論文-在線瀏覽

2024-08-08 07:46本頁面
  

【正文】 分布建模時,此類方法不能確保所有的異常點被發(fā)現(xiàn)。通常這類異常被描述為。這類方法與基于密度的檢測算法有很大的相似之處,不需要事先知道數(shù)據(jù)集的分布模型,對于任意分布模型均有效。他們用DB(p,d)來表示數(shù)據(jù)集中的異常點,采用不同的參數(shù)與,可以表示所有的異常點?;谒饕姆椒ㄒ蕾嚩嗑S索引結(jié)構(gòu)(Rtrees,X trees,KD tress等)的性能。NL算法可以避免構(gòu)建索引結(jié)構(gòu),減少了算法的次數(shù)?;趩卧姆椒ㄊ前褦?shù)據(jù)集劃分為單元,逐個單元的檢測,而非逐個對象的檢測。 Knorr和Ng通過試驗證明,當時此算法優(yōu)于NL算法。此算法需要將數(shù)據(jù)空間分隔成彼此獨立的單元結(jié)構(gòu),經(jīng)過多次選擇來判斷離群數(shù)據(jù)。后來,Rastogi和Ramaswamy提出了一個新的基于距離的異常點定義,即基于距離的第最近鄰(kth Nearest Neighbor)異常點挖掘方法。如果滿足的點q不超過n1個,即,那么稱為異常點。他們用聚類算法首先對數(shù)據(jù)集進行聚類,然后在類中發(fā)現(xiàn)異常點。但它也有自身缺陷,就是要計算數(shù)據(jù)集中所有點的,這顯然影響到算法的效率。Bay和Sc hwabacher在沿用Rastogi和Ramaswamy對于異常定義的基礎(chǔ)上,提出了一種基于隨機抽樣的檢測方法,它通過隨機抽樣的方法,減少了尋找k近鄰的范圍,在試驗數(shù)據(jù)上獲得了幾乎線性的計算復雜度。代表性的算法有: 陸聲鏈等提出一個判斷異常點的新定義,并設(shè)計基于抽樣近似檢測算法。另外,徐雪松等利用聚類算法與第k個最近鄰的原理提出了基于距離的再聚類的異常點算法,它克服一些基于距離算法的缺點,并取得較好的試驗結(jié)果。(1) 在理論上可以處理任意維任意類型的數(shù)據(jù),這就克服了基于統(tǒng)計方法僅能檢測單個屬性的缺點。實際上在給出了距離的度量,并對數(shù)據(jù)進行預處理后?;诿芏鹊漠惓S^點比基于距離的異常觀點更貼近Hawkins的異常定義,因此能夠檢測出基于距離異常算法所不能識別的局部異常。所謂密度是基于任意一點和P點距離小于給定半徑R的鄰域空間內(nèi)的數(shù)據(jù)點的個數(shù)計算得到的?;诿芏鹊漠惓|c檢測,就是探測局部密度,通過不同的密度估計策略來檢測異常點。(1) Brito等提出相互k近鄰圖(Mutual k—Nearest Neighbor,簡稱MkNN)算法,其主要思想是對每個連通子圖進行檢測,如果包含多個結(jié)點就組成一個簇,如果僅有一個結(jié)點,那么該結(jié)點就是異常點。(2)Ville Hautamaki等提出兩種基于密度的異常點檢測算法,第一種算法思路為在kNN圖中,若頂點u成為其它點的k近鄰的次數(shù)少于給定閾值T時就被認為是異常點,另一種算法則是先對所有頂點的平均k近鄰距離進行排序,然后將平均k近鄰距離大于T點頂點視為異常點。(4)Dongmei Ren等采用相對密度系數(shù)(Rela—tive Density Factor,簡稱RDF),即P點的密度相對該點的鄰域密度的比值作為孤立程度的度量方法,其基本思路是首先基于RDF對位于簇中心的數(shù)據(jù)點進行剪枝,然后僅僅在剩下的較小的數(shù)據(jù)集中進行異常點檢測。(5)Breuning 提出了局部異常的概念及相應(yīng)異常檢測方法(DBOM算法),即數(shù)據(jù)集中的每個對象的異常程度用局部異常因子LOF來衡量。一個對象領(lǐng)域內(nèi)的密度可以用包含固定結(jié)點個數(shù)的域半徑指定半徑領(lǐng)域中包含的結(jié)點數(shù)來描述。LOF算法充分體現(xiàn)了“局部”的概念,每個點都給出了一個離群程度,離群程度最強的那個幾個點被標記為異常點。在現(xiàn)有的計算局部異常因子(LOF)算法中,把具有很高LOF值的對象作為異常點。這種方法主要是引入局部稀疏系數(shù)(LSC)這一概念,根據(jù)每個對象的LSC值按從大到小的順序排列整個數(shù)據(jù)集并把前n個對象作為異常點。另外,岳峰等利用反向K近鄰(RKNN)這個概念提出了一個異常點檢測算法(ODRKNN),在綜合數(shù)據(jù)集和正式數(shù)據(jù)集上的實驗結(jié)構(gòu)表明,該算法能有效地檢測出異常點,且算法效率高于典型的基于密度的異常點檢測算法LOF和LSC的效率。相反,它通過檢查一組對象的主要特征來識別異常點。因此,在該方法中,屬于偏差通常用于指異常點。(1) 序列異常技術(shù):Aming和Argrawal 提出一種序列異常(sequential exception)的概念。但是并沒有得到普遍的認同,這是因為序列異常在概念上有一定的缺陷,它對異常點存在的假設(shè)太過理想化,對現(xiàn)實復雜數(shù)據(jù)效果不太好。此方法是發(fā)現(xiàn)驅(qū)動探索的一種形式。第一種概念有缺陷,遺漏了不少異常點,時間復雜度與數(shù)據(jù)集大小成線性關(guān)系,適用性不高。在聚類算法中,異常點檢測僅僅是聚類的副產(chǎn)品。Su等人首先提出基于聚類的異常點檢測算法,聚集的較小簇被認為是異常點,但這中方法忽略了小聚集簇和大聚集簇之間的距離,當一個小聚集簇和一個大聚集簇非常接近的時候,小聚集簇中的這些點更可能是大聚集簇的邊界點而不是異常點。此類算法沒有先驗知識指導如何確定聚類中心,只能是隨機選取,優(yōu)化搜索空間較大,算法的復雜度較大。取代了用聚類中心初始化,改進了聚類的目標函數(shù),降低了算法的時間復雜度,但該算法沒有提到如何選取核函數(shù),對于算法模糊性的控制不好撐握。本文的方向是從特征出發(fā)研究。而本文直接從已知部分數(shù)據(jù)維度的特征著手,即是直接從每一組數(shù)據(jù)的特征來研究。假設(shè)數(shù)據(jù)特征表示在每個屬性上面,獨立沒有組合屬性表現(xiàn)特征地情況下,每一組數(shù)據(jù)屬性對應(yīng)權(quán)值數(shù)據(jù)乘積和,表示這個數(shù)據(jù)在這組數(shù)據(jù)中全局中所占的重要性。映射到維度為三十歲以下這個維度地病人比較少,映射到維度為十歲以上較多。以便全局統(tǒng)籌決策較容易。異常或者非異常,可以通過趨向某個數(shù)值表示特征異常,另一個方向數(shù)值表示非異常。所有在屬性權(quán)值之上需要一組對屬性不同組合特征的權(quán)值調(diào)整。由于特征地不可確定性,數(shù)值不確定,組合不確定。同時根據(jù)已知數(shù)據(jù)訓練修改這些權(quán)值,使其具有識別某種組合特征的能力。人工神經(jīng)網(wǎng)絡(luò)作為一種新型信息處理系統(tǒng),在信息處理方面,具有如下顯著的特點:(1)輸入輸出映射能力。人工神經(jīng)網(wǎng)絡(luò)的輸入輸出映射能力對于預測有特別重要的意義。人工神經(jīng)網(wǎng)絡(luò)具有很強的非線性,這種非線性分散在每個神經(jīng)元,通過傳遞函數(shù)實現(xiàn)。(3)高度并行性。(4)良好的容錯性與聯(lián)想記憶功能。從單個權(quán)值中看不出所存儲的信息內(nèi)容,因而是分布式的存儲方式,這使得網(wǎng)絡(luò)具有良好的容錯性,既能進行模式信息處理工作,又能進行模式識別工作。根據(jù)神經(jīng)網(wǎng)絡(luò)記憶分類地特性,本文設(shè)想通過這些特性學習出能夠辨別異常點非異常點數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),主要研究其可行性。BP神經(jīng)網(wǎng)絡(luò)模型是人工神經(jīng)網(wǎng)絡(luò)的重要模型之一,應(yīng)用尤為廣泛。設(shè)輸入層節(jié)點數(shù)為n,隱含層節(jié)點數(shù)為r,輸出層節(jié)點數(shù)為m,隱含層與輸入層之間的權(quán)值矩陣為,隱含層節(jié)點閥值為,輸出層與隱含層之間權(quán)值矩陣為,輸出層節(jié)點閥值為,并設(shè)有N個學習樣本其中為第P個學習樣本的輸入向量,為其實際輸出向量。輸入層節(jié)點,取其輸出與輸入相同,即隱含層節(jié)點輸入,輸出分別為: ()若令則有:。由誤差函數(shù)調(diào)整權(quán)值有: 其中 其中 ()其中為學習速率,一般在[0,1]內(nèi)取值。然而,對sigmoid單元,閾值輸出是輸入的連續(xù)函數(shù)。 ()其中: ()經(jīng)常被稱為sigmoid函數(shù)或者也可以稱為logistic函數(shù)。因為這個函數(shù)把非常大的書值域映射到一個小范圍的輸出。本算法就是想把所有整數(shù)據(jù)特征映射到一個小范圍來處理判斷。輸入隱層輸出層圖 BP結(jié)構(gòu)輸入層為一組數(shù)據(jù),全連接到隱層,隱層計算輸出受擠壓函數(shù)處理后的數(shù)值,輸出層的輸入為隱層輸出。隱層輸出層的神經(jīng)元,其他權(quán)值都初始化:(double) ((rand()/)*21);隨機數(shù)種子為系統(tǒng)時間。(1)定義誤差函數(shù)為期望輸出與實際輸出之差的平方和: ()其中yj是輸出單元的期望輸出,是實際的輸出。(3)將學習模式不斷輸入到輸入層,再根據(jù)輸出層產(chǎn)生的誤差不斷修正神經(jīng)元間連結(jié)的權(quán)值和神經(jīng)元的閾值,直到學習模式全部輸入或誤差達到一定的值。 5實驗研究在嘗試各種算法方案地研究中,使用的數(shù)據(jù)庫名稱:The Insurance Company Benchmark (COIL 2000).關(guān)于保險的數(shù)據(jù),其中包括:,訓練數(shù)據(jù),5822組數(shù)據(jù),每組86個屬性,第86個為是否異常的標志變量,總地為兩類數(shù)據(jù);TICEVAL2000,測試數(shù)據(jù),4000組,每組為85個特征屬性;,與ticeval2000對應(yīng)組地結(jié)果。采用表示X與Y兩者相似性差異。假設(shè)這樣能夠成功,則以后只要判斷測試數(shù)據(jù)與整體已知數(shù)據(jù)庫地整體差異大小,就可以判斷異常與否。每個單元為86個權(quán)重。實驗訓練數(shù)據(jù)庫100與4000組數(shù)據(jù)做兩兩訓練還有4000組與4000組數(shù)據(jù)訓練。輸出結(jié)果的所有數(shù)據(jù),在0到1區(qū)間之間,不管相似不相似都集中分布
點擊復制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1