freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

本科畢業(yè)論文-bp神經(jīng)網(wǎng)絡(luò)的異常點(diǎn)檢測(cè)應(yīng)用可行性研究-文庫吧

2025-01-01 17:30 本頁面


【正文】 與周圍數(shù)據(jù)的距離大小,而且與鄰域內(nèi)的密度情況有關(guān)。一個(gè)對(duì)象領(lǐng)域內(nèi)的密度可以用包含固定結(jié)點(diǎn)個(gè)數(shù)的域半徑指定半徑領(lǐng)域中包含的結(jié)點(diǎn)數(shù)來描述。這樣就不會(huì)像DB(p,d)異常點(diǎn)那樣遺漏一部分異常點(diǎn)。LOF算法充分體現(xiàn)了“局部”的概念,每個(gè)點(diǎn)都給出了一個(gè)離群程度,離群程度最強(qiáng)的那個(gè)幾個(gè)點(diǎn)被標(biāo)記為異常點(diǎn)。文獻(xiàn)有關(guān)發(fā)面對(duì)LOF進(jìn)行推廣:一是由原來的一個(gè)鄰域的變化為兩個(gè)(計(jì)算密度領(lǐng)域和比較密度領(lǐng)域);二是剪除非異常對(duì)象來減小計(jì)算代價(jià);因此,使用算法比傳統(tǒng)的LOF算法有所提高。在現(xiàn)有的計(jì)算局部異常因子(LOF)算法中,把具有很高LOF值的對(duì)象作為異常點(diǎn)。計(jì)算LOF要耗費(fèi)很大的計(jì)算量,針對(duì)此問題malik Agyemang提出了修改算法,即局部稀疏系數(shù)(LSC)算法。這種方法主要是引入局部稀疏系數(shù)(LSC)這一概念,根據(jù)每個(gè)對(duì)象的LSC值按從大到小的順序排列整個(gè)數(shù)據(jù)集并把前n個(gè)對(duì)象作為異常點(diǎn)。但是,此方法在實(shí)際應(yīng)用中計(jì)算量亦是不小,效率有待提高。另外,岳峰等利用反向K近鄰(RKNN)這個(gè)概念提出了一個(gè)異常點(diǎn)檢測(cè)算法(ODRKNN),在綜合數(shù)據(jù)集和正式數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)構(gòu)表明,該算法能有效地檢測(cè)出異常點(diǎn),且算法效率高于典型的基于密度的異常點(diǎn)檢測(cè)算法LOF和LSC的效率?;谄畹漠惓|c(diǎn)檢測(cè)不使用統(tǒng)計(jì)檢驗(yàn)或者基于距離的度量來識(shí)別異常對(duì)象。相反,它通過檢查一組對(duì)象的主要特征來識(shí)別異常點(diǎn)。背離這種描述的對(duì)象認(rèn)為是異常點(diǎn)。因此,在該方法中,屬于偏差通常用于指異常點(diǎn)。主要有兩種技術(shù):第一種順序地比較集合中的對(duì)象,叫順序異常技術(shù)(sequential exception technique);第二種采用OLAP數(shù)據(jù)立方體方法識(shí)別大型多維數(shù)據(jù)中的異常區(qū)域。(1) 序列異常技術(shù):Aming和Argrawal 提出一種序列異常(sequential exception)的概念。這個(gè)算法復(fù)雜度與數(shù)據(jù)集大小呈線性關(guān)系,有優(yōu)異的計(jì)算性能。但是并沒有得到普遍的認(rèn)同,這是因?yàn)樾蛄挟惓T诟拍钌嫌幸欢ǖ娜毕?,它?duì)異常點(diǎn)存在的假設(shè)太過理想化,對(duì)現(xiàn)實(shí)復(fù)雜數(shù)據(jù)效果不太好。(2) OLAP數(shù)據(jù)立方體技術(shù):,該單元被認(rèn)為是一個(gè)異常。此方法是發(fā)現(xiàn)驅(qū)動(dòng)探索的一種形式。此方法由于搜索空間很大,人工探測(cè)非常困難。第一種概念有缺陷,遺漏了不少異常點(diǎn),時(shí)間復(fù)雜度與數(shù)據(jù)集大小成線性關(guān)系,適用性不高。第二種搜索空間大,人工探測(cè)困難,效率不高,只適用多維數(shù)據(jù)。在聚類算法中,異常點(diǎn)檢測(cè)僅僅是聚類的副產(chǎn)品。聚類算法發(fā)展方向是優(yōu)化聚類過程,而不是提高對(duì)異常點(diǎn)檢測(cè)的能力,異常點(diǎn)檢測(cè)和聚類是兩個(gè)相對(duì)立的過程,聚類是把屬于統(tǒng)一類的數(shù)據(jù)點(diǎn)聚集在一起,歸為一類,而異常點(diǎn)檢測(cè)是把和大多數(shù)數(shù)據(jù)點(diǎn)相異的點(diǎn)挖掘出來。Su等人首先提出基于聚類的異常點(diǎn)檢測(cè)算法,聚集的較小簇被認(rèn)為是異常點(diǎn),但這中方法忽略了小聚集簇和大聚集簇之間的距離,當(dāng)一個(gè)小聚集簇和一個(gè)大聚集簇非常接近的時(shí)候,小聚集簇中的這些點(diǎn)更可能是大聚集簇的邊界點(diǎn)而不是異常點(diǎn)。模糊k均值聚類算法(FCM)常用于異常點(diǎn)檢測(cè),該算法動(dòng)態(tài)地分配權(quán)重給每一個(gè)數(shù)據(jù)點(diǎn),權(quán)重表示該數(shù)據(jù)點(diǎn)和數(shù)據(jù)集中心之間的距離,通過各點(diǎn)的權(quán)重來判斷異常點(diǎn)。此類算法沒有先驗(yàn)知識(shí)指導(dǎo)如何確定聚類中心,只能是隨機(jī)選取,優(yōu)化搜索空間較大,算法的復(fù)雜度較大。Hongyi Zhang等引為了提高模糊核聚類算法的運(yùn)行效率,提出了新的模糊核聚類算法,該算法用先驗(yàn)知識(shí)對(duì)參數(shù)初始化。取代了用聚類中心初始化,改進(jìn)了聚類的目標(biāo)函數(shù),降低了算法的時(shí)間復(fù)雜度,但該算法沒有提到如何選取核函數(shù),對(duì)于算法模糊性的控制不好撐握。 2基于屬性特征在異常點(diǎn)檢測(cè)中的研究傳統(tǒng)算法大都是通過數(shù)據(jù)在空間地特性來判斷檢測(cè)異常點(diǎn)。本文的方向是從特征出發(fā)研究。傳統(tǒng)算法從整個(gè)數(shù)據(jù)集合在空間中分布地特性出發(fā)研究,比如距離的從整個(gè)數(shù)據(jù)集空間距離進(jìn)行研究,同樣密度的按數(shù)據(jù)集空間密度研究,聚類也是按數(shù)據(jù)集空間特性。而本文直接從已知部分?jǐn)?shù)據(jù)維度的特征著手,即是直接從每一組數(shù)據(jù)的特征來研究。對(duì)于單屬性特征的情況,根據(jù)數(shù)據(jù)重要性調(diào)整特征(即維度)權(quán)值,并根據(jù)數(shù)據(jù)重要性調(diào)整。假設(shè)數(shù)據(jù)特征表示在每個(gè)屬性上面,獨(dú)立沒有組合屬性表現(xiàn)特征地情況下,每一組數(shù)據(jù)屬性對(duì)應(yīng)權(quán)值數(shù)據(jù)乘積和,表示這個(gè)數(shù)據(jù)在這組數(shù)據(jù)中全局中所占的重要性。例如檢測(cè)是否是糖尿病人的數(shù)據(jù)庫,三十歲以下這個(gè)年齡維度上病人較少,然而五十歲后這個(gè)維度病人比例就多了。映射到維度為三十歲以下這個(gè)維度地病人比較少,映射到維度為十歲以上較多。這樣我們可以添加一個(gè)權(quán)值與年齡這一項(xiàng)數(shù)據(jù)乘積,這個(gè)乘積必須使權(quán)值與當(dāng)前數(shù)據(jù)乘積出來的數(shù)據(jù)成正比,表示年齡增長(zhǎng)能夠體現(xiàn)在這組數(shù)據(jù)中的重要性。以便全局統(tǒng)籌決策較容易。設(shè)X為一組數(shù)據(jù)集合,可使趨向某個(gè)數(shù)值,表示這組數(shù)據(jù)某個(gè)總體特征。異?;蛘叻钱惓#梢酝ㄟ^趨向某個(gè)數(shù)值表示特征異常,另一個(gè)方向數(shù)值表示非異常。有時(shí)候數(shù)據(jù)組合的重要性是體現(xiàn)在幾個(gè)數(shù)據(jù)地組合里面,既可能體現(xiàn)在幾個(gè)屬性上面,比如說一組數(shù)組(A,B,C),可能AB組合特征不顯示異常,然而ABC組合就顯示異常,這些組合是不定地。所有在屬性權(quán)值之上需要一組對(duì)屬性不同組合特征的權(quán)值調(diào)整。 樣例圖示,某個(gè)異常點(diǎn)可能異常特征是屬性1,可能是屬性屬性2地組合,對(duì)于同個(gè)數(shù)據(jù)庫不同點(diǎn)具有組合不確定性。由于特征地不可確定性,數(shù)值不確定,組合不確定。我們可以采用神經(jīng)網(wǎng)絡(luò)自學(xué)習(xí)調(diào)整權(quán)值。同時(shí)根據(jù)已知數(shù)據(jù)訓(xùn)練修改這些權(quán)值,使其具有識(shí)別某種組合特征的能力。使其自學(xué)習(xí)特征,自動(dòng)控制調(diào)整權(quán)值及權(quán)值組合。人工神經(jīng)網(wǎng)絡(luò)作為一種新型信息處理系統(tǒng),在信息處理方面,具有如下顯著的特點(diǎn):(1)輸入輸出映射能力。人工神經(jīng)網(wǎng)絡(luò)具有自學(xué)習(xí)能力,通過學(xué)習(xí),能夠根據(jù)網(wǎng)絡(luò)期望輸出和網(wǎng)絡(luò)實(shí)際輸出之差來調(diào)整神經(jīng)元間連接權(quán)值和閾值,直至使實(shí)際輸出與期望輸出之間的誤差減小到滿意的程度,這樣就實(shí)現(xiàn)了輸入到輸出的映射。人工神經(jīng)網(wǎng)絡(luò)的輸入輸出映射能力對(duì)于預(yù)測(cè)有特別重要的意義。(2)非線性特性。人工神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的非線性,這種非線性分散在每個(gè)神經(jīng)元,通過傳遞函數(shù)實(shí)現(xiàn)。利用神經(jīng)網(wǎng)絡(luò)的非線性特性,可解決藥學(xué)研究及實(shí)驗(yàn)數(shù)據(jù)處理過程中大量的非線性問題。(3)高度并行性。人工神經(jīng)網(wǎng)絡(luò)是由許多相同的簡(jiǎn)單處理單元并聯(lián)組合而成,具有高度并行性特性,使其對(duì)特定任務(wù)的計(jì)算變得很快,對(duì)信息的處理能力與效果驚人,因此提供了一種解決高層復(fù)雜問題的能力和方法。(4)良好的容錯(cuò)性與聯(lián)想記憶功能。人工神經(jīng)網(wǎng)絡(luò)通過自身的網(wǎng)絡(luò)結(jié)構(gòu)能夠?qū)崿F(xiàn)對(duì)信息的記憶,而所記憶的信息是存儲(chǔ)在神經(jīng)元之間的權(quán)值中。從單個(gè)權(quán)值中看不出所存儲(chǔ)的信息內(nèi)容,因而是分布式的存儲(chǔ)方式,這使得網(wǎng)絡(luò)具有良好的容錯(cuò)性,既能進(jìn)行模式信息處理工作,又能進(jìn)行模式識(shí)別工作。因?yàn)檫@些特點(diǎn),神經(jīng)網(wǎng)絡(luò)廣泛應(yīng)用在聚類分析、模式識(shí)別、信號(hào)處理、系統(tǒng)辨識(shí)、優(yōu)化計(jì)算、預(yù)測(cè)控制等領(lǐng)域。根據(jù)神經(jīng)網(wǎng)絡(luò)記憶分類地特性,本文設(shè)想通過這些特性學(xué)習(xí)出能夠辨別異常點(diǎn)非異常點(diǎn)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),主要研究其可行性。 3 BP神經(jīng)網(wǎng)絡(luò)介紹 人工神經(jīng)網(wǎng)絡(luò)理論是80年代中后期迅速發(fā)展起來的一項(xiàng)前沿研究領(lǐng)域,其應(yīng)用已滲透到各個(gè)領(lǐng)域。BP神經(jīng)網(wǎng)絡(luò)模型是人工神經(jīng)網(wǎng)絡(luò)的重要模型之一,應(yīng)用尤為廣泛。BP算法主要包括兩個(gè)過程,一是由學(xué)習(xí)樣本、網(wǎng)絡(luò)權(quán)值從輸入層→隱含層→輸出層逐次算出各層節(jié)點(diǎn)的輸出;二是反過來由計(jì)算輸出與實(shí)際輸出偏差構(gòu)出的誤差函數(shù)E(),用梯度下降法調(diào)節(jié)網(wǎng)絡(luò)權(quán)值,即 ()使誤差減小。設(shè)輸入層節(jié)點(diǎn)數(shù)為n,隱含層節(jié)點(diǎn)數(shù)為r,輸出層節(jié)點(diǎn)數(shù)為m,隱含層與輸入層之間的權(quán)值矩陣為,隱含層節(jié)點(diǎn)閥值為,輸出層與隱含層之間權(quán)值矩陣為,輸出層節(jié)點(diǎn)閥值為,并設(shè)有N個(gè)學(xué)習(xí)樣本其中為第P個(gè)學(xué)習(xí)樣本的輸入向量,為其實(shí)際輸出向量。其中,下文中如不指明則相同。輸入層節(jié)點(diǎn),取其輸出與輸入相同,即隱含層節(jié)點(diǎn)輸入,輸出分別為: ()若令則有:。輸出層節(jié)點(diǎn)輸入,輸出分別為: () 若令,則有: () 修正權(quán)值設(shè) 其中為第p個(gè)學(xué)習(xí)樣本產(chǎn)生的輸出誤差,為總誤差。由誤差函數(shù)調(diào)整權(quán)值有: 其中 其中 ()其中為學(xué)習(xí)速率,一般在[0,1]內(nèi)取值。權(quán)值修正為: () () 4 異常檢測(cè)中BP神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)fX0 = 1WnW2W1XnX2X1W0 = Θ圖 如圖 可微閾值單元,圖中為sigmoid單元,與感知器相似,sigmoid單元先計(jì)算它的線性組合,然后應(yīng)用一個(gè)閾值到此結(jié)果。然而,對(duì)sigmoid單元,閾值輸出是輸入的連續(xù)函數(shù)。更精確地講,sigmoid單元這樣計(jì)算輸出。 ()其中: ()經(jīng)常被稱為sigmoid函數(shù)或者也可以稱為logistic函數(shù)。注意它的輸出范圍為0到1,隨輸入單調(diào)遞增。因?yàn)檫@個(gè)函數(shù)把非常大的書值域映射到一個(gè)小范圍的輸出。也叫擠壓函數(shù)。本算法就是想把所有整數(shù)據(jù)特征映射到一個(gè)小范圍來處理判斷。,隱層感知器根據(jù)實(shí)際數(shù)據(jù)庫的屬性確定,一般少于等于屬性個(gè)數(shù),輸出層一個(gè)輸出感知器。輸入隱層輸出層圖 BP結(jié)構(gòu)輸入層為一組數(shù)據(jù),全連接到隱層,隱層計(jì)算輸出受擠壓函數(shù)處理后的數(shù)值,輸出層的輸入為隱層輸出。最后輸出0到1的數(shù)值。隱層輸出層的神經(jīng)元,其他權(quán)值都初始化:(double) ((rand()/)*21);隨機(jī)數(shù)種子為系統(tǒng)時(shí)間。訓(xùn)練教師信號(hào),按具體方案處理設(shè)定。(1)定義誤差函數(shù)為期望輸出與實(shí)際輸出之差的平方和: ()其中yj是輸出單元的期望輸出,是實(shí)際的輸出。(2)調(diào)節(jié)權(quán)值的公式為: () 其中為學(xué)習(xí)步長(zhǎng),取正參數(shù),代表上一層神經(jīng)元的輸出,而有兩種情況:1) 如果j是輸出層(第m層)的神經(jīng)元,則 () 2) 如果j不在輸出層,而是隱含層的神經(jīng)元,則 () 是該神經(jīng)元的輸出,而求本層的必須用到上一層的,可見誤差函數(shù)的求取是一個(gè)始于輸出層的反向傳播的遞歸過程。(3)將學(xué)習(xí)模式不斷輸入到輸入層,再根據(jù)輸出層產(chǎn)生的誤差不斷修正神經(jīng)元間連結(jié)的權(quán)值和神經(jīng)元的閾值,直到學(xué)習(xí)模式全部輸入或誤差達(dá)到一定的值。反向傳播算法在網(wǎng)絡(luò)規(guī)模較大時(shí)計(jì)算量很大,收斂較慢,而且存在局部最小的問題,根據(jù)這一問題,在具體操作時(shí)采用了加入動(dòng)量項(xiàng)的方法: () 稱為動(dòng)量因子,這樣后一次的權(quán)值更新適當(dāng)考慮上一次的權(quán)值更新,可以改善收斂特性。 5實(shí)驗(yàn)研究在嘗試各種算法方案地研究中,使用的數(shù)據(jù)庫名稱:The Insurance Company Benchmark (COIL 2000).關(guān)于保險(xiǎn)的數(shù)據(jù),其中包括:,訓(xùn)練數(shù)據(jù),5822組數(shù)據(jù),每組86個(gè)屬性,第86個(gè)為是否異常的標(biāo)志變量,總地為兩類數(shù)據(jù);TICEVAL2000,測(cè)試數(shù)據(jù),4000組,每組為85個(gè)特征屬性;,與ticeval2000對(duì)應(yīng)組地結(jié)果。:把bp神經(jīng)網(wǎng)絡(luò)相似性代替距離算法相似度量起初思路是采用兩兩相似性地訓(xùn)練,然后得出一個(gè)整體數(shù)據(jù)庫屬性特征的神經(jīng)網(wǎng)絡(luò)。采用表示X與Y兩者相似性差異。在神經(jīng)網(wǎng)絡(luò)則表示為兩者整體特征差異大小。假設(shè)這樣能夠成功,則以后只要判斷測(cè)試數(shù)據(jù)與整體已知數(shù)據(jù)庫地整體差異大小,就可以判斷異常與否。神網(wǎng)絡(luò)結(jié)構(gòu)大概如下:XY兩兩做差絕對(duì)值......輸入層 隱層 輸出層 注:每個(gè)方向箭頭抽象全連接圖 方案一圖隱層采用85個(gè)可微閾值單元,輸出采用一個(gè),網(wǎng)絡(luò)全連接。每個(gè)單元為86個(gè)權(quán)重。具體方式,對(duì)已知數(shù)據(jù)集做兩兩訓(xùn)練,比如數(shù)據(jù)X和Y,做差fabsf(Xi Yi),然后輸入一個(gè)BP神經(jīng)網(wǎng)絡(luò),已知數(shù)據(jù)庫中第86個(gè)屬性,(X 86,Y86)對(duì)應(yīng)為(0,0)則教師信號(hào)為1,(1,1)則教師信號(hào)為1,(0,1)則為0,部分順序。實(shí)驗(yàn)訓(xùn)練數(shù)據(jù)庫100與4000組數(shù)據(jù)做兩兩訓(xùn)練還有4000組與4000組數(shù)據(jù)訓(xùn)練。經(jīng)觀察驗(yàn)證,測(cè)試數(shù)據(jù)與已知數(shù)據(jù)地相似性與否沒法與測(cè)試計(jì)算結(jié)果數(shù)據(jù)存在必然地比例關(guān)系。輸出結(jié)果的所有數(shù)據(jù),在0到1區(qū)間之間,不管相似不相似都集中分布在靠近0,沒有區(qū)分度,不能明顯表示相似與否地概念。然后又對(duì)測(cè)試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)庫,進(jìn)行相似性求和,對(duì)比測(cè)試數(shù)據(jù)中異常點(diǎn)與非異常點(diǎn)與訓(xùn)練數(shù)據(jù)庫地相似性和,依然沒有區(qū)分度。經(jīng)多次嘗試,降低訓(xùn)練次數(shù)精度,本實(shí)驗(yàn)方案依然失敗。經(jīng)過大量實(shí)驗(yàn),失敗原因:第一,bp處理輸出區(qū)分度不夠,難以有判斷方案。第二,訓(xùn)練方案地問題,數(shù)據(jù)集合里面,缺乏異常點(diǎn)地訓(xùn)練,bp權(quán)值能增長(zhǎng)方向把小規(guī)模局部數(shù)據(jù)地特征給掩蓋掉了,難以輸出好地?cái)?shù)據(jù)來區(qū)分。第三,數(shù)
點(diǎn)擊復(fù)制文檔內(nèi)容
電大資料相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1