freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

傳感器異常數(shù)據(jù)處理(編輯修改稿)

2025-07-23 06:29 本頁面
 

【文章內容簡介】 監(jiān)督異常檢測,不需要訓練數(shù)據(jù)集,但需要假設正常的數(shù)據(jù)實例在數(shù)量上要遠遠多于異常數(shù)據(jù)實例。(4)輸出類型異常檢測算法有兩類典型的輸出:分值(score)和標記(label)。前一類算法依據(jù)一定的標準,給訓練數(shù)據(jù)集中的每個數(shù)據(jù)對象(即數(shù)據(jù)實例或構成集合異常的數(shù)據(jù)實例的集合)標記一個分值,并且輸出一個按分值排序的可能的異常數(shù)據(jù)對象列表。領域專家可以在此基礎上最終確定異常數(shù)據(jù)對象。后一類算法直接把每一個數(shù)據(jù)對象標記為正?;虍惓?,不需要領域專家的直接參與。 異常數(shù)據(jù)檢測方法隨著對異常挖掘研究的深入,對應于不同的應用領域出現(xiàn)了許多異常數(shù)檢測方法,參考大量研究成果,本節(jié)簡要介紹了常用的八種異常檢測算法的基本技術思路及部分方法的優(yōu)缺點。前面七類主要是針對點異常檢測做的歸納,但這些檢測算法也經(jīng)常適用于集合異常的檢測,最后一類是討論上下文異常的檢測。(l)基于分類的異常檢測基于分類的異常檢測基本都是分為兩個階段,即訓練階段和檢測階段。在訓練階段,算法利用訓練數(shù)據(jù)集中的數(shù)據(jù)對象,構造分類器模型。在檢測階段,測試數(shù)據(jù)集中的數(shù)據(jù)對象被輸入分類器,根據(jù)分類的結果判斷是否是異常數(shù)據(jù)。分類器可以基于規(guī)則、神經(jīng)網(wǎng)絡、貝葉斯網(wǎng)絡和支持向量機等技術來實現(xiàn)。按照訓練樣本有標記種類個數(shù)的不同,基于分類的方法分為有監(jiān)督的方法和半監(jiān)督的方法。基于監(jiān)督學習的分類方法最常用的方法是基于支持向量機的方法,基于支持向量機的方法不需要事先對數(shù)據(jù)作任何假設,也不需要任何的預設參數(shù),但是支持向量機的計算時間往往較長,主要是因為核函數(shù)的計算往往要消耗大量的計算時間,同時基于支持向量機的方法也很難確定合適的參數(shù)來衡量特征空間中正常數(shù)據(jù)區(qū)域邊界的大小?;诎氡O(jiān)督的分類方法常用的有基于神經(jīng)網(wǎng)絡的方法,神經(jīng)網(wǎng)絡是一種常用的回歸預測和分類技術,基于神經(jīng)網(wǎng)絡的異常檢測是通過對正常數(shù)據(jù)樣本的學習后建立一個正常樣本的分類模型,然后在輸出層重構輸入數(shù)據(jù),如果重構的誤差很大則將該數(shù)據(jù)判定為異常數(shù)據(jù)?;谏窠?jīng)網(wǎng)絡的異常數(shù)據(jù)檢測方法不需要事先對數(shù)據(jù)進行任何條件假設,能夠發(fā)現(xiàn)異常的關鍵屬性,從而根據(jù)這個關鍵屬性有效地發(fā)現(xiàn)數(shù)據(jù)集中的異常。神經(jīng)網(wǎng)絡方法雖然能較好地發(fā)現(xiàn)異常,但是神經(jīng)網(wǎng)絡對模型參數(shù)的設定具有很強的依賴性,且這些參數(shù)會對檢測結果產(chǎn)生較大影響。(2)最近鄰法異常檢測使用最近鄰法的基本假設是:按某種度量方式,正常數(shù)據(jù)對象之間比較接近,而異常數(shù)據(jù)對象和鄰居數(shù)據(jù)對象之間卻相對較遠。數(shù)據(jù)對象之間的遠近可以用距離或相似性表示。如果數(shù)據(jù)對象的屬性都是連續(xù)的變量,經(jīng)常用歐式 (Euclidean)距離來表示數(shù)據(jù)對象之間的距離。常見的基于最近鄰法的異常檢測算法大體分為兩類: 一類算法是基于距離的異常數(shù)據(jù)檢測,另外一類是基于密度的異常數(shù)據(jù)檢測方法。基于距離的方法克服了基于分布的方法事先要知道數(shù)據(jù)集分布,依賴統(tǒng)計檢驗的缺點,其實質是將異常數(shù)據(jù)對象看作是在閾值d內其鄰居比較稀疏的對象?;诰嚯x的異常數(shù)據(jù)檢測方法又可以分為三種:即基于索引(indexbased)的方法、基于單元(cellbased)的方法、基于循環(huán)嵌套的方法(nestedloop)。基于距離的異常數(shù)據(jù)檢測方法的主要缺陷是時間復雜度較高且難以確定合適的參數(shù)k 與d。針對上述兩種問題,出現(xiàn)了許多改進算法?;诰嚯x的異常數(shù)據(jù)挖掘方法是基于分布的方法的拓展,在數(shù)據(jù)集不滿足任何分布模型時仍能夠有效地發(fā)現(xiàn)異常數(shù)據(jù)。但是該方法對參數(shù)選擇非常的敏感,不適用于數(shù)據(jù)形狀分布不均勻的數(shù)據(jù)集,且該方法需要搜索整個數(shù)據(jù)集來確定每個數(shù)據(jù)對象的鄰居,算法時間復雜度較高,不適用于大規(guī)模的數(shù)據(jù)集?;诿芏鹊漠惓?shù)據(jù)檢測方法是通過計算數(shù)據(jù)之間的距離以及與給定范圍內數(shù)據(jù)的個數(shù)相結合來得到“密度”的概念,然后將數(shù)據(jù)對象的異常程度與它周圍的數(shù)據(jù)的密度相關聯(lián)。最常用的為基于局部異常因子(Local Outlier Factor)的異常數(shù)據(jù)檢測算法,自從LOF這個局部異常數(shù)據(jù)檢測方法被提出以后,相繼出現(xiàn)了許多度量異常程度的方法,比較經(jīng)典的有COF、MDEF、SLOM等?;诿芏鹊姆椒軝z測出其它方法不能識別的異常即局部異常數(shù)據(jù)。該方法定義了數(shù)據(jù)對象的異常程度,在檢測率上有較高的精度,但是該算法每次都要掃描數(shù)據(jù)庫來查找數(shù)據(jù)對象的k鄰居,這樣計算時間開銷是很大的,與基于距離的方法一樣,基于密度的方法的時間復雜度也是O(N2),采用專門的索引結構可以將時間復雜度降為O (NlogN),但是當數(shù)據(jù)維數(shù)比較大時,索引結構將不再有效,時間復雜度為O(N2)。(3)基于聚簇的異常檢測聚簇 (clustering)技術用來對數(shù)據(jù)對象進行分組,相似的數(shù)據(jù)對象被歸入一個簇。在異常檢測領域,聚簇技術被用于無監(jiān)督檢測和半監(jiān)督檢測。依據(jù)基本假設的不同,基于聚簇技術的異常檢測方法大體分為三類:一類假設正常的數(shù)據(jù)對象都能被聚簇算法歸入某個簇,而異常數(shù)據(jù)對象不屬于任何一個簇;一類假設正常的數(shù)據(jù)對象與它所在簇的質心比較近,而異常數(shù)據(jù)對象與它所在簇的質心比較遠;另一類假設正常的數(shù)據(jù)對象屬于較大且較密集的簇,而異常的數(shù)據(jù)對象屬于較小且較稀疏的簇?;诰鄞氐漠惓?shù)據(jù)檢測方法首先是對數(shù)據(jù)集進行聚類操作,然后再針對聚類簇進行異常數(shù)據(jù)的判斷,是一種有效的異常數(shù)據(jù)檢測方法。但是聚類的效果往往會影響異常數(shù)據(jù)的檢測效果,而異常數(shù)據(jù)的存在對聚類效果的影響是不容易忽略的,因此在聚類過程中往往要采用不同的方法來避免異常數(shù)據(jù)對聚類的影響,因此該方法的針對性較強,能否有效地挖掘異常數(shù)據(jù)依賴于數(shù)據(jù)集中聚類簇的個數(shù)以及異常數(shù)據(jù)的存在性,并且雖然該算法適用于大規(guī)模數(shù)據(jù)集,但是對高維數(shù)據(jù)的異常檢測效果并不十分的理想。(4)統(tǒng)計異常檢測使用統(tǒng)計異常檢測方法的基本假設是:正常數(shù)據(jù)對象分布在某個隨機模型的高概率區(qū)間,而異常數(shù)據(jù)對象出現(xiàn)在該隨機模型的低概率區(qū)間。異常檢測的基本思路是:首先利用訓練數(shù)據(jù)集和領域知識構造隨機模型,然后檢測測試數(shù)據(jù)集中的數(shù)據(jù)對象是否有比較高的概率由該隨機模型生成。依據(jù)是否知道隨機模型的具體參數(shù),統(tǒng)計異常檢測分為兩類:參數(shù)化檢測和非參數(shù)化檢測。參數(shù)化檢測主要包括基于高斯模型和基于回歸模型的異常檢測,非參數(shù)化檢測主要包括基于直方圖和基于核函數(shù)的異常檢測?;诮y(tǒng)計學的異常數(shù)據(jù)檢測算法主要優(yōu)點是:算法有概率統(tǒng)計的理論作為其有利的支撐;通過對異常數(shù)據(jù)不一致性檢驗可以發(fā)現(xiàn)背后隱藏的意義;在概率模型建立后只需要存儲少量的模型信息不需要存儲數(shù)據(jù)對象的信息,降低了數(shù)據(jù)的存儲量。基于統(tǒng)計學的異常數(shù)據(jù)檢測算法主要缺點是:通常只能處理單維的數(shù)據(jù)對象;需要很多先驗知識,要預先假設數(shù)據(jù)集的分布,不適合分布未知的情況;通常只適合處理數(shù)據(jù)型的數(shù)據(jù),限制了其在符號型或者含有大量分類數(shù)據(jù)對象的數(shù)據(jù)集上的應用。(5)基于信息論的異常檢測嫡在信息論中是一個重要的概念,用來衡量所收集到的信息的不確定性?;谛畔⒄撨M行異常檢測的基本假設是:數(shù)據(jù)集中的異常數(shù)據(jù)實例導致了嫡的增加。如果用D表示數(shù)據(jù)集,C(D)表示D的嫡值,基本的異常檢測思路是:設法找到D的一個最小子集I,使得C(D)C(DI)最大,則子集I中的數(shù)據(jù)就是異常數(shù)據(jù)實例。(6)基于維度減小技術的異常檢測使用維度減小技術的基本假設是:數(shù)據(jù)可以被嵌入或投射到一個低維度的子空間中。
點擊復制文檔內容
法律信息相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1