freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

異常數(shù)據(jù)挖掘研究畢業(yè)論文正稿-預(yù)覽頁

2025-07-16 07:13 上一頁面

下一頁面
 

【正文】 考. . . . .摘 要粗糙集理論,它是一種分析處理數(shù)據(jù)的理論,在20世紀(jì)80年代由波蘭科學(xué)家Pawlak建立。本設(shè)計(論文)和資料若有不實之處,本人愿承擔(dān)一切相關(guān)責(zé)任。知識粒度獲得了人們越來越多的關(guān)注。該算法結(jié)合粗糙集與數(shù)據(jù)挖掘技術(shù)研究異常數(shù)據(jù)。 outlier detection。一個數(shù)據(jù)集中的某個異常數(shù)據(jù)是指該數(shù)據(jù)的距離與其它普通常規(guī)數(shù)據(jù)的距離大于dmin。然而,因為KNN異常檢測算法是要計算點到其他點的所有空間的距離,所以如果可用的對象數(shù)量非常多的話,那么這是很費時的。統(tǒng)計學(xué)的方法就是對給定的數(shù)據(jù)集假設(shè)了一個分布或者稱為概率模型(例如正態(tài)分布),然后再根據(jù)模型通過不一致性檢驗來確定數(shù)據(jù)異常點,所以不一致性檢驗要求我們事先知道數(shù)據(jù)集模型的參數(shù)(如正態(tài)分布)、分布的參數(shù)(如均值等)和預(yù)期異常點的數(shù)目。聚類分類對輸入數(shù)據(jù)進(jìn)行分類。它采用局部異常因子來確定異常數(shù)據(jù)的存在與否。粗糙集理論(Rough Set Theory)[5],用于研究不完整性數(shù)據(jù)和不精確的知識表達(dá),學(xué)習(xí)歸納的數(shù)學(xué)分析理論,并成功的應(yīng)用于機(jī)器學(xué)習(xí)、模式識別和數(shù)據(jù)挖掘等領(lǐng)域上。許多知識上的檢測在信息系統(tǒng)上有提出。本文提出了一種異常檢測的新方法,是基于知識粒度的。 研究的目的和意義隨著計算機(jī)和網(wǎng)絡(luò)等信息技術(shù)的飛速發(fā)展,對信息的處理在整個社會乃至世界規(guī)模上已經(jīng)迅速產(chǎn)業(yè)化。缺少挖掘數(shù)據(jù)背后隱藏的信息手段就造成了我們所說的“數(shù)據(jù)豐富卻知識貧乏”的現(xiàn)象。早期,在對數(shù)據(jù)集進(jìn)行預(yù)處理時,我們通常把異常點當(dāng)作噪聲,或者干脆修正異常點的值,讓其減少對正常數(shù)據(jù)的影響。知識發(fā)現(xiàn)就是將信息變?yōu)橹R,從數(shù)據(jù)的海洋中找到蘊(yùn)藏的知識石油,它為知識的創(chuàng)新和知識經(jīng)濟(jì)的發(fā)展做出了偉大貢獻(xiàn)。1998年,在美國紐約召開了第四屆知識發(fā)現(xiàn)與數(shù)據(jù)挖掘國際學(xué)術(shù)會議,其中有30多家國際公司陳列出了他們的研究產(chǎn)品,其中的一些產(chǎn)品都已廣泛的在發(fā)達(dá)國家中應(yīng)用了。20世紀(jì)90年代第2屆國際粗糙集與知識發(fā)現(xiàn)研討會在加拿大召開了,這次會議極大的推動了全球?qū)Υ植诩碚摰难芯??!暗谝粚么植诩陀嬎愕漠?dāng)前趨勢”學(xué)術(shù)會議于1998年在波蘭華沙召開了。“第一屆中國軟計算學(xué)術(shù)與粗糙集研討會”于2001年在重慶的郵電大學(xué)開辦了。加拿大的粗糙集研討會議于2005年9月舉辦時,我國研究者的論文已經(jīng)超過了會議采用論文總數(shù)的1/4。 知識粒度的研究現(xiàn)狀粒度計算[9]是信息處理的一種全新的概念和計算范式,它覆蓋了所有關(guān)于粒度的理論、技術(shù)、方法和工具的研究,現(xiàn)已成為了人工智能界的研究熱門之一。隨后,美國多特蒙德大學(xué)的 Helmut Thiele 教授于 1998 年發(fā)表了“粒計算理論的語義模型”,促進(jìn)了粒度計算理論的發(fā)展。其主要思想是通過子集來表示概念,然后我們把不同粒度的概念可以認(rèn)為是不同粒度的子集,一簇的概念我們就當(dāng)成了空間的一個劃分(商空間),叫知識基[10],不一樣的概念也就簇成了不同的知識基。在此基礎(chǔ)上,學(xué)者張鈸和張鈴在 2003 年提出了關(guān)于模糊商空間的理論。數(shù)據(jù)挖掘(Data Mining)[11]是一個多學(xué)科交叉研究領(lǐng)域,它融合了數(shù)據(jù)庫(Database)技術(shù)、人工智能(Artificial Intelligence)、機(jī)器學(xué)習(xí)(Machine Learning)、高性能計算(HighPerformance Computing)、知識工程(Knowledge Engineering)、統(tǒng)計學(xué)(Statistics)、信息檢索(Information Retrieval)、面向?qū)ο蠓椒ǎ∣bjectOriented Method)以及數(shù)據(jù)可視化(Data Visualization)等最新技術(shù)的研究成果。在20世紀(jì),數(shù)據(jù)庫技術(shù)取得了關(guān)鍵性的勝利而且它已經(jīng)廣泛的應(yīng)用于我們的生活中。通過數(shù)據(jù)挖掘,我們則可以把有價值的知識、規(guī)則和高層次的數(shù)據(jù)信息從數(shù)據(jù)庫的相關(guān)集合中抽取出,從而使大型數(shù)據(jù)庫成為一個可靠的、豐富的源信息然后可以為提取知識提供服務(wù)。我們發(fā)現(xiàn)的都是相對而言的知識,是面向特定領(lǐng)域的,而且我們還需確保發(fā)現(xiàn)的知識是能夠易于被用戶理解的。在一家超市里,有個奇怪的現(xiàn)象[13]:人們一進(jìn)入就會發(fā)現(xiàn)啤酒和奶粉擺在同一個貨柜上販賣,出奇的是商家的這種行為卻雙雙增加了奶粉和啤酒的銷售量。經(jīng)過商家們大量分析與實際查證,得出了一個隱藏在“啤酒和奶粉”身后的人們的一種生活模式。所以這個案例也告訴了我們一件事,數(shù)據(jù)挖掘?qū)τ谌缃竦纳鐣a(chǎn)和發(fā)展是多么緊密相連的,它的發(fā)展是社會進(jìn)步的必然結(jié)果,那么接下來我們就要來討論下數(shù)據(jù)挖掘的方法。我們明白,在源數(shù)據(jù)庫中大多存放的都是一些普通的數(shù)據(jù),而人們大多想從較高點的地方上觀察或處理這些數(shù)據(jù),數(shù)據(jù)所蘊(yùn)涵的邏輯或概念都是進(jìn)行了不同層次上的泛化得來的,這是數(shù)據(jù)分析的條件。數(shù)據(jù)庫是一種結(jié)構(gòu)化的組織模型,數(shù)據(jù)間的關(guān)聯(lián)我們可以利用它所依附的數(shù)據(jù)模型來刻畫了。在這里我們所指的類知識就是Data Mining的聚類和分類兩種Data Mining應(yīng)用所對應(yīng)的知識。學(xué)會一個分類模型就是分類的目,給定類別中,通過模型我們能把數(shù)據(jù)庫中的項映射到里面。預(yù)測型知識挖掘也可以借助傳統(tǒng)的機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)和統(tǒng)計方法等技術(shù),但最近幾年,許多新的應(yīng)用模式已經(jīng)發(fā)展了起來。我們可以通過孤立點分析、序列異常分析和特異規(guī)則發(fā)現(xiàn)來幫我們了解特異型知識挖掘的任務(wù)和方法。條件屬性上的等價類T與決策屬性上的等價類D之間的關(guān)系有三種情況:下近似:D包含與T;上近似:D和T的交集為非空;無關(guān):D和T的交集為空。隨后的幾十年,開展了數(shù)次KDD專題討論會,匯集來自各個領(lǐng)域的研究人員和應(yīng)用開發(fā)者,集中討論數(shù)據(jù)統(tǒng)計、海量數(shù)據(jù)分析算法、知識表示、知識運用等問題。這是早期比較流行的觀點,在許多文獻(xiàn)可以看到這種說法。(1)在Data Mining時知識發(fā)現(xiàn)在可接受的計算效率限制內(nèi)通過一定的算法生成特定模式的一個步驟。 這種觀點得到大多數(shù)學(xué)家認(rèn)同,它是具有的合理性的。將數(shù)據(jù)挖掘作為知識發(fā)現(xiàn)的關(guān)鍵步驟來看待,可以使我們更輕松容易的進(jìn)行重點研究,有效地解決問題。所以,數(shù)據(jù)挖掘有狹義和廣義的定義。所以也有人稱數(shù)據(jù)挖掘為知識挖掘。符號[u]A表示關(guān)系ind(A)中包含u的等價類。一個概念X∈U稱為A可定義的,是指對于每個u∈U,或者[u]A∈X或者[u]A∈U\X。根據(jù)傳統(tǒng)的方法來判斷一個對象a 是否屬于集合X,我們可以分成3種情況:對象a 可能屬于也可能不屬于集合X;對象a 肯定不屬于集X;對象a 肯定屬于集合X。對于每個子集XU和一個等價關(guān)系I ∈IND (K),都可以定義兩個子集。顯然,I* (X ) + N EG (X ) = 論域U。(2) 粗糙集也是一個使用便捷的數(shù)據(jù)分析方法。而粗糙集分析方法不需要任何先驗信息,利用數(shù)據(jù)本身就可以推理和決策了。 屬性依賴?決策系統(tǒng)是一個三元組Ad=(U,A,d),其中(U,A)是信息系統(tǒng),d是決策屬性,d:U→Vd,d A。下面我們就要討論這個問題。因此,一個約簡是保持劃分的屬性集合。因為核是所有約簡的交集,它包含在每個約簡當(dāng)中,刪除核中的任何屬性都會影響劃分,所以,從某種意義上說,核是最重要的屬性子集。(6) 如果屬性集B中所有的屬性都是d不可約去的,則稱B是d獨立的。在決策系統(tǒng)Ad=(U,A,d)中。如果一個系統(tǒng)是有序的,信息熵就較低;反之,如果一個系統(tǒng)是混亂無章的,信息熵就高。常言道,當(dāng)一種信息被傳播得更廣泛的時候,則表明它出現(xiàn)概率更高,也可以說,該信息被關(guān)注的程度更高。一般稱知識對應(yīng)的劃分模式為知識粒度或信息粒度,簡稱為粒度。目前,粗糙集理論已廣泛應(yīng)用于過程控制、故障診斷、模式識別、機(jī)器學(xué)習(xí)及關(guān)系數(shù)據(jù)庫中的知識獲取等各種應(yīng)用領(lǐng)域。任何子集XU,稱為U中的一簇概念。(2) 稱二元序?qū)S=(U,R)是一個近似空間,其中U是有限非空集,稱為論域,R是U上的不可區(qū)分關(guān)系,也稱為U上的等價關(guān)系。(3) 知識庫我們也可以定義為序?qū)=(U,R),其中U為論域,R為U上的不可以區(qū)分關(guān)系簇。有了上述這些基本概念,下面給出知識粒度的定義。所以,KG(R)表示在U中隨機(jī)篩選兩個子集,這兩個子集R不可分辨的可能性大小。顯然,PQ當(dāng)且僅當(dāng)IND(P)=IND(Q)。而所以KG(P)≤KG(Q)。KG(R1)=( 1*1+1*1+1*1+1*1+1*1)/(5*5)=5/25=1/5;KG(R2)=(2*2+1*1+1*1+1*1)/(5*5)=7/25;KG(R3)=(2*2+1*1+2*2)/(5*5)=9/25。知識粒度是測量粗糙集理論中不確定性信息的方法。接下來,一個例子和一個算法來介紹尋找基于知識粒度的異常值。給出一個信息系統(tǒng)IS =(U,A ),其中U是一個有限的非空對象集,A是一個有限的非空屬性集。給個任意B∈A 和 X∈U,當(dāng)我們把對象X從U中刪除,如果IND(B)的知識粒度大幅度降低,則我們可以認(rèn)為在IND(B)下,對象X的不確定性是很高的。由于異常檢測的目的是為了找出在集合U中行為屬性是意想不到的方式或者有異常屬性的小團(tuán)體對象。設(shè)信息系統(tǒng)IS=(U, A),其中A={a1,a2,…,ak}。如果在1≤j<k的情況下,A1=A, Ak={a`k} 和Aj+1=Aj{a`j},那么,我們稱AS為IS中一個子集的屬性遞減序列。目前大多數(shù)的異常點檢測方法,給出了對象(數(shù)據(jù)記錄)二分法:是或不是一個異常點。他定義了一個局部異常因子(LOF),指出了一個只使用對象的鄰里對象outlierness程度。對任意BA,WB:U→(0,1]是一種加權(quán)函數(shù)使得任意x∈U,WB (x)=1|[x]B|/|U|,|M|表示集合M的基數(shù)。 海上交通事故統(tǒng)計表事故編號船齡天氣人為115輕浪/風(fēng)力 45級違規(guī)216有霧/漲潮違規(guī)313輕浪/風(fēng)力 45級操作不當(dāng)426狂浪/風(fēng)力 910級違規(guī)514輕浪/風(fēng)力 4級違規(guī) 處理后的信息系統(tǒng)IS=(U,C,V)UC1C2C3a1101a2111a3100a4031a5101由A的所有屬性子集引起的分區(qū)如下:從知識粒度定義,我們可以得到的當(dāng)依次移除對象a,根據(jù) ,我們可以得到與此相對應(yīng),我們可以根據(jù) 得到相對知識粒度下一步,我們可以從KG({c1}),KG({c2}) 和 KG({c3})中構(gòu)建兩個序列。同理,我們可以得到KOF(a2) ≈<V, KOF(a3) ≈<V, KOF(a4) ≈>V, KOF(a5) ≈<V。 基于知識粒度異常點檢測的算法描述輸入:信息系統(tǒng)IS=(U,A,V)。 基于KG的異常檢測算法流程圖. . . . .第5章 實驗與分析 實驗結(jié)果通過基于知識粒度的異常檢測算法,我們在VC++ ,對算法進(jìn)行了實現(xiàn)。由于數(shù)據(jù)對象個數(shù)較多,所以我們可以通過設(shè)定閥值來進(jìn)行動態(tài)的異常點檢測。所以誤檢的概率為較低。它包含483個實例(或?qū)ο螅┢渲杏?個屬性(包括類屬性)。我們在IS進(jìn)行異常點(罕見的類)檢測。所以在這個實驗中,我們可以得出一個比較結(jié)果,那就是KOD算法的性能優(yōu)于KNN算法和DIS算法。也就是我們所說的漏檢,誤檢。. . . . .第6章 結(jié)論與展望 結(jié)論本文的研究工作初步探討了基于知識粒度的粗糙集理論的異常數(shù)據(jù)挖掘的問題,數(shù)據(jù)挖掘是一個年輕而又活躍的研究領(lǐng)域。異常點檢測在許多領(lǐng)域變成更加的重要。實驗結(jié)果顯示,對于UCI數(shù)據(jù)集我們的方法效果優(yōu)于現(xiàn)有的異常檢測方法,比它們更有意義和更有趣。對于該方法的計算性能,我們將根據(jù)給定的特征值對所有對象進(jìn)行排序,使得提高計算復(fù)雜性。是狼就要練好牙,是羊就要練好腿。拼一個春夏秋冬!贏一個無悔人生!早安!—————獻(xiàn)給所有努力的人.
點擊復(fù)制文檔內(nèi)容
語文相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1