freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

異常數(shù)據(jù)挖掘研究畢業(yè)論文正稿-wenkub.com

2025-06-19 07:13 本頁面
   

【正文】 不奮斗就是每天都很容易,可一年一年越來越難。陳玉明老師的嚴謹治學的態(tài)度與求真務實的工作作風及其豐富的學識給我留下了深刻的印象,使我受益匪淺。這個算法還是有一些局限性,比如,有些異常點檢測不出來,但大部分異常點都很順利挖掘出。并給出了衡量一個異常點的意義的方法。作為復雜問題求解的有效思想方法,粒計算已取得了一定的成功。表 漏檢和誤檢的概率數(shù)據(jù)集對象數(shù)屬性數(shù)漏檢率誤檢率14839%(2)0%2357121%(3)%(2)312480%0%442810%(2)0% 觀察,%,%。而且,在前面數(shù)據(jù)比例較小的情況下也找出較多的罕見類記錄。在這里,我們可以很清楚的看到當我們檢測前面的7個對象時,KOD算法把其中的6個異常點都檢測出了,而KNN只檢測到5個,DIS也只檢測到5個。在跟KNN與DIS算法進行對比。 實驗分析通過上節(jié)所提供的程序,我們對淋巴數(shù)據(jù)進行了檢測,然后我們在網(wǎng)上可以很輕松的找到基于KNN與基于DIS對該淋巴數(shù)據(jù)的檢測結果,最后我們通過對它們進行對比來驗證該算法的性能。 對數(shù)據(jù)進行挖掘檢測 通過輸入閥值,選擇所需要的異常對象我們可以發(fā)現(xiàn)我們所挖掘出的數(shù)據(jù)中對象121其實不是異常點,但我們的算法卻被檢測出來,所以這就是誤檢。通過點擊數(shù)據(jù)挖掘按鈕,我們可以分別計算出數(shù)據(jù)集中個個對象的KOD值,且它們是按KOD值進行排序。輸出:基于KG異常的一個K集合。 基于知識粒度的異常檢測算法 基于知識粒度異常點檢測的算法流程圖,它把算法步驟通過圖像形象的顯示出來,這樣我們可以更加容易理解該算法。屬性子集的遞減序列為AS=A1,A2,A3={ c1,c3,c2},{c3,c2},{c2}。對任意對象x∈U,如果KOF(x) V,那么稱對象x為在IS中的一個基于KG(知識粒度)的異常,其中KOF(x)是IS中x的知識粒度因子。設IS=(U, A)是一個信息系統(tǒng),其中A=a1,,a2,…,ak,設AS= A1,A2,…,Ak 是IS的遞減屬性子集序列。很多情況下,分配每個對象的異常程度更較有意義。其中a`j是序列S根據(jù)知識粒度測量的第J個元素。其次,通過對屬性A的逐漸降低,我們可以判斷出一個屬性子集的降序序列。因此,通過本文,我們可以認為哪些在集合U中與其他對象比較時,相對知識粒度一直很高的作為那些行為是意想不到的方式或者特征屬性反常的,并且利用相對知識粒度內(nèi)包含的信息進行異常檢測。因此,對不確定性X相對知識粒度RGB(x)給出了一個方法。對任意x∈U, 設 表示當把對象x從U中移除時的IND(B)的知識粒度,其中{U{x}}/IND(B)={X`1,X`2,…,X`n}?,F(xiàn)在,給出一個信息系統(tǒng)IS=(U,A),對任意對象x∈U,如果在A給定的屬性中,x有一些屬性大大的不同于集合U中其他的絕大多數(shù)對象,那么我們可以認為對象x相對于信息系統(tǒng)IS在集合U中是異常點。因此,在本節(jié)中,我們討論了粗糙集信息系統(tǒng)的異常定義和檢測問題。. . . . .第4章 基于知識粒度的異常檢測 知識粒度的異常檢測粗糙集理論已被發(fā)現(xiàn)有許多有趣的應用。 信息系統(tǒng)IS=(U,C)C1C2C3a1100a2103a3012a4221a5230通過計算,我們可以得到:U/IND(R1)={ {a1},{a2},{a3},{a4},{a5}},U/IND(R2)={{a1,a2},{a3},{a4},{a5}},U/IND(R3)={{a1,a2},{a3},{a4,a5}}。(2) 若PQ,則KG(P)=KG(Q)。因此自然有如下定義。知識R∈Y的粒度,記為KG(R),:()式中:|R|表示RU*U的基數(shù)。(4) 設R是論域U上的不可區(qū)分關系簇,P,Q∈R是U上的不可區(qū)分,若對任意u,v∈U,有u P vu Q v,則稱P與Q相等,記住P=Q;若對任意u,v∈U,有u P vu Q v,則稱P比Q細,或Q比P粗,記作P≤Q;若P≤Q且P≠Q(mào),則稱P比Q嚴格細,或Q比P嚴格粗,記作P<Q。在粗糙集的理論中,擁有知識R的智能體(agent,如機器人、人等)不能將[u]R中的對象與u分辨出來。記A={X1,X2,…,Xn},若滿足:XiU,Xi≠∮;Xi∩Xj=∮,i≠j,i,j=1,2,…,n; 。在給出知識粒度的定義之前,先看以下一些基本概念。之所以會有知識表示的粗糙性就是因為知識的這種顆粒狀。這樣我們通過信息熵來衡量信息價值高低的。 根據(jù)著名學者Bennett對Demon的解釋[21],信息的銷毀我們認為是一個不可逆過程,所以銷毀信息完全符合熱力學的第2定律。顯然0≤σ(a) ≤1,σ(a)越大屬性a越重要。(8) 我們把B中d不可約去的屬性稱為B的d核,:()式中,redd(B)是B的d約簡。為解決這個問題,我們需要定義相對約簡(relative reduct)。(4) 我們把B中所有不可約去的屬性稱為B的核(core),記為core(B)。(2) 如果任意a∈B都是B中部可約去的,則稱屬性集B是獨立的,否則B是相關的。??通常決策屬性是有一定的依賴度(依賴度的取值范圍為[0,1]),而不一定是完全依賴條件屬性。前者是在原始決策表上,刪除冗余屬性,使得決策規(guī)則更簡潔,有更高的適應性;后者是在前者的基礎上,在決策規(guī)則中刪除冗余的條件屬性,得到不含冗余屬性的決策規(guī)則。(3) 粗糙集是不要先了解知識的。如果BND (X ) 是空集,則稱X 關于I 是清晰的(crisp );反之如果BND (X ) 不是空集,則稱集合X 為關于I 的粗糙集( rough set)。同樣的,由肯定不屬于X 的對象組成的集合稱為X 的負區(qū),記作N EG (X )。有一個非空的有限集合U,我們稱之為論域,I 為U 中的一個等價類關系,即關于U 的知識,則二元對 K = (U,I ) 稱之為集合U的一個近似空間。根據(jù)信息集的定義,我們接下來就要對粗糙集理論的重要思想,上近似、下近似和邊界值進行講解。B信息集定義為InfB(u)={(a,a(u)):a∈B};B不分明關系定義為ind(B)={(u,w): InfB(u)= InfB(w)},由B不分明關系中的等價類形成B可定義集。 粗糙集理論的基本概念 信息集在粗糙集理論中,信息系統(tǒng)A中每個個體u∈U用一個信息集(information set)表示InfA(u)={(a,a(u)):a∈A},對應著數(shù)據(jù)表A中元素u所在的行。所以數(shù)據(jù)挖掘的概念雖然在不同的技術層面上進行理解,但是它的要點還是在數(shù)據(jù)源中挖掘知識。實際上,在當前的許多文獻資料中,人們?nèi)匀徊粎^(qū)分地使用這兩個術語。因此知識發(fā)現(xiàn)具有一個更廣義的定義,它包括模式生成、數(shù)據(jù)選擇、數(shù)據(jù)集成、數(shù)據(jù)挖掘、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)清洗及評估等一系列步驟。人們一般認為KDD是由三個階段組成:數(shù)據(jù)預備;數(shù)據(jù)挖掘;最終解釋與表達。這種說法是為了強調(diào)說明數(shù)據(jù)挖掘在數(shù)據(jù)庫等數(shù)據(jù)形式上的多樣化。我們可以從這些不同的觀點中了解數(shù)據(jù)挖掘的技術含義。 數(shù)據(jù)挖掘與知識發(fā)現(xiàn)談到數(shù)據(jù)挖掘,必須提到另外一個名詞:數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database, KDD)。它的主要思想如下:可以把對象的屬性分為條件和決策。 特異型知識挖掘源數(shù)據(jù)中所蘊藏著的與其他數(shù)據(jù)存在明顯差異的知識描述或個性特例就稱為特異型知識[16],它發(fā)現(xiàn)了那些不同于常規(guī)的異常規(guī)律。 預測型知識挖掘預測型知識挖掘[16]是指由歷史的和當前的數(shù)據(jù)產(chǎn)生的并能推測未來數(shù)據(jù)趨勢的只是。在2000年,Han等歸納了基于劃分、層次、密度、網(wǎng)格和模型五大類聚類算法。找出數(shù)據(jù)庫中隱藏的關聯(lián)信息就是關聯(lián)知識挖掘的目的。 關聯(lián)知識挖掘關聯(lián)知識[14]就是反映一個事物與另一個事物之間的關聯(lián)或依賴。我們知道有非常豐富的知識表示模式被用于Data Mining的,我們由知識表示模式和它所使用的方法來進行檢測,對Data Mining的系統(tǒng)特點更加了解。按照人們的正常思維,人們會認為啤酒和奶粉是面向兩種不同消費對象的產(chǎn)品,但是將它們拜訪一起販賣卻起到了提高商品銷售量的現(xiàn)象,其實這都多虧了數(shù)據(jù)挖掘。家樂福擁有國際上最大的數(shù)據(jù)信息庫,商家們?yōu)榱肆私忸櫩徒?jīng)常購買的物品,對顧客的歷史購物信息進行分析。也許在我們平時的一些小事上,我們通過數(shù)據(jù)挖掘就能夠獲取到事情背后隱藏的信息,然后通過這些信息,我們能夠?qū)@件事進行更好的處理。它不僅僅只是面對特定數(shù)據(jù)庫的簡單調(diào)用、查詢和檢索,而且它還要對這些數(shù)據(jù)進行宏觀、中觀乃至微觀的分析、推理、統(tǒng)計和綜合。面對這一問題,數(shù)據(jù)挖掘和知識發(fā)現(xiàn)使得數(shù)據(jù)處理的技術進入了一個嶄新的高度。尤其是最近幾年,大部分基本方法和概念越來越清晰了,它們的研究正逐步向著更深入的地方發(fā)展。但我們相信,在不久的將來會有更多的學者加入到我們的隊伍中來,一起對該領域的研究做出偉大的貢獻。 對同一問題,我們可以采取不同的粒度。基于 的模糊集理論的粒度計算的研究,已成為“粒度計算”方面的重要研究方向之一。直到“詞計算理論”這一演說于1996 ,才宣告著模糊集粒度化信息理論的誕生。如今,國內(nèi)學者從事粗糙集理論研究的人員越來越多越來越強大,已形成了一支較為穩(wěn)定且實力強大的學術隊伍,中國學者在粗糙集這一領域的影響力也越來越巨大,儼然成為了這一領域的重要科研力量。這次研討會的舉行大大推動了我國乃至亞洲地區(qū)對粗糙集的應用及其理論的研究。目前,美國、日本、波蘭、加拿大都建立了粗糙集研究的專門機構。在1995年ACM Communication將粗糙集理論列為“新興的計算機科學”的研究課題。 粗糙集的研究現(xiàn)狀隨著《粗糙集—關于數(shù)據(jù)推理的理論》這篇文章的發(fā)表,國際上掀起了一場粗糙集的學習熱潮。隨后KDD得到了廣泛的發(fā)展。實際生活中,異常檢測是有著很廣泛的應用,比如信用卡惡意透支、貸款證明的審核、網(wǎng)絡入侵檢測等。通常,數(shù)據(jù)挖掘被人們劃分成四種類型[7]:類別的判定、 類別的描述、相關依賴關系的發(fā)現(xiàn)、 粗糙或異常 (Outlier)數(shù)據(jù)挖掘。海量雜亂的信息數(shù)據(jù)背后隱藏著很多我們不知道的,但對我們來說又非常重要的信息,所以人們希望能夠通過對其進行深入的分析,方便我們能更好的利用并使用這些隱藏中的數(shù)據(jù)信息[6]。有些在UCI數(shù)據(jù)集上進行了實驗分析。這些測量應用于屬性約簡,分類,特征選擇與不確定性的推理。為了評估粗糙集理論在分辨不確定性知識上的能力。高局部異常因子(LOF)就認為它更可能異常。由于主要目的是分類歸并,它不適合用于異常檢測。基于深度的方法是通過計算幾何和計算不同層的kd凸殼和標記外層的對象作為異常點。異常檢測可以粗略的分成五大類[3],除了之前講到的基于距離的異常檢測方法外,還有基于統(tǒng)計的方法、基于深度的方法、基于聚類的方法和基于密度的檢測方法。假設一個對象在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別,則我們認為該對象也屬于這個類別,稱之為KNN算法[2]。 knowledge granulation. . . . .目錄第1章 引言 1 概述 1 研究的目的和意義 2 國內(nèi)外研究現(xiàn)狀 3 數(shù)據(jù)挖掘的研究現(xiàn)狀 3 粗糙集的研究現(xiàn)狀 3 知識粒度的研究現(xiàn)狀 4第2章 數(shù)據(jù)挖掘 6 6 數(shù)據(jù)挖掘的有趣故事 7 數(shù)據(jù)挖掘的幾種知識表示方法與模式 8 廣義知識挖掘 8 關聯(lián)知識挖掘 8 類知識挖掘 8 預測型知識挖掘 9 特異型知識挖掘 9 粗糙集知識挖掘 9 數(shù)據(jù)挖掘與知識發(fā)現(xiàn) 9 把KDD看成數(shù)據(jù)挖掘的一個特例 10 數(shù)據(jù)挖掘存在于KDD過程中 10 數(shù)據(jù)挖掘與知識發(fā)現(xiàn)相近似 11第3章 粗糙集理論 12 粗糙集理論的基本概念 12 信息集 12 集合的上近似,下近似與邊界值 13 粗糙集理論的優(yōu)點 14 屬性約簡 14 屬性依賴 15 屬性約簡 15
點擊復制文檔內(nèi)容
語文相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1