freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法研究(104頁)-資料下載頁

2025-08-06 01:42本頁面
  

【正文】 式(如概念樹、隊(duì)列或規(guī)則等)并輸入到模式庫中。數(shù)據(jù)挖掘系統(tǒng)將在特定的概念層次上依據(jù)分層結(jié)構(gòu)自動(dòng)從數(shù)據(jù)庫中歸納出對(duì)應(yīng)的廣義知識(shí)。 關(guān)聯(lián)知識(shí)挖掘關(guān)聯(lián)知識(shí)(Association)反映一個(gè)事件和其它事件之間的依賴或關(guān)聯(lián)。數(shù)據(jù)庫中的數(shù)據(jù)關(guān)聯(lián)是現(xiàn)實(shí)世界中事物聯(lián)系的表現(xiàn)。數(shù)據(jù)庫作為一種結(jié)構(gòu)化的數(shù)據(jù)組織形式,利用其依附的數(shù)據(jù)模型可能刻畫了數(shù)據(jù)間的關(guān)聯(lián)(如關(guān)系數(shù)據(jù)庫的主鍵和外鍵)。但是,數(shù)據(jù)之間的關(guān)聯(lián)是復(fù)雜的,不僅是上面所說的依附在數(shù)據(jù)模型中的關(guān)聯(lián),大部分是蘊(yùn)藏的。關(guān)聯(lián)知識(shí)挖掘的目的就是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)信息。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時(shí)序(Time Series)關(guān)聯(lián)、因果關(guān)聯(lián)、數(shù)量關(guān)聯(lián)等。這些關(guān)聯(lián)并不總是事先知道的,而是通過數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)分析獲得的,因而對(duì)商業(yè)決策具有新價(jià)值。從廣義上講,關(guān)聯(lián)分析是數(shù)據(jù)挖掘的本質(zhì)。既然數(shù)據(jù)挖掘的目的是發(fā)現(xiàn)潛藏在數(shù)據(jù)背后的知識(shí),那么這種知識(shí)一定是反映不同對(duì)象之間的關(guān)聯(lián)。在上面我們提到的廣義知識(shí)挖掘問題實(shí)際上是挖掘數(shù)據(jù)與不同層次的概念之間的關(guān)聯(lián)。當(dāng)然,本節(jié)的關(guān)聯(lián)分析還是指一類特定的數(shù)據(jù)挖掘技術(shù),它集中在數(shù)據(jù)庫中對(duì)象之間關(guān)聯(lián)及其程度的刻畫。關(guān)聯(lián)規(guī)則挖掘是關(guān)聯(lián)知識(shí)發(fā)現(xiàn)的最常用方法。最為著名的是Agrawal等提出的Apriori及其改進(jìn)算法[2,18,19]。為了發(fā)現(xiàn)出有意義的關(guān)聯(lián)規(guī)則,需要給定兩個(gè)閾值:最小支持度(Minimum Support)和最小可信度(Minimum Confidence)。挖掘出的關(guān)聯(lián)規(guī)則必須滿足用戶規(guī)定的最小支持度,它表示了一組項(xiàng)目關(guān)聯(lián)在一起需要滿足的最低聯(lián)系程度。挖掘出的關(guān)聯(lián)規(guī)則也必須滿足用戶規(guī)定的最小可信度,它反映了一個(gè)關(guān)聯(lián)規(guī)則的最低可靠度。在這個(gè)意義上,數(shù)據(jù)挖掘系統(tǒng)的目的就是從源數(shù)據(jù)庫中挖掘出滿足最小支持度和最小可信度的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則的研究和應(yīng)用是數(shù)據(jù)挖掘中最活躍和比較深入的分支,許多關(guān)聯(lián)規(guī)則挖掘的理論和算法已經(jīng)被提出。關(guān)于關(guān)聯(lián)規(guī)則挖掘問題及其算法等,后面還會(huì)詳細(xì)敘述。 類知識(shí)挖掘類知識(shí)(Class)刻畫了一類事物,這類事物具有某種意義上的共同特征,并明顯和不同類事物相區(qū)別。和其它的文獻(xiàn)相對(duì)應(yīng),這里的類知識(shí)是指數(shù)據(jù)挖掘的分類和聚類兩類數(shù)據(jù)挖掘應(yīng)用所對(duì)應(yīng)的知識(shí)。(1)分類分類是數(shù)據(jù)挖掘中的一個(gè)重要的目標(biāo)和任務(wù),目前的研究和在商業(yè)上應(yīng)用最多。分類的目的是學(xué)會(huì)一個(gè)分類模型(稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到給定類別中。要構(gòu)造分類器,需要有一個(gè)訓(xùn)練樣本數(shù)據(jù)集作為輸入。由于數(shù)據(jù)挖掘是從源數(shù)據(jù)集中挖掘知識(shí)的過程,這種類知識(shí)也必須來自于源數(shù)據(jù),應(yīng)該是對(duì)源數(shù)據(jù)的過濾、抽?。ǔ闃樱?、壓縮以及概念提取等。從機(jī)器學(xué)習(xí)的觀點(diǎn),分類技術(shù)是一種有指導(dǎo)的學(xué)習(xí)(Supervised Learning),即每個(gè)訓(xùn)練樣本的數(shù)據(jù)對(duì)象已經(jīng)有類標(biāo)識(shí),通過學(xué)習(xí)可以形成表達(dá)數(shù)據(jù)對(duì)象與類標(biāo)識(shí)間對(duì)應(yīng)的知識(shí)。從這個(gè)意義上說,數(shù)據(jù)挖掘的目標(biāo)就是根據(jù)樣本數(shù)據(jù)形成的類知識(shí)并對(duì)源數(shù)據(jù)進(jìn)行分類、進(jìn)而也可以預(yù)測未來數(shù)據(jù)的歸類。用于分類的類知識(shí)可以用分類規(guī)則、概念樹,也可能以一種學(xué)習(xí)后的分類網(wǎng)絡(luò)等形式表示出來。目前,有下面一些有代表性的技術(shù)被成功應(yīng)用到分類知識(shí)挖掘中:n 決策樹決策樹方法,在許多的機(jī)器學(xué)習(xí)書或論文中可以找到這類方法的詳細(xì)介紹。ID3[1]算法是最典型的決策樹分類算法,之后的改進(jìn)算法包括IDID[20] 、。這些算法都是從機(jī)器學(xué)習(xí)角度研究和發(fā)展起來的,對(duì)于大訓(xùn)練樣本集很難適應(yīng)。這是決策樹應(yīng)用向數(shù)據(jù)挖掘方向發(fā)展必須面對(duì)和解決的關(guān)鍵問題。在這方面的嘗試也很多,比較有代表性的研究有Agrawal等人提出的SLIQ[21]、SPRINT算法[22] ,它們強(qiáng)調(diào)了決策樹對(duì)大訓(xùn)練集的適應(yīng)性。1998年,Michalski等對(duì)決策樹與數(shù)據(jù)挖掘的結(jié)合方法和應(yīng)用進(jìn)行了歸納[23]。另一個(gè)比較著名的研究是Gehrke等人提出了一個(gè)稱為雨林(Rainforest)的在大型數(shù)據(jù)集中構(gòu)建決策樹的挖掘構(gòu)架[24] ,并在1999年提出這個(gè)模型的改進(jìn)算法BOAT[25]。另外的一些研究集中在針對(duì)數(shù)據(jù)挖掘特點(diǎn)所進(jìn)行的高效決策樹裁減、決策樹中規(guī)則的提取技術(shù)與算法等方面。n 貝葉斯分類貝葉斯分類(Bayesian Classification)來源于概率統(tǒng)計(jì)學(xué),并且在機(jī)器學(xué)習(xí)中被很好地研究。近幾年,作為數(shù)據(jù)挖掘的重要方法被受注目。樸素貝葉斯分類(Naive Bayesian Classification)具有堅(jiān)實(shí)的理論基礎(chǔ),和其它分類方法比,理論上具有較小的出錯(cuò)率。但是,由于受其對(duì)應(yīng)用假設(shè)的準(zhǔn)確性設(shè)定的限制,因此需要在提高和驗(yàn)證它的適應(yīng)性等方面進(jìn)一步工作。Jone提出連續(xù)屬性值的內(nèi)核稠密估計(jì)的樸素貝葉斯分類方法[8],提高了基于普遍使用的高斯估計(jì)的準(zhǔn)確性。Domingos等對(duì)于類條件獨(dú)立性假設(shè)(應(yīng)用假設(shè))不成立時(shí)樸素貝葉斯分類的適應(yīng)性進(jìn)行了分析[26]。貝葉斯信念網(wǎng)絡(luò)(Bayesian Belief Network)是基于貝葉斯分類技術(shù)的學(xué)習(xí)框架,集中在貝葉斯信念網(wǎng)絡(luò)本身架構(gòu)以及它的推理算法研究上。其中比較有代表性的工作有:Russell的布爾變量簡單信念網(wǎng)、訓(xùn)練貝葉斯信念網(wǎng)絡(luò)的梯度下降法[27]、Buntine等建立的訓(xùn)練信念網(wǎng)絡(luò)的基本操作[28]以及Lauritzen等的具有蘊(yùn)藏?cái)?shù)據(jù)學(xué)習(xí)的信念網(wǎng)絡(luò)及其推理算法EM[29]等。n 神經(jīng)網(wǎng)絡(luò)分類神經(jīng)網(wǎng)絡(luò)作為一個(gè)相對(duì)獨(dú)立的研究分支已經(jīng)很早被提出,有許多著作和文獻(xiàn)詳細(xì)介紹了它的原理。由于神經(jīng)網(wǎng)絡(luò)需要較長的訓(xùn)練時(shí)間和其可解釋性較差,為它的應(yīng)用帶來了困難。但是,由于神經(jīng)網(wǎng)絡(luò)具有高度的抗干擾能力和可以對(duì)未訓(xùn)練數(shù)據(jù)進(jìn)行分類等優(yōu)點(diǎn),又使得它具有極大的誘惑力。因此,在數(shù)據(jù)挖掘中使用神經(jīng)網(wǎng)絡(luò)技術(shù)是一件有意義但仍需要艱苦探索的工作。在神經(jīng)網(wǎng)絡(luò)和數(shù)據(jù)挖掘技術(shù)的結(jié)合方面,一些利用神經(jīng)網(wǎng)絡(luò)挖掘知識(shí)的算法被提出。例如,Lu和Setiono等提出的數(shù)據(jù)庫中提取規(guī)則的方法[30]、Widrow等系統(tǒng)介紹了神經(jīng)網(wǎng)絡(luò)在商業(yè)等方面的應(yīng)用技術(shù)[31]。n 遺傳算法遺傳算法是基于進(jìn)化理論的機(jī)器學(xué)習(xí)方法,它采用遺傳結(jié)合、遺傳交叉變異以及自然選擇等操作實(shí)現(xiàn)規(guī)則的生成。有許多著作和文獻(xiàn)詳細(xì)介紹了它的原理,這里不再贅述。n 類比學(xué)習(xí)和案例學(xué)習(xí)最典型的類比學(xué)習(xí)(Analogy Learning)方法是k最臨近分類(kNearest Neighbor Classification)方法,它屬于懶散學(xué)習(xí)法,相比決策樹等急切學(xué)習(xí)法,具有訓(xùn)練時(shí)間短但分類時(shí)間長的特點(diǎn)。k最臨近方法可以用于分類和聚類中?;诎咐膶W(xué)習(xí)(CaseBased Learning)方法可以應(yīng)用到數(shù)據(jù)挖掘的分類中?;诎咐龑W(xué)習(xí)的分類技術(shù)的基本思想是,當(dāng)一個(gè)新案例進(jìn)行分類時(shí),通過檢查已有的訓(xùn)練案例找出相同的或最接近的案例,然后根據(jù)這些案例提出這個(gè)新案例的可能解。利用案例學(xué)習(xí)來進(jìn)行數(shù)據(jù)挖掘的分類必須要解決案例的相似度度量、訓(xùn)練案例的選取以及利用相似案例生成新案例的組合解等關(guān)鍵問題,并且它們也正是目前研究的主要問題。n 其它方法如粗糙集和模糊集(Fuzzy Set)方法等。另外需要強(qiáng)調(diào)的是,任何一種分類技術(shù)與算法,都不是萬能的。不同的商業(yè)問題,需要用不同的方法去解決。即使對(duì)于同一個(gè)商業(yè)問題,可能有多種分類算法。分類的效果一般和數(shù)據(jù)的特點(diǎn)有關(guān),有些數(shù)據(jù)噪聲大、有缺值、分布稀疏,有些屬性是離散的而有些是連續(xù)值的,所以目前普遍認(rèn)為不存在某種方法能適合于所有特點(diǎn)的數(shù)據(jù)。因此,對(duì)于一個(gè)特定問題和一類特定數(shù)據(jù),需要評(píng)估具體算法的適應(yīng)性。(2)聚類聚類是把一組個(gè)體按照相似性歸成若干類別,它的目的是使得屬于同一類別的個(gè)體之間的差別盡可能的小,而不同類別上的個(gè)體間的差別盡可能的大。數(shù)據(jù)挖掘的目標(biāo)之一是進(jìn)行聚類分析。通過聚類技術(shù)可以對(duì)源數(shù)據(jù)庫中的記錄劃分為一系列有意義的子集,進(jìn)而實(shí)現(xiàn)對(duì)數(shù)據(jù)的分析。例如,一個(gè)商業(yè)銷售企業(yè),可能關(guān)心哪些(同類)客戶對(duì)指定的促銷策略更感興趣。聚類和分類技術(shù)不同,前者總是在特定的類標(biāo)識(shí)下尋求新元素屬于哪個(gè)類,而后者則是通過對(duì)數(shù)據(jù)的分析比較生成新的類標(biāo)識(shí)。聚類分析生成的類標(biāo)識(shí)(可能以某種容易理解的形式展示給用戶)刻畫了數(shù)據(jù)所蘊(yùn)涵的類知識(shí)。當(dāng)然,數(shù)據(jù)挖掘中的分類和聚類技術(shù)都是在已有的技術(shù)基礎(chǔ)上發(fā)展起來的,它們互有交叉和補(bǔ)充。目前,數(shù)據(jù)挖掘研究中的聚類技術(shù)研究也是一個(gè)熱點(diǎn)問題。1999年,Jain等給出了聚類研究中的主要問題和方法[32]。聚類技術(shù)主要是以統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等方法為基礎(chǔ)的。作為統(tǒng)計(jì)學(xué)的一個(gè)重要分支,聚類分析已經(jīng)被廣泛地研究和應(yīng)用。有人稱回歸分析(Regression Analysis)、判別分析(Discrimination Analysis)和聚類分析是三大多元數(shù)據(jù)分析方法。比較有代表性的聚類技術(shù)是基于幾何距離度量的聚類方法,如歐式距離、曼哈坦(Manhattan)距離、明考斯基(Minkowski)距離等。在機(jī)器學(xué)習(xí)中,聚類屬于無指導(dǎo)學(xué)習(xí)(Unsupervised Learning)。因此和分類學(xué)習(xí)不同,聚類沒有訓(xùn)練實(shí)例和預(yù)先定義的類標(biāo)識(shí)。在很多情況,聚類的結(jié)果是形成一個(gè)概念,即當(dāng)一組數(shù)據(jù)對(duì)象可以由一個(gè)概念(區(qū)別于其它的概念)來描述時(shí),就形成一個(gè)簇。因此,有的文獻(xiàn),又稱是概念聚類(Concept Clustering)。所以,一些問題可能不再是傳統(tǒng)統(tǒng)計(jì)方法中的幾何距離所能描述的,而是根據(jù)概念的描述來確定。目前的數(shù)據(jù)挖掘的聚類技術(shù)也使用了一些其它技術(shù),如神經(jīng)網(wǎng)絡(luò)、粗糙/模糊集等。2000年,Han等歸納了基于劃分、層次、密度、網(wǎng)格和模型五大類聚類算法[1]。下面我們將根據(jù)目前發(fā)展情況,仍以這五大類為基準(zhǔn)簡要闡述一些比較有代表性的方法。(1)基于劃分的聚類方法k平均算法是統(tǒng)計(jì)學(xué)中的一個(gè)經(jīng)典聚類方法,但是它只有在簇平均值被預(yù)先定義好的情況下才能使用,加之對(duì)噪音數(shù)據(jù)的敏感性等,使得對(duì)數(shù)據(jù)挖掘的適應(yīng)性較差,因此,出現(xiàn)了一些改進(jìn)算法。主要有Kaufman等的k中心點(diǎn)算法PAM和Clare算法[33];Huang等提出的k模和k原型方法[34];Bradley和Fayyad等建立的基于k平均的可擴(kuò)展聚類算法[35]。其它的有代表性的方法有EM算法[29]、Clarans算法[36]等?;趧澐值木垲惙椒ǖ玫搅藦V泛研究和應(yīng)用,但是,對(duì)于大數(shù)據(jù)集的聚類仍需要進(jìn)一步的研究和擴(kuò)展。(2)基于層次的聚類方法通過對(duì)源數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行層次分解,達(dá)到目標(biāo)簇的逐步生成。有兩種基本的方法:凝聚(Agglomeration)和分裂(Division)。凝聚聚類是指由小到大(開始可能是每個(gè)元組為一組)逐步合并,直到每個(gè)簇滿足特征性條件。分裂聚類是指由大到?。ㄩ_始可能為一組)逐步分裂,直到每個(gè)簇滿足特征性條件。Kaufman等詳細(xì)介紹了凝聚和分裂聚類的基本方法[33];Zhang等提出的利用CF樹進(jìn)行層次聚類的Birth算法[37];Guha等提出的 Cure算法[38]、Rock算法[39] 。 Karypisamp。Han等提出的 Chameleon算法[40] ?;趯哟蔚木垲惙椒ㄓ?jì)算相對(duì)簡單,但是操作后不易撤消,因而對(duì)于迭代中的重定義等問題仍需進(jìn)一步工作。(3)基于密度的聚類方法基于密度的聚類方法是通過度量區(qū)域所包含的對(duì)象數(shù)目來形成最終目標(biāo)的。如果一個(gè)區(qū)域的密度超過指定的值,那么它就需要進(jìn)一步分解成更細(xì)的組,直到用戶可以接受的結(jié)果。這種聚類方法相比基于劃分的聚類方法,可以發(fā)現(xiàn)球型以外的任意形狀的簇,而且可以很好地過濾孤立點(diǎn)(Outlier)數(shù)據(jù),對(duì)大型數(shù)據(jù)集和空間數(shù)據(jù)庫的適應(yīng)性較好。比較有代表性的工作有1996年Ester等提出的DBSCAN方法[41]、1998年Hinneburg等提出的基于密度分布函數(shù)的DENCLUE聚類算法[42]、1999年Ankerst等提出的OPTICS聚類排序方法[43]?;诿芏鹊木垲愃惴ù蠖噙€是把最終結(jié)果的決定權(quán)(參數(shù)值)交給用戶決定,這些參數(shù)的設(shè)置以經(jīng)驗(yàn)為主。而且對(duì)參數(shù)設(shè)定的敏感性較高,即較小的參數(shù)差別可能導(dǎo)致區(qū)別很大的結(jié)果,因此,這是這類方法有待進(jìn)一步解決的問題。(4)基于網(wǎng)格的聚類方法這種方法是把對(duì)象空間離散化成有限的網(wǎng)格單元,聚類工作在這種網(wǎng)格結(jié)構(gòu)上進(jìn)行。1997年Wang等提出的String方法是一個(gè)多層聚類技術(shù)[44]。它把對(duì)象空間劃分成多個(gè)級(jí)別的矩形單元,高層的矩形單元是多個(gè)低層矩形單元的綜合。每個(gè)矩形單元的網(wǎng)格收集對(duì)應(yīng)層次的統(tǒng)計(jì)信息值。該方法具有聚類速度快、支持并行處理和易于擴(kuò)展等優(yōu)點(diǎn),受到廣泛關(guān)注。另外一些有代表性的研究包括Sheikholeslami等提出的通過小波變換進(jìn)行多分辨率聚類方法WaveCluster[45] 、Agrawal等提出的把基于網(wǎng)格和密度結(jié)合的高維數(shù)據(jù)聚類算法CLIQUE[46] 等。(5)基于模型的聚類方法這種方法為每個(gè)簇假定一個(gè)模型,尋找數(shù)據(jù)對(duì)給定模型的最佳擬和。目前研究主要集中在利用概率統(tǒng)計(jì)模型進(jìn)行概念聚類和利用神經(jīng)網(wǎng)絡(luò)技術(shù)進(jìn)行自組織聚類等方面。它需要解決的主要問題之一仍然是如何適用于大型數(shù)據(jù)庫的聚類應(yīng)用。最近的研究傾向于利用多種技術(shù)的綜合性聚類方法探索,以解決大型數(shù)據(jù)庫或高維數(shù)據(jù)庫等聚類挖掘問題。一些焦點(diǎn)問題也包括孤立點(diǎn)檢測、一致性驗(yàn)證異常情況處理等。 預(yù)測型知識(shí)挖掘預(yù)測型知識(shí)(Prediction)是指由歷史的和當(dāng)前的數(shù)據(jù)產(chǎn)生的并能推測未來數(shù)據(jù)趨勢的知識(shí)。這類知識(shí)可以被認(rèn)為是以時(shí)間為關(guān)鍵屬性的關(guān)聯(lián)知識(shí),因此上面介紹的關(guān)聯(lián)知識(shí)挖掘方法可以應(yīng)用到以時(shí)間為關(guān)鍵屬性的源數(shù)據(jù)挖掘中。從預(yù)測的主要功能上看,主要是對(duì)未來數(shù)據(jù)的概念分類和趨勢輸出。上面介紹的分類技術(shù)可以用于產(chǎn)生具有對(duì)未來數(shù)據(jù)進(jìn)行歸類的預(yù)測型知識(shí)。統(tǒng)計(jì)學(xué)中的回歸方法等可以通過歷史數(shù)據(jù)直接產(chǎn)生對(duì)未來數(shù)據(jù)預(yù)測的連續(xù)值。因而這些預(yù)測型知識(shí)已經(jīng)蘊(yùn)藏在諸如趨勢曲線等輸出形式中。所以,一些文獻(xiàn),把利用歷史數(shù)據(jù)生成具有預(yù)測功能的知識(shí)挖掘工作歸為分類問題,而把利用歷史數(shù)據(jù)產(chǎn)生并輸出連續(xù)趨勢曲線等問題作為預(yù)測型知識(shí)挖掘的主要工作[1]。這種說法有它的合理性。如果要進(jìn)一步說明的話,我們認(rèn)為,分類型的知識(shí)也應(yīng)該有兩種基本用途。第一,通過樣本子集挖掘出的知識(shí)可能目的只是用于對(duì)現(xiàn)有源數(shù)據(jù)庫的所有數(shù)據(jù)進(jìn)行歸類,以使現(xiàn)有的龐大源數(shù)據(jù)在概念或類別上被“物以聚類”。第二,有些源數(shù)據(jù)盡管它們是已經(jīng)發(fā)生的歷史事件的記錄,但是存在對(duì)未來有指導(dǎo)意義的規(guī)律性東西,如總
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1