freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法研究(104頁)(參考版)

2024-08-17 01:42本頁面
  

【正文】 第一,通過樣本子集挖掘出的知識可能目的只是用于對現(xiàn)有源數(shù)據(jù)庫的所有數(shù)據(jù)進(jìn)行歸類,以使現(xiàn)有的龐大源數(shù)據(jù)在概念或類別上被“物以聚類”。這種說法有它的合理性。因而這些預(yù)測型知識已經(jīng)蘊(yùn)藏在諸如趨勢曲線等輸出形式中。上面介紹的分類技術(shù)可以用于產(chǎn)生具有對未來數(shù)據(jù)進(jìn)行歸類的預(yù)測型知識。這類知識可以被認(rèn)為是以時(shí)間為關(guān)鍵屬性的關(guān)聯(lián)知識,因此上面介紹的關(guān)聯(lián)知識挖掘方法可以應(yīng)用到以時(shí)間為關(guān)鍵屬性的源數(shù)據(jù)挖掘中。一些焦點(diǎn)問題也包括孤立點(diǎn)檢測、一致性驗(yàn)證異常情況處理等。它需要解決的主要問題之一仍然是如何適用于大型數(shù)據(jù)庫的聚類應(yīng)用。(5)基于模型的聚類方法這種方法為每個(gè)簇假定一個(gè)模型,尋找數(shù)據(jù)對給定模型的最佳擬和。該方法具有聚類速度快、支持并行處理和易于擴(kuò)展等優(yōu)點(diǎn),受到廣泛關(guān)注。它把對象空間劃分成多個(gè)級別的矩形單元,高層的矩形單元是多個(gè)低層矩形單元的綜合。(4)基于網(wǎng)格的聚類方法這種方法是把對象空間離散化成有限的網(wǎng)格單元,聚類工作在這種網(wǎng)格結(jié)構(gòu)上進(jìn)行?;诿芏鹊木垲愃惴ù蠖噙€是把最終結(jié)果的決定權(quán)(參數(shù)值)交給用戶決定,這些參數(shù)的設(shè)置以經(jīng)驗(yàn)為主。這種聚類方法相比基于劃分的聚類方法,可以發(fā)現(xiàn)球型以外的任意形狀的簇,而且可以很好地過濾孤立點(diǎn)(Outlier)數(shù)據(jù),對大型數(shù)據(jù)集和空間數(shù)據(jù)庫的適應(yīng)性較好。(3)基于密度的聚類方法基于密度的聚類方法是通過度量區(qū)域所包含的對象數(shù)目來形成最終目標(biāo)的。Han等提出的 Chameleon算法[40] 。Kaufman等詳細(xì)介紹了凝聚和分裂聚類的基本方法[33];Zhang等提出的利用CF樹進(jìn)行層次聚類的Birth算法[37];Guha等提出的 Cure算法[38]、Rock算法[39] 。凝聚聚類是指由小到大(開始可能是每個(gè)元組為一組)逐步合并,直到每個(gè)簇滿足特征性條件。(2)基于層次的聚類方法通過對源數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行層次分解,達(dá)到目標(biāo)簇的逐步生成。其它的有代表性的方法有EM算法[29]、Clarans算法[36]等。(1)基于劃分的聚類方法k平均算法是統(tǒng)計(jì)學(xué)中的一個(gè)經(jīng)典聚類方法,但是它只有在簇平均值被預(yù)先定義好的情況下才能使用,加之對噪音數(shù)據(jù)的敏感性等,使得對數(shù)據(jù)挖掘的適應(yīng)性較差,因此,出現(xiàn)了一些改進(jìn)算法。2000年,Han等歸納了基于劃分、層次、密度、網(wǎng)格和模型五大類聚類算法[1]。所以,一些問題可能不再是傳統(tǒng)統(tǒng)計(jì)方法中的幾何距離所能描述的,而是根據(jù)概念的描述來確定。在很多情況,聚類的結(jié)果是形成一個(gè)概念,即當(dāng)一組數(shù)據(jù)對象可以由一個(gè)概念(區(qū)別于其它的概念)來描述時(shí),就形成一個(gè)簇。在機(jī)器學(xué)習(xí)中,聚類屬于無指導(dǎo)學(xué)習(xí)(Unsupervised Learning)。有人稱回歸分析(Regression Analysis)、判別分析(Discrimination Analysis)和聚類分析是三大多元數(shù)據(jù)分析方法。聚類技術(shù)主要是以統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等方法為基礎(chǔ)的。目前,數(shù)據(jù)挖掘研究中的聚類技術(shù)研究也是一個(gè)熱點(diǎn)問題。聚類分析生成的類標(biāo)識(可能以某種容易理解的形式展示給用戶)刻畫了數(shù)據(jù)所蘊(yùn)涵的類知識。例如,一個(gè)商業(yè)銷售企業(yè),可能關(guān)心哪些(同類)客戶對指定的促銷策略更感興趣。數(shù)據(jù)挖掘的目標(biāo)之一是進(jìn)行聚類分析。因此,對于一個(gè)特定問題和一類特定數(shù)據(jù),需要評估具體算法的適應(yīng)性。即使對于同一個(gè)商業(yè)問題,可能有多種分類算法。另外需要強(qiáng)調(diào)的是,任何一種分類技術(shù)與算法,都不是萬能的。利用案例學(xué)習(xí)來進(jìn)行數(shù)據(jù)挖掘的分類必須要解決案例的相似度度量、訓(xùn)練案例的選取以及利用相似案例生成新案例的組合解等關(guān)鍵問題,并且它們也正是目前研究的主要問題?;诎咐膶W(xué)習(xí)(CaseBased Learning)方法可以應(yīng)用到數(shù)據(jù)挖掘的分類中。n 類比學(xué)習(xí)和案例學(xué)習(xí)最典型的類比學(xué)習(xí)(Analogy Learning)方法是k最臨近分類(kNearest Neighbor Classification)方法,它屬于懶散學(xué)習(xí)法,相比決策樹等急切學(xué)習(xí)法,具有訓(xùn)練時(shí)間短但分類時(shí)間長的特點(diǎn)。n 遺傳算法遺傳算法是基于進(jìn)化理論的機(jī)器學(xué)習(xí)方法,它采用遺傳結(jié)合、遺傳交叉變異以及自然選擇等操作實(shí)現(xiàn)規(guī)則的生成。在神經(jīng)網(wǎng)絡(luò)和數(shù)據(jù)挖掘技術(shù)的結(jié)合方面,一些利用神經(jīng)網(wǎng)絡(luò)挖掘知識的算法被提出。但是,由于神經(jīng)網(wǎng)絡(luò)具有高度的抗干擾能力和可以對未訓(xùn)練數(shù)據(jù)進(jìn)行分類等優(yōu)點(diǎn),又使得它具有極大的誘惑力。n 神經(jīng)網(wǎng)絡(luò)分類神經(jīng)網(wǎng)絡(luò)作為一個(gè)相對獨(dú)立的研究分支已經(jīng)很早被提出,有許多著作和文獻(xiàn)詳細(xì)介紹了它的原理。貝葉斯信念網(wǎng)絡(luò)(Bayesian Belief Network)是基于貝葉斯分類技術(shù)的學(xué)習(xí)框架,集中在貝葉斯信念網(wǎng)絡(luò)本身架構(gòu)以及它的推理算法研究上。Jone提出連續(xù)屬性值的內(nèi)核稠密估計(jì)的樸素貝葉斯分類方法[8],提高了基于普遍使用的高斯估計(jì)的準(zhǔn)確性。樸素貝葉斯分類(Naive Bayesian Classification)具有堅(jiān)實(shí)的理論基礎(chǔ),和其它分類方法比,理論上具有較小的出錯(cuò)率。n 貝葉斯分類貝葉斯分類(Bayesian Classification)來源于概率統(tǒng)計(jì)學(xué),并且在機(jī)器學(xué)習(xí)中被很好地研究。另一個(gè)比較著名的研究是Gehrke等人提出了一個(gè)稱為雨林(Rainforest)的在大型數(shù)據(jù)集中構(gòu)建決策樹的挖掘構(gòu)架[24] ,并在1999年提出這個(gè)模型的改進(jìn)算法BOAT[25]。在這方面的嘗試也很多,比較有代表性的研究有Agrawal等人提出的SLIQ[21]、SPRINT算法[22] ,它們強(qiáng)調(diào)了決策樹對大訓(xùn)練集的適應(yīng)性。這些算法都是從機(jī)器學(xué)習(xí)角度研究和發(fā)展起來的,對于大訓(xùn)練樣本集很難適應(yīng)。目前,有下面一些有代表性的技術(shù)被成功應(yīng)用到分類知識挖掘中:n 決策樹決策樹方法,在許多的機(jī)器學(xué)習(xí)書或論文中可以找到這類方法的詳細(xì)介紹。從這個(gè)意義上說,數(shù)據(jù)挖掘的目標(biāo)就是根據(jù)樣本數(shù)據(jù)形成的類知識并對源數(shù)據(jù)進(jìn)行分類、進(jìn)而也可以預(yù)測未來數(shù)據(jù)的歸類。由于數(shù)據(jù)挖掘是從源數(shù)據(jù)集中挖掘知識的過程,這種類知識也必須來自于源數(shù)據(jù),應(yīng)該是對源數(shù)據(jù)的過濾、抽?。ǔ闃樱?、壓縮以及概念提取等。分類的目的是學(xué)會一個(gè)分類模型(稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到給定類別中。和其它的文獻(xiàn)相對應(yīng),這里的類知識是指數(shù)據(jù)挖掘的分類和聚類兩類數(shù)據(jù)挖掘應(yīng)用所對應(yīng)的知識。關(guān)于關(guān)聯(lián)規(guī)則挖掘問題及其算法等,后面還會詳細(xì)敘述。在這個(gè)意義上,數(shù)據(jù)挖掘系統(tǒng)的目的就是從源數(shù)據(jù)庫中挖掘出滿足最小支持度和最小可信度的關(guān)聯(lián)規(guī)則。挖掘出的關(guān)聯(lián)規(guī)則必須滿足用戶規(guī)定的最小支持度,它表示了一組項(xiàng)目關(guān)聯(lián)在一起需要滿足的最低聯(lián)系程度。最為著名的是Agrawal等提出的Apriori及其改進(jìn)算法[2,18,19]。當(dāng)然,本節(jié)的關(guān)聯(lián)分析還是指一類特定的數(shù)據(jù)挖掘技術(shù),它集中在數(shù)據(jù)庫中對象之間關(guān)聯(lián)及其程度的刻畫。既然數(shù)據(jù)挖掘的目的是發(fā)現(xiàn)潛藏在數(shù)據(jù)背后的知識,那么這種知識一定是反映不同對象之間的關(guān)聯(lián)。這些關(guān)聯(lián)并不總是事先知道的,而是通過數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)分析獲得的,因而對商業(yè)決策具有新價(jià)值。關(guān)聯(lián)知識挖掘的目的就是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)信息。數(shù)據(jù)庫作為一種結(jié)構(gòu)化的數(shù)據(jù)組織形式,利用其依附的數(shù)據(jù)模型可能刻畫了數(shù)據(jù)間的關(guān)聯(lián)(如關(guān)系數(shù)據(jù)庫的主鍵和外鍵)。 關(guān)聯(lián)知識挖掘關(guān)聯(lián)知識(Association)反映一個(gè)事件和其它事件之間的依賴或關(guān)聯(lián)。概念分層結(jié)構(gòu)應(yīng)該由特定的背景知識決定,由領(lǐng)域?qū)<一蛑R工程師整理成合適的形式(如概念樹、隊(duì)列或規(guī)則等)并輸入到模式庫中。對這類對象可以作為背景知識定義它的結(jié)構(gòu),在數(shù)據(jù)挖掘的過程中可以根據(jù)具體的抽象層次通過編碼解析等操作完成概念的抽象。n 操作導(dǎo)出分層(OperationDrived Hierarchy)有些屬性可能是復(fù)雜對象,包含多類信息。n 集合分組分層(SetGrouping Hierarchy)將屬性在特定背景知識下的取值范圍合理分割,形成替代的離散值或區(qū)間集合。例如,作為一個(gè)跨國公司的銷售部門DEPT的模式分層結(jié)構(gòu)可能是:DEPT→COMPANY→CITY→COUNTRY。目前使用較多的概念分層方法有:n 模式分層(Schema Hierarchy)利用屬性在特定背景知識下的語義層次形成不同層次的模式關(guān)聯(lián)。例如,一個(gè)記錄銷售人員銷售情況的數(shù)據(jù)庫的表SALES(ENO,ENAME,EAGE,VALUE,DEPT),它的每個(gè)屬性的定義域都可能存在蘊(yùn)涵于領(lǐng)域知識內(nèi)的概念延伸。所謂概念分層實(shí)際上就是將低層概念集映射到高層概念集的方法。因此,探索多層次概念的描述機(jī)制是必要的。(2)多層次概念描述問題由數(shù)據(jù)歸納出的概念是有層次的,例如,location是“北京工業(yè)大學(xué)”,那么我們可能通過背景知識(Background Knowledge)歸納出“北京市”、“中國”、“亞洲”等不同層次的更高級概念。有了泛化關(guān)系后,就可以對它進(jìn)行各種深入的操作而生成滿足用戶需要的知識,如在泛化關(guān)系基礎(chǔ)上生成特性規(guī)則、判別規(guī)則、分類規(guī)則以及關(guān)聯(lián)規(guī)則等。它直接對用戶感興趣的數(shù)據(jù)視圖(用一般的SQL查詢語言即可獲得)進(jìn)行泛化,而不是像多維數(shù)據(jù)分析方法那樣預(yù)先就存儲好了泛化數(shù)據(jù)。近年來,在面向數(shù)據(jù)庫的廣義知識挖掘方面進(jìn)行了有針對性的研究。其實(shí),這種模型,特別是它操作的完備性(如上鉆、下鉆等),可以成為廣義知識發(fā)現(xiàn)的基礎(chǔ)。例如,可以存放每周的數(shù)據(jù),也可在月底形成月數(shù)據(jù),月數(shù)據(jù)又能形成年數(shù)據(jù)。最流行的存儲匯集數(shù)據(jù)類的方法是多維數(shù)據(jù)庫(Multidimension Database)技術(shù)。n 多維數(shù)據(jù)分析可以看作是一種廣義知識挖掘的有效方法數(shù)據(jù)分析的經(jīng)常性工作是數(shù)據(jù)的聚集,諸如計(jì)數(shù)、求和、平均、最大值等。第二,對于數(shù)據(jù)挖掘系統(tǒng)來說,正樣本來自于源數(shù)據(jù)庫,而負(fù)樣本是不可能在源數(shù)據(jù)庫中直接存儲的,但是缺乏對比類信息的概念歸納是不可靠的。要結(jié)合概率統(tǒng)計(jì)方法,在檢驗(yàn)部分正樣本或負(fù)樣本情況下得到概念的描述。傳統(tǒng)的機(jī)器學(xué)習(xí)希望是精練的小樣本集,而數(shù)據(jù)挖掘系統(tǒng)必須忠實(shí)于源數(shù)據(jù),是面向大容量數(shù)據(jù)庫等存儲數(shù)據(jù)集的。但是,要把這種思想應(yīng)用到數(shù)據(jù)挖掘中要解決兩個(gè)關(guān)鍵問題。我們知道,典型的示例學(xué)習(xí)把樣本分成正樣本和負(fù)樣本,學(xué)習(xí)的結(jié)果就是形成覆蓋所有正樣本但不覆蓋任何負(fù)樣本的概念描述。概念描述是廣義知識挖掘的重要方法,目前已經(jīng)得到廣泛研究。概念描述分為特征性(Characterization)描述和區(qū)別性(Discrimination)描述。被挖掘出的廣義知識可以結(jié)合可視化技術(shù)以直觀的圖表(如餅圖、柱狀圖、曲線圖、立方體等)形式展示給用戶,也可以作為其它應(yīng)用(如分類、預(yù)測)的基礎(chǔ)知識。數(shù)據(jù)挖掘的目的之一就是根據(jù)這些數(shù)據(jù)的微觀特性發(fā)現(xiàn)有普遍性的、更高層次概念的中觀和宏觀的知識。 廣義知識挖掘廣義知識(Generalization)是指描述類別特征的概括性知識。 數(shù)據(jù)挖掘常用的知識表示模式與方法數(shù)據(jù)挖掘的目的是發(fā)現(xiàn)知識,知識要通過一定的模式給出。當(dāng)然,這些分類方法都從不同角度,刻畫了數(shù)據(jù)挖掘研究的策略和范疇,他們是互相交叉而相互補(bǔ)充的。根據(jù)挖掘方法可以分為:機(jī)器學(xué)習(xí)方法、統(tǒng)計(jì)方法、聚類分析方法、探索性分析、神經(jīng)網(wǎng)絡(luò)(Neural Network)方法、遺傳算法(Genetic Algorithm)、數(shù)據(jù)庫方法、近似推理和不確定性推理方法、基于證據(jù)理論和元模式的方法、現(xiàn)代數(shù)學(xué)分析方法、粗糙集(Rough Set)方法、集成方法等。根據(jù)挖掘任務(wù)可以分為:分類或預(yù)測模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)與聚類發(fā)現(xiàn)、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、相似模式發(fā)現(xiàn)、混沌模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢發(fā)現(xiàn)等。為了弄清相關(guān)的概念和技術(shù)路線,仍有大量的工作等待我們?nèi)ヌ剿骱蛧L試。對于特定的研究和開發(fā)領(lǐng)域來說,它們是相互交叉并且有所側(cè)重的。這類研究的上升趨勢可以通過ACM SOGMOD’02會議的相關(guān)論文數(shù)量得到驗(yàn)證[13]。(7) 可視化數(shù)據(jù)挖掘(Visual Data Mining)1997年,Keim等對可視化數(shù)據(jù)挖掘的相關(guān)技術(shù)給出了綜述[12]。一個(gè)數(shù)據(jù)挖掘系統(tǒng)必須具有原始數(shù)據(jù)庫和模式庫,數(shù)據(jù)挖掘的過程就是歸納的數(shù)據(jù)查詢過程。按Chakrabarti等人的描述,最小描述長度(MDL Minimum Description Length )原理可以評價(jià)一個(gè)壓縮方法的優(yōu)劣,即最好的壓縮方法應(yīng)該是概念本身的描述和把它作為預(yù)測器的編碼長度都最小[10]。(5) 基于數(shù)據(jù)壓縮(Data Compression)理論在這種理論框架下,數(shù)據(jù)挖掘技術(shù)被看作是對數(shù)據(jù)的壓縮的過程[10] 。他們認(rèn)為,如果一個(gè)知識模式對一個(gè)企業(yè)是有效的話,那么它就是有趣的。(4) 微觀經(jīng)濟(jì)學(xué)觀點(diǎn)(Microeconomic View)在這種理論框架下,數(shù)據(jù)挖掘技術(shù)被看作是一個(gè)問題的優(yōu)化過程[9] 。特別是,最近十年,統(tǒng)計(jì)學(xué)已經(jīng)成為支撐數(shù)據(jù)倉庫、數(shù)據(jù)挖掘技術(shù)的重要理論基礎(chǔ)。統(tǒng)計(jì)學(xué)作為一個(gè)古老的學(xué)科,已經(jīng)在數(shù)據(jù)挖掘中得到廣泛的應(yīng)用。目前,這種方法在數(shù)據(jù)挖掘的分類和聚類研究和應(yīng)用中取得了很好的成果。(3) 基于概率和統(tǒng)計(jì)理論在這種理論框架下,數(shù)據(jù)挖掘技術(shù)被看作是從大量源數(shù)據(jù)集中發(fā)現(xiàn)隨機(jī)變量的概率分布情況的過程[1,8] 。他們給出了統(tǒng)一的挖掘模型和規(guī)則發(fā)現(xiàn)過程中的幾個(gè)基本運(yùn)算,解決了數(shù)據(jù)挖掘問題如何映射到模型和通過基本運(yùn)算發(fā)現(xiàn)規(guī)則的問題。近幾年,也已經(jīng)開始多模式的知識發(fā)現(xiàn)的研究。按著這種架構(gòu),我們可以針對不同的知識模式的發(fā)現(xiàn)過程進(jìn)行研究。結(jié)合最新的研究成果,有下面一些重要的理論框架可以幫助我們準(zhǔn)確地理解數(shù)據(jù)挖掘的概念與技術(shù)特點(diǎn):(1) 模式發(fā)現(xiàn)(Pattern Discovery)架構(gòu)在這種理論框架下,數(shù)據(jù)挖掘技術(shù)被認(rèn)為是從源數(shù)據(jù)集中發(fā)現(xiàn)知識模式的過程[1,2,4] 。從研究的歷史看,它們可能是數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計(jì)、計(jì)算機(jī)科學(xué)以及其它方面的學(xué)者和工程技術(shù)人員,在數(shù)據(jù)挖掘的探討性研究過程中創(chuàng)立的理論體系。經(jīng)過十幾年的探索,一些重要的理論框架已經(jīng)形成,并且吸引著眾多的研究和開發(fā)者為此進(jìn)一步工作,向著更深入的方向發(fā)展。雖然關(guān)于數(shù)據(jù)挖掘的理論基礎(chǔ)問題仍然沒有到完全成熟的地步,但是分析它的發(fā)展可以使我們對數(shù)據(jù)挖掘的概念更清楚。本文除了在第2章使用數(shù)據(jù)挖掘的廣義定義外,為了避免引起混淆,其它章節(jié)寧愿使用數(shù)據(jù)挖掘的狹義定義。從上面的描述中可以看出,數(shù)據(jù)挖掘概念可以在不同的技術(shù)層面上來理解,但是其核心仍然是
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1