freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

判別分析的數(shù)據(jù)挖掘研究畢業(yè)論文-資料下載頁(yè)

2025-06-28 12:54本頁(yè)面
  

【正文】 序回歸)分析算法,該算法在以前的版本中包含在 SPSS Advanced Models 附屬模塊中。在 中用戶可以直接在 Base 模塊中直接使用這種新的算法來(lái)對(duì)兩種以上的變量的次序輸出進(jìn)行預(yù)測(cè)。例如,預(yù)測(cè)客戶忠誠(chéng)度及其與客戶滿意度的相關(guān)性。 可編程性 SPSS 中包括了 SPSS Programmability Extension 功能,在 SPSS 命令語(yǔ)法語(yǔ)言的基礎(chǔ)上提供與其它編程語(yǔ)言的結(jié)合功能。用其它語(yǔ)言編寫(xiě)的程序代碼,如 Pythonamp。reg。,可以管理使用 SPSS 語(yǔ)法所編寫(xiě)的任務(wù)流。使用 SPSS 提供的擴(kuò)展編程功能和特性,讓 SPSS for Windows 成為了最強(qiáng)大的統(tǒng)計(jì)開(kāi)發(fā)平臺(tái)之一。 經(jīng)典關(guān)聯(lián)規(guī)則挖掘算法 1.Apriori算法Apriori算法是挖掘產(chǎn)生布爾關(guān)聯(lián)規(guī)則所需頻繁項(xiàng)集的基本算法;它也是一個(gè)很有影響的關(guān)聯(lián)規(guī)則挖掘算法。Apriori算法就是根據(jù)有關(guān)頻繁項(xiàng)集特性的先驗(yàn)知識(shí)而命名的。該算法利用了一個(gè)層次順序搜索的循環(huán)方法來(lái)完成頻繁項(xiàng)集的挖掘工作。這一循環(huán)方法就是利用k項(xiàng)集來(lái)產(chǎn)生(k+1)項(xiàng)集。具體做法就是:首先找出頻繁1項(xiàng)集,記為L(zhǎng)1;然后利用L1來(lái)挖掘L2 ,即頻繁2項(xiàng)集;不斷如此循環(huán)下去直到無(wú)法發(fā)現(xiàn)更多的頻繁k項(xiàng)集為止。每挖掘一層Lk就需要掃描整個(gè)數(shù)據(jù)庫(kù)一遍。 :(Apriori)利用層次循環(huán)發(fā)現(xiàn)頻繁項(xiàng)集。輸入:交易數(shù)據(jù)庫(kù)D最小支持閾值min_sup輸出:Li,D中的頻繁項(xiàng)集;處理流程:(1) L1=find_frequent_1_itemset(D);//發(fā)現(xiàn)1項(xiàng)集(2) for(k=2。Lk1≠。k++) {(3) Ck = apriorigen ( Lk1, min_sup)。 // 根據(jù)頻繁(k1)項(xiàng)集產(chǎn)生候選k項(xiàng)集(4) for each t 206。 D { //掃描數(shù)據(jù)庫(kù),以確定每個(gè)候選項(xiàng)集的支持頻度(5) Ct = subset( Ck, t )。 //獲得t所包含的候選項(xiàng)集(6) for each c 206。 Ct ++ 。 }(7) Lk = { c 206。 Ck | 179。 min_sup}(8) Return L=∪k Lk 。多層關(guān)聯(lián)規(guī)則挖掘 對(duì)于很多應(yīng)用來(lái)說(shuō),由于數(shù)據(jù)分布的分散性,所以很難在數(shù)據(jù)最細(xì)節(jié)的層次上發(fā)現(xiàn)一些強(qiáng)關(guān)聯(lián)規(guī)則。但我們引入概念層次后,就可以在就高的層次上進(jìn)行挖掘。雖然較高層次得到的規(guī)則可能是跟普通的信息,但是對(duì)于一個(gè)用戶來(lái)說(shuō)是普通的信息,對(duì)于另一個(gè)用戶卻未必如此。所以數(shù)據(jù)挖掘應(yīng)該提供一種在多個(gè)層次上進(jìn)行挖掘的功能。 多層關(guān)聯(lián)規(guī)則的挖掘基本上可以沿用“支持度可信度”的框架。一般地,可以采用自頂向下策略,由概念層1開(kāi)始向下,到較低的更特定的概念層,對(duì)每個(gè)概念層分別計(jì)算頻繁項(xiàng)集,直到不能再找到頻繁項(xiàng)集。也就是說(shuō)一旦找到概念層1的所有頻繁項(xiàng)集,開(kāi)始在第2層找頻繁項(xiàng)集,找出第2層所有頻繁項(xiàng)集后,在開(kāi)始找第3層,如此下去。對(duì)于每一層可以是用發(fā)現(xiàn)頻繁項(xiàng)集的任何算法,如前面介紹的Apriori算法及其任意變形。不過(guò),在支持度的設(shè)置問(wèn)題上有一些又考慮的東西。通常,根據(jù)規(guī)則中涉及到的層次,多層關(guān)聯(lián)規(guī)則可以分為同層關(guān)聯(lián)規(guī)則和層間關(guān)聯(lián)規(guī)則。序列模式挖掘是基于時(shí)間或者其它序列的經(jīng)常發(fā)生的模式。序列模式挖掘與關(guān)聯(lián)規(guī)則挖掘相似, 其目的也是為了挖掘數(shù)據(jù)之間的關(guān)系。但序列模式挖掘側(cè)重點(diǎn)在于分析數(shù)據(jù)間的前后序列關(guān)系。它能發(fā)現(xiàn)數(shù)據(jù)庫(kù)中形如“在某一段時(shí)間內(nèi), 顧客購(gòu)買(mǎi)商品A , 接著購(gòu)買(mǎi)商品B , 而后購(gòu)買(mǎi)商品C , 即序列A →B →C 出現(xiàn)的頻度較高”之類的知識(shí)。序列模式的概念及定義 1.?dāng)?shù)據(jù)源的形式 假設(shè)我們給定一個(gè)由客戶交易(customer transaction)組成的大型數(shù)據(jù)庫(kù)D,每個(gè)交易(transaction)由客戶號(hào)(customerid)、交易時(shí)間(transactiontime)及在交易中購(gòu)買(mǎi)的項(xiàng)(item)組成。同一個(gè)顧客在一個(gè)交易時(shí)間只能進(jìn)行一次交易,我們不考慮顧客在一次交易中所購(gòu)買(mǎi)物品的數(shù)量,每種物品都由一個(gè)二進(jìn)制變量代替,只關(guān)心一個(gè)項(xiàng)目在交易中被購(gòu)買(mǎi)與否。2.基本定義 序列模式的元素也可以不只是一個(gè)元素(如一本書(shū)),它也可以是一個(gè)項(xiàng)集(item set)。所謂項(xiàng)集,指的是多個(gè)物品組成的集合,內(nèi)部元素不分排列順序,比如“枕頭和枕頭套”就可以看作是由兩個(gè)項(xiàng)(item)組成的項(xiàng)集,它也可以作為某一個(gè)序列模式的元素。 一個(gè)序列(sequence)是一列排好序的項(xiàng)集。不失一般性我們假定項(xiàng)集中的項(xiàng)由一些連續(xù)整數(shù)代替,這樣一個(gè)項(xiàng)集i可以表示為(i1,i2…im),而這里的ij代表了一個(gè)項(xiàng)。一個(gè)序列s可以表示為s1,s2…sn,這里的sj代表的是一個(gè)項(xiàng)集。 設(shè)有兩個(gè)序列a a1,a2…an和b b1,b2…bm,如果存在整數(shù)i1i2…in且a1包含于bi1,a2包含于bi2,…,an包含于bin,則稱序列a包含于序列b。比如序列 (3) (4,5) (8) 包含于序列 (7) (3,8) (9) (4,5,6) (8) ,因?yàn)?3)包含于(3,8),(4,5)包含于(4,5,6)以及(8)包含于(8)。但是序列 (3) (5) 不包含于 (3,5) ,反之亦然。前者表示項(xiàng)3和項(xiàng)5是先后購(gòu)買(mǎi)的,而后者則表示項(xiàng)3和項(xiàng)5是同時(shí)購(gòu)買(mǎi)的,這就是區(qū)別所在。在一個(gè)序列集(a set of sequences)中如果序列s不包含于任何其他序列中,則稱序列s為最大的(maximal)。一個(gè)客戶所有的事務(wù)(transactions)可以綜合的看成是一個(gè)序列,每一個(gè)事務(wù)都由相應(yīng)的一個(gè)項(xiàng)集來(lái)表示。事務(wù)按交易時(shí)間序排列就成了一個(gè)序列。我們稱這樣的序列為客戶序列(customersequence)。通常,將一個(gè)客戶的交易按交易時(shí)間排序成T1 ,T2 ,……,Tn。Ti中的項(xiàng)集定義成itemset(Ti)。這樣,這個(gè)客戶的客戶序列就成了這樣的一個(gè)序列:〈itemset(T1) itemset(T2) … itemset(Tn)〉。 如果一個(gè)序列s包含于一個(gè)客戶序列中,則我們稱該客戶支持(support)序列s。一個(gè)具體序列的支持(support)定義為那一部分支持該序列的客戶總數(shù)。 給定一個(gè)由客戶交易組成的數(shù)據(jù)庫(kù)D,挖掘序列模式的問(wèn)題就是在那些具有客戶指定最小支持度(minimum support)的序列中找出最大序列(maximal sequence)。而每個(gè)這樣的最大序列就代表了一個(gè)序列模式(sequential pattern)。序列模式的發(fā)現(xiàn) 一個(gè)序列的長(zhǎng)度(length)是它所包含的項(xiàng)集(itemset)的總數(shù)。具有k長(zhǎng)度的序列稱為k序列。有兩個(gè)序列x和y,x,y表示x和y經(jīng)過(guò)連接運(yùn)算形成的新的序列。 一個(gè)項(xiàng)集i的支持是指那一部分在單次交易中買(mǎi)了項(xiàng)集i中的項(xiàng)的那一部分客戶。于是項(xiàng)集i和1序列i具有相同的支持。具有最小支持(minimum support)的項(xiàng)集稱為大項(xiàng)集(large itemset or litemset)。需要注意的是,大序列中的每一個(gè)項(xiàng)集都必須具有最小支持。因此,任何大序列都是大項(xiàng)集的列表所組成。 分5個(gè)具體階段來(lái)找出所有的序列模式。其找出過(guò)程分為: 排序階段、大項(xiàng)集階段、轉(zhuǎn)換階段、序列階段和選最大階段。序列階段的算法序列階段算法的基本結(jié)構(gòu)是對(duì)數(shù)據(jù)進(jìn)行多次遍歷。在每次遍歷中,我們從一個(gè)由大序列(large sequence)組成的種子集(seed set)開(kāi)始,利用這個(gè)種子集,可以產(chǎn)生新的潛在的大序列。在遍歷數(shù)據(jù)的過(guò)程中,我們計(jì)算出這些候選序列的支持度,這樣在一次遍歷的最后,我們就可以決定哪些候選序列是真正的大序列,這些序列構(gòu)成下一次遍歷的種子集。在第一次遍歷前,所有在大項(xiàng)集階段得到的具有最小支持度(minimum support)的大1序列組成了種子集。這里給出兩種算法,分別稱為countall和countsome。countall 累計(jì)所有大序 列,包括非最大序列(nonmaximal sequence),在找最大階段(maximal phase),這些非最大序列必須被刪除。給出一個(gè)countall算法,稱為AprioriAll,給出一個(gè)countsome算法,稱為AprioriSome。WEB挖掘隨著Internet的日益普及,人們通過(guò)Web接觸到了比以前多得多的數(shù)據(jù)和信息。然而,盡管Web上有海量的數(shù)據(jù),但由于Web頁(yè)面過(guò)于復(fù)雜、而且是無(wú)結(jié)構(gòu)的、動(dòng)態(tài)的,導(dǎo)致人們難以迅速、方便地在Web上找到所需要的數(shù)據(jù)和信息。在面臨如此龐大的信息空間以及Web組織無(wú)序化的情況下,搜索是解決網(wǎng)絡(luò)信息無(wú)序和混亂的一個(gè)基本方法,現(xiàn)代社會(huì)的競(jìng)爭(zhēng)趨勢(shì)要求能夠?qū)@些信息進(jìn)行實(shí)時(shí)和深層次的分析,因此,如何利用數(shù)據(jù)挖掘知識(shí),進(jìn)一步提高Web信息搜索的性能成為眾多學(xué)者研究的熱點(diǎn)。 Web挖掘就是從Web文檔和Web活動(dòng)中抽取感興趣的、潛在的有用模式和隱藏的信息。Web挖掘可以在確定權(quán)威頁(yè)面、Web文檔分類、Web Log挖掘、智能查詢等在很多方面發(fā)揮作用。與傳統(tǒng)數(shù)據(jù)挖掘技術(shù)所面對(duì)的數(shù)據(jù)相比,Web挖掘的數(shù)據(jù)源具有以下特點(diǎn): (1)對(duì)有效的數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘而言,Web似乎太龐大了。Web的數(shù)據(jù)量目前以Terabytes計(jì)算,而且仍然在迅速地增長(zhǎng)。這使得幾乎不可能去構(gòu)造一個(gè)數(shù)據(jù)倉(cāng)庫(kù)來(lái)復(fù)制、存儲(chǔ)或集成Web上的所有數(shù)據(jù)。 (2)Web頁(yè)面的復(fù)雜性高于任何傳統(tǒng)的文本文檔。Web頁(yè)面缺乏統(tǒng)一的結(jié)構(gòu),它包含了遠(yuǎn)比任何一組書(shū)籍或文本文檔多得多的風(fēng)格和內(nèi)容。(3)Web是一個(gè)動(dòng)態(tài)性極強(qiáng)的信息源。Web不僅以極快的速度增長(zhǎng),而且其信息還在不斷地發(fā)生著更新。新聞、股票市場(chǎng)、公司廣告和Web服務(wù)中心都在不斷地更新著各自的頁(yè)面。鏈接信息和訪問(wèn)記錄也在頻繁地更新之中。(4)Web面對(duì)的是一個(gè)廣泛的形形色色的用戶群體。目前因特網(wǎng)用戶在不斷的快速增加,各個(gè)用戶可以有不同的背景、興趣和使用目的。大部分的用戶并不了解信息網(wǎng)絡(luò)結(jié)構(gòu),不清楚搜索的高昂代價(jià),極易在網(wǎng)絡(luò)中迷失方向,也極易在跳躍式的訪問(wèn)中煩亂不已和在等待中失去耐心。因此web挖掘應(yīng)能根據(jù)不同的用戶提供個(gè)性化的服務(wù)。(5)web上的信息只有很小的一部分是相關(guān)的或有用的。因?yàn)槊總€(gè)用戶可能只關(guān)心很小的對(duì)自己有用的一部分信息,其余的信息對(duì)這個(gè)用戶來(lái)說(shuō)就是不感興趣的,而且會(huì)淹沒(méi)所希望搜索的結(jié)果。 Web 是一個(gè)巨大的、廣泛分布的、異構(gòu)的、半結(jié)構(gòu)的、超文本P超媒體的、相互聯(lián)系并且不斷變化的信息倉(cāng)庫(kù), 其中包括鏈接信息、訪問(wèn)使用信息等。這大量的非結(jié)構(gòu)化數(shù)據(jù)是無(wú)法使用現(xiàn)有數(shù)據(jù)庫(kù)管理系統(tǒng)來(lái)處理和管理的, 這就對(duì)Web 進(jìn)行有效的信息抽取和知識(shí)發(fā)現(xiàn)帶來(lái)了極大的挑戰(zhàn), 也使得Web 數(shù)據(jù)挖掘更加復(fù)雜。web上的信息的多樣性決定了web數(shù)據(jù)挖掘的多樣性。按照處理對(duì)象的不同我們將web數(shù)據(jù)挖掘分為三大類:Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web使用記錄挖掘。 隨著網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)挖掘技術(shù)的發(fā)展,從應(yīng)用的角度來(lái)看,目前有這樣一些研究熱點(diǎn):網(wǎng)站的數(shù)據(jù)挖掘、生物信息和DNA數(shù)據(jù)分析的數(shù)據(jù)挖掘、文本數(shù)據(jù)挖掘等幾個(gè)方
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1