freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)論文數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則和序列模式(存儲版)

2025-08-22 19:36上一頁面

下一頁面
  

【正文】 【實踐部分 】 A. 程序說明 程序 找出大項集,代碼段如下: 1. include // 包含一些預(yù)定義的頭文件 2. include 3. include 4. include 5. include 6. include 7. include 8. include 9. include 10. include 11. 12. ifdef _DEBUG 13. undef THIS_FILE 14. static char THIS_FILE[]=__FILE__。 30. 31. FindLitemsets::FindLitemsets() 32. { 33. int index = 1。 41. LIset_1 exLIset_1v。 58. ()。 75. fSupp = fSupp + 。 96. 97. if(()) 98. { 99. coutexLIset_1 is opened.。 113. = 1。 126. ()。 141. } 142. 143. temp = index 1。 157. m_Cust = 。 175. m_Tran = 。 191. } 192. } 193. } 194. else 195. { 196. ()。 209. ()。 219. ()。 230. } 231. } 232. ()。第一次遍歷從 Item 表中取出每一項與 SourceTable 表中的項進行比較,對同一個客戶的同一次交易,如果該交易包含了此項集 (第一次只是一個項 ),那么對此項集的支持度加 1,跳過所有該客戶的交易,繼續(xù)對下一個客戶進行比較和匹配。 數(shù)據(jù)挖掘是一個嶄新的計算機應(yīng)用領(lǐng)域,它將極大地促進信息對于人類社會進步所起的作用。謝謝你們。本設(shè)計是一個國家 863 項目的一部分內(nèi)容,對這些方面的問題進行了初步的探討。程 序 與數(shù)據(jù)源之間的連接以調(diào)用 ODBC 實現(xiàn)。 228. exch++。 216. 217. ()。 207. = fSupp。 185. ()。 167. if(()) 168. { 169. break。 151. } 152. m_Itemidv = 。 136. 137. while(!()) //對 LarItem_2 表的初始操作 138. { 139. ()。 121. fSupp = 。 數(shù)數(shù) 據(jù)據(jù) 挖挖 掘掘 中中 的的 關(guān)關(guān) 聯(lián)聯(lián) 規(guī)規(guī) 則則 和和 序序 列列 模模 式式 20 111. = m_Itemid。 87. } 88. } 89. else 90. { 91. ()。 73. m_Cust = 。 53. ()。 39. IIset exIIset。 // 用以保存 SourceTable 中的三個記錄字段 28. extern CString m_Cust。下一步,除了 4 5以外 L2 中所有序列都被刪除,因為它們都包含于某一個更長的序列中。我們不計算 C3,因此也不產(chǎn)生 L3。 在回溯階段 (backward phase),我們對那些在前推階段 (forward phase)忽略的長度的序列進行計算。 end 附圖 函數(shù) 這個函數(shù)的功能是確定對哪些序列進行計數(shù),在對非最大序列 (nonmaximal sequence)計數(shù)時間的浪費和計算擴展小候選序列 (extensions of small candidate sequences)之間作出權(quán)衡。比如,前推階段我們對長度為 1, 2, 4,和 6 的序列計數(shù) (計算支持度 ),而長度為 3 和 5 的序列則在回溯階段中計數(shù)。 Ck1 ? ? and Llast ? ?。對于數(shù)據(jù)的第一次遍歷是在大項集階段進行的。該函數(shù)實現(xiàn)步驟如下: 第一步,聯(lián)合 insert into Ck select ,… , from Lk1p,Lk1q where = ,… , = 。Lk1 ? ?。在第一次遍歷前,所有在大項集階段得到的具有最小支持度 (minimum support)的大 1序列 (large 1sequence)組成了種子集。在下一部分我們將討論這個階段的算法。如果一條交易不包含任何大項集,在轉(zhuǎn)換完成的序列中它將不被保留。因為這個集合就是 {l | l ?L}。于是項集 i 和 1序列 i具有相同的 支持 。 序列 (10,20) (30) 是一個不具備最小支持的 例子,它只被客戶 2所支持。而每個這樣的 最大序數(shù)數(shù) 據(jù)據(jù) 挖挖 掘掘 中中 的的 關(guān)關(guān) 聯(lián)聯(lián) 規(guī)規(guī) 則則 和和 序序 列列 模模 式式 10 列 就代表了一個 序列模式 (sequential pattern)。我們稱這樣的序列為 客戶序列(customersequence)。一個 序列 s 可以表示為 s1,s2… sn,這里的 sj代表的是一個項集。 注:在以 上算法中,支持度是對交易 (transaction)而言的,但在序列模式的計算中,大項集的支持度是對客戶 (customer)數(shù)而言的,故程序需做相應(yīng)的部分改動。 // Candidates contained in t forall candidates c ? Ct do ++。 (2) 利用大項集 (litemsets)產(chǎn)生所需的規(guī)則 (rules)。因為物品概念間存在一種層次關(guān)系,如夾克衫、滑雪衫屬于外套類,外套、襯衣又屬于衣服類。 (3) 稱規(guī)則 X→ Y 在事務(wù)數(shù)據(jù)庫 D 中具有大小為 c 的可信度,如果 D 中支持物品 集 X 的事務(wù)中有 c%的事務(wù)同時也支持物品集 Y。在這條規(guī)則中,“年齡在 40 歲以上”是物品甲,“工作在 A 區(qū)”是物品乙,“向保險公司索賠過”則是物品丙。這些數(shù)據(jù)中常常隱含形式如下的關(guān)聯(lián)規(guī)則:在購買鐵錘的顧客當(dāng)中,有70 %的人同時購買了鐵釘 。由此可見 ,從事務(wù)數(shù)據(jù)中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則并以此為基礎(chǔ)挖掘 出序列模式 ,對于改進零售業(yè)等商業(yè)活動的決策非常重要。以下對其總體概念作一些說明并討論其應(yīng)用方向。分類模式、回歸模式、時間序列模式也被認為是受監(jiān)督知識,因為在建立模式前數(shù)據(jù)的數(shù)數(shù) 據(jù)據(jù) 挖挖 掘掘 中中 的的 關(guān)關(guān) 聯(lián)聯(lián) 規(guī)規(guī) 則則 和和 序序 列列 模模 式式 5 結(jié)果是已知的,可以直接用來檢測模式的準(zhǔn)確性,模式的產(chǎn)生是在受監(jiān)督的情況下進行的。一般來說,業(yè)務(wù)知識豐富的人應(yīng)該可以理解這些組的含義,如果產(chǎn)生的模式無法理解或不可用,則該模式可能是無意義的,需要回到上階段重新組織數(shù)據(jù)。分類模式往往表現(xiàn)為一棵分類樹,根據(jù)數(shù)據(jù)的值從樹根開始搜索,沿著數(shù)據(jù)滿足的分支往上走,走到樹葉就能確定類別。 預(yù)測型模式 是可以根據(jù)數(shù)據(jù)項的值精確確定某種結(jié)果的模式。目前大多數(shù)的研究都集中在數(shù)據(jù)挖掘算法和應(yīng)用上。實際上,數(shù)據(jù)庫中的知識發(fā)現(xiàn)是一門交叉性學(xué)科,涉及到機器學(xué)習(xí)、模式識別、統(tǒng)計學(xué)、智能數(shù)據(jù)庫、知識獲取、數(shù)據(jù)可視化、高性能計算、專家系統(tǒng)等多個領(lǐng)域。 【術(shù) 語】 1. 知識發(fā)現(xiàn) —— KDD(Knowledge Discovery in Databases)用數(shù)據(jù)庫管理系統(tǒng)來存儲 數(shù) 據(jù),用機器學(xué)習(xí)的方法來分析數(shù)據(jù),挖掘大量數(shù)據(jù)背后的知識, 稱 為數(shù)據(jù)庫中的知識發(fā)現(xiàn) 2. 數(shù)據(jù)挖掘 —— 數(shù)據(jù)挖掘 (Data Mining)就是從大量的、不完全的、有噪聲的、模 糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但 又是潛在有用的信息和知識的過程 【背景概述】 隨著數(shù)據(jù)庫技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,人們積累的數(shù)據(jù)越來越多。本文就數(shù)據(jù)挖掘 中的兩種 模式 : 關(guān)聯(lián)規(guī)則 (Association Rules)和 序列模式(Sequential Patterns)的概念和作用進行了探討,對關(guān)聯(lián)規(guī)則中尋找大項集 (Large Item Set)的部分用程序加以實現(xiàn),并對此兩個模式的實現(xiàn)過程用程序流程的方式加以說明,討論了幾種不同的實現(xiàn)算法。 用數(shù)據(jù)庫 管理系統(tǒng)來存儲數(shù)據(jù),用機器學(xué)習(xí)的方法來分析數(shù)據(jù),挖掘大量數(shù)據(jù)背后的知識,這兩者的結(jié)合促成了數(shù)據(jù)庫中的知識發(fā)現(xiàn) (KDD: Knowledge Discovery in Databases)的產(chǎn)生。數(shù)據(jù)挖掘算法的好壞將直接影響到所發(fā)現(xiàn) 知識的好壞。 模式有很多種,按功能可分有兩大類:預(yù)測型 (Predictive)模式和描述型 (Descriptive)模式。 數(shù)數(shù) 據(jù)據(jù) 挖挖 掘掘 中中 的的 關(guān)關(guān) 聯(lián)聯(lián) 規(guī)規(guī) 則則 和和 序序 列列 模模 式式 4 在實際應(yīng)用中,往往根據(jù)模式的實際作用細分為以下 6 種: 1. 分類模式 分類模式是一個分類函數(shù) (分類器 ),能夠把數(shù)據(jù)集中的數(shù)據(jù)項映射到某個給定的類上。與分類模式不同,進行聚類前并不知道將要劃分成幾個組和什么樣的組,也不知道根據(jù)哪一 (幾 )個數(shù)據(jù)項來定義組。分類模式和回歸模式是使用最普遍的模式。 C. 具體任務(wù)及其應(yīng)用 挖掘的序列模式,也就是從序列組成的數(shù)據(jù)庫 (sequence database)中找出出現(xiàn)頻繁的子序列 (subsequences),它是一項重要的數(shù)據(jù)挖掘任務(wù)。例如 ,可以幫助如何擺放貨架上的商品 (如把顧客經(jīng)常同時買的商品放在一起 ),幫助如何規(guī)劃市場 (怎樣相互搭配進貨 )。例如超級市場利用前端收 款機收集存儲了大量的售貨數(shù)據(jù),這些數(shù)據(jù)是一條條的購買事務(wù)記錄,每條記錄存儲了事務(wù)處理時間,顧客購買的物品、物品的數(shù)量及金額等。通過分析這些數(shù)據(jù),可以得到類似以下這樣的關(guān)聯(lián)規(guī)則:年齡在 40 歲以上,工作在 A 區(qū)的投保人當(dāng)中,有 45 %的人曾經(jīng)向保險公司索賠過。 (2) 稱關(guān)聯(lián)規(guī)則 X→ Y 在事務(wù)數(shù)據(jù)庫 D 中具有大小為 s的支持度,如果物品集 X∪ Y 的支持度為 s。 在實際情況下,一種更有用的關(guān)聯(lián)規(guī)則是泛化關(guān)聯(lián)規(guī)則。 c.) 有關(guān)算法的討論 (1) 找出所有具有超出最小支持度的支持度的項集 (itemsets),由 Apriori 算法實現(xiàn)。 // New candidates,見附圖 _a. 數(shù)數(shù) 據(jù)據(jù) 挖挖 掘掘 中中 的的 關(guān)關(guān) 聯(lián)聯(lián) 規(guī)規(guī) 則則 和和 序序 列列 模模 式式 8 forall transactions t ? D do begin Ct = subset ( Ck, t )。這樣我們得到的 C4 中只剩下 {1 2 3 4}。 (2) 序列 (sequence)是一列排好序的 項集 不失一般性我們假定項集中的項由一些連續(xù)整數(shù)代替,這樣一個 項集 i 可以表示為(i1,i2… im),而這里的 ij 代表了一個項。事務(wù)按交易時間序排列就成了一個序列。 給定一個由客戶交易組成的數(shù)據(jù)庫 D,挖掘序列模式的問題就是在那些具有客戶指定 最小支持度 (minimum support)的序列中找出 最大序列 (maximal sequence)??蛻?2 在買項 60 的同時也買了項 40 和項 70,但仍然支持這個模式,因為 (40,70)是(40,60,70)的一個子集。 一個項集 i 的 支持 (support)是指那一部分在單次交易中買了項集 i 中的項的那一部分客戶。我們也同步得到所有大 1序列組成的集合。 在轉(zhuǎn)換完成的客戶序列中,每條交易 (transaction)被其所包含的所有大項集所取代。 Customer Id
點擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1