正文內(nèi)容

畢業(yè)論文一個(gè)不需要產(chǎn)生候選集的頻繁集挖掘算法的分析與實(shí)現(xiàn)-資料下載頁

2025-07-13 19:31本頁面

【導(dǎo)讀】關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘是一個(gè)重要的研究內(nèi)容。而產(chǎn)生頻繁集則是產(chǎn)生關(guān)聯(lián)規(guī)則的第一。在大多數(shù)以前的實(shí)現(xiàn)中，人們普遍采用了類似于Apriori[2]的算法。很大的缺點(diǎn)，就是使用了不斷產(chǎn)生候選集并加以測(cè)試的方式來得到頻繁集。集的代價(jià)是很大的。本文分析并且實(shí)現(xiàn)了在論文[1]中提出的FP-growth算法。FP-growth算法的優(yōu)點(diǎn)是節(jié)。省時(shí)間和空間，對(duì)大規(guī)模數(shù)據(jù)采用分治的辦法以避免規(guī)模巨大難以接受。FP-tree是一個(gè)數(shù)據(jù)庫里跟產(chǎn)生頻繁集有關(guān)的信息的壓縮表示。通過了一系列的從低到高的數(shù)據(jù)結(jié)構(gòu)來實(shí)現(xiàn)它，并進(jìn)而實(shí)現(xiàn)整個(gè)算法。平臺(tái)，編程工具是VisualC++，許多地方還用到了C++的標(biāo)準(zhǔn)模板庫。聯(lián)規(guī)則找尋的第一步就是要找到相應(yīng)的頻繁集.現(xiàn)了FP-growth算法,并將它作為一個(gè)使用數(shù)據(jù)挖掘工具,ARMiner的一部分.第3部分討論關(guān)聯(lián)規(guī)則的一些問題.模式、規(guī)律和約束等看作知識(shí)?；瑳Q策支持和過程控制等，還可以用于數(shù)據(jù)自身的維護(hù)。語言表達(dá)所發(fā)現(xiàn)的結(jié)果。笑片”大話西游”,該網(wǎng)站會(huì)提醒你,

　　

【正文】 (也就是支持度小于最小支持度的項(xiàng) )都被排在最后面 ,最后通過語句 while(tit!=dbitend()amp。amp。titcount) tit++。 if(tit!=dbitend())dbiterase(tit,dbitend())。把它們?nèi)縿h除掉 . (f8) Node* SetupFP(FreqSet* pSet,Table* pTable,DB* pDB)。這是 Algorithm1(...)中最關(guān)鍵的一個(gè)函數(shù) .它通過上面幾步建立頻繁項(xiàng)集合 pSet,頭表pTable,每個(gè)交易都已經(jīng)排序好的數(shù)據(jù)庫 pDB 得到一棵 FPtree. 該函數(shù)的主要清單如下 : for(dit=pDBbegin()。dit!=pDBend()。dit++){//對(duì)數(shù)據(jù)庫中每個(gè)交易 node=root。 for(tit=ditbegin()。tit!=ditend()。tit++){對(duì)某個(gè)交易中的每個(gè)項(xiàng) Node* temp。 temp=find_node(nodepChildrenbegin(),nodepChildrenend(),titname)。 if(temp==NULL){ //如果子節(jié)點(diǎn)中沒有要找的項(xiàng)則創(chuàng)建一個(gè) Node* temp2=(Node*)new Node。 temp2name=titname。 temp2count=titcount。 nodepChildrenpush_back(temp2)。一個(gè)不需要產(chǎn)生候選集的頻繁集產(chǎn)生算法的分析與實(shí)現(xiàn) １７ temp2pParent=node。 node=temp2。 }else{ tempcount+=titcount。//否則 ,增加該項(xiàng)的支持度 node=temp。 continue。 } fit=pSetfind(nodename)。 tait=*((Table_Iter*)fit)。//通過頻繁項(xiàng)集合 pSet 中項(xiàng)的 lpvoid 域 //找到相應(yīng)頭表表項(xiàng) nodenode_link=taithead_link。//更新頭表表項(xiàng)中的 node_link taithead_link=node。 } } 關(guān)于該函數(shù)的情況 ,請(qǐng)看程序清單中的注釋。在算法的描述中只規(guī)定了根節(jié)點(diǎn)的標(biāo)記為 ”null”,并沒有要求它和其它的節(jié)點(diǎn)一樣具有count 和 node_link 域 .為了不用給根節(jié)點(diǎn)另外建立一個(gè)類 ,就簡單使用了一般節(jié)點(diǎn)的類 Node.把其中的 count 設(shè)為 0,node_link 設(shè)為 null. Node* find_node(NVector_Iter f,NVector_Iter l,CString name)在子節(jié)點(diǎn)的集合中查找是否含有 name 的子節(jié)點(diǎn) ,并返回之 ,若無 ,則返回 ,其原因已經(jīng)在數(shù)據(jù)結(jié)構(gòu)部分的 ”NodeVector和 Node”中說明了 . (f9) void Algorithm2(Node* tree,Table* pTable,DB *pDB,Trans set){ if(tree==NULL)return。 Node* tree2=tree。 if(HasNoBranch(tree)){//如果 tree 沒有分支 Trans set2。 while(true){//把 tree 的唯一路徑上面的所有節(jié)點(diǎn)都放入 set2 中 if(treename!=) (Item(treename,treecount))。 if(treepChildrenempty())break。 tree=*treepChildrenbegin()。 } Generate1(set2,pDB,set)。//產(chǎn)生頻繁集 }else{ Table_Iter tit。 for(tit=pTableend()。tit!=pTablebegin()。){//從尾到頭遍歷每一個(gè)頭表表項(xiàng) DB* db。 tit。 int count。 db=Generate2(tithead_link,count)。//tit Table* table。 Node* node。 if(!dbempty()) 一個(gè)不需要產(chǎn)生候選集的頻繁集產(chǎn)生算法的分析與實(shí)現(xiàn) １８ Algorithm1(db,node,table)。 delete db。 Trans set2(set)。 (Item(titname,count))。 Algorithm2(node,table,pDB,set2)。 } } delete tree2。 delete pTable。 } 函數(shù) (f9)基本對(duì)應(yīng)于算法描述中的算法二 .它接受一棵由 (f4) 產(chǎn)生的 FPtree,node,相應(yīng)頭表 pTable,一個(gè)存放找到的頻繁集的數(shù)據(jù)庫結(jié)構(gòu) pDB,和存放中間模式的 pSet. Trans 類和 DB 類本來是用來存放交易和交易數(shù)據(jù)庫的 ,這里又用它來存放頻繁集和頻繁集數(shù)據(jù)庫 .頻繁集和交易的數(shù)據(jù)結(jié)構(gòu)在算法描述的時(shí)候是不太一樣的 . 交易和頻繁集都需要記錄項(xiàng) .但是交易需要對(duì)每個(gè)項(xiàng)都記錄相應(yīng)的支持度 ,一個(gè)頻繁集卻只需要一個(gè)支持度 .為了方便對(duì)它們采用了相同的數(shù)據(jù)結(jié)構(gòu) .但是頻繁集中每個(gè)項(xiàng)的支持度都是相同的 . 在該函數(shù) 中使用了函數(shù) (f10)(f). (f10) bool HasNoBranch(Node* tree){ NVector_Iter nit。 while(tree){ if(treepChildrenempty())return true。//若 tree 節(jié)點(diǎn)沒有子節(jié)點(diǎn) ,返回 true nit=treepChildrenbegin()。//nit 為 tree 的第一個(gè)子節(jié)點(diǎn) nit++。//得到第二個(gè)子節(jié)點(diǎn) if(nit!=treepChildrenend())//若第二個(gè)子節(jié)點(diǎn)存在 return false。//返回 false tree=(*nit)。//節(jié)點(diǎn)向下移動(dòng) } return true。 } 這個(gè)函數(shù)判斷以 tree 為根節(jié)點(diǎn)的樹是否只有一條路徑 . 具體的執(zhí)行方式參見源代碼中的注釋 . (f11) void Generate1(Transamp。 set2,DB* pDB,Transamp。 set) { int size=()。 unsigned int maxsize=pow(2,size)。 bitint bit。 int count。 if(()){//如果 set2 為空 if(())return。//如果 set 也為空 ,返回 count=()count。//否則這里產(chǎn)生的頻繁集的支持度為 set 的支持度 }else{如果 set2 不為空一個(gè)不需要產(chǎn)生候選集的頻繁集產(chǎn)生算法的分析與實(shí)現(xiàn) １９ Trans_Iter tit=()。 tit。 count=titcount。//頻繁集的支持度是 set2 中最小的 ,即最后一個(gè) } for(。bitmaxsize。bit++){//產(chǎn)生頻繁集 { Trans trans。 int i=0。 Trans_Iter tit。 for(i=0,tit=()。tit!=()。tit++,i++){ if(bit[i]) (Item(titname,count))。 } for(tit=()。tit!=()。tit++) (Item(titname,count))。 if(!()) pDBpush_back(trans)。 } } } 該函數(shù)的作用是將每一個(gè) set2中項(xiàng)的組合與 set合并 ,其結(jié)果即為一個(gè)頻繁集 ,然后將產(chǎn)生的頻繁集放入 pDB 中 . bitint 是我自己定義的一個(gè)類 .它跟產(chǎn)生一個(gè)集合的所有組合有關(guān) . bitint 實(shí)際上是一個(gè)無符號(hào)長整數(shù) ,但我們可以根據(jù)其中的成員函數(shù)得到這個(gè)無符號(hào)長整數(shù)的每一個(gè)比特位為 0 還是為 0 每次加 1,遞增到 pow(2,n)1,選出那些比特位為 1 所代表的元素就得到了有 n 個(gè)元素的集合的所有組合 . (f12) DB* Generate2(Node* node,intamp。 retcount){ DB* pDB=(DB*)new DB。 retcount=0。 while(node){ Trans trans。 Node* node2=nodepParent。 int count=nodecount。 while(node2name!=){ (Item(node2name,count))。 node2=node2pParent。 } retcount+=count。 pDBpush_back(trans)。 node=nodenode_link。 } return pDB。一個(gè)不需要產(chǎn)生候選集的頻繁集產(chǎn)生算法的分析與實(shí)現(xiàn) ２０ } 該函數(shù)的作用是根據(jù)從頭表表項(xiàng)的 node_link 指針中得到的節(jié)點(diǎn)產(chǎn)生一個(gè)條件模式庫(conditional pattern base). 它的工作方式很簡單 .先從第一個(gè)節(jié)點(diǎn)向上尋找 ,把該節(jié)點(diǎn)的祖先節(jié)點(diǎn) (除了根節(jié)點(diǎn)以外 )都放到一個(gè)交易對(duì)象里面 ,然后把這個(gè)交易放到函數(shù)開頭生成的數(shù)據(jù)庫對(duì)象 pDB 里面 .接著通過 node_link 轉(zhuǎn)到下一個(gè)節(jié)點(diǎn) ,進(jìn)行相同的處理 ,直到 node_link 指向空值 . 我掌握了數(shù)據(jù)挖掘的基本知識(shí)后 ,就開始針對(duì)論文 [1]中所提出的算法進(jìn)行程序設(shè)計(jì) .這個(gè)算法主要是跟關(guān)聯(lián)規(guī)則有關(guān)系 ,所以注意力比較集中在跟關(guān)聯(lián)規(guī)則有關(guān)的問題上 ,閱讀了一些專門闡述關(guān)聯(lián)規(guī)則的論文如 [2],[5]等 .在設(shè)計(jì)程序的時(shí)候 ,為了使數(shù)據(jù)結(jié)構(gòu)的使用達(dá)到最大的優(yōu)化 ,還閱讀了許多 STL 的源代碼 . 關(guān)于程序 ,應(yīng)該說比較完整了 ,剩下的步驟就是把它集成到 ARMiner 里面去了 . 在這段時(shí)間里 ,通過程序的編寫和論文的寫作掌握了數(shù)據(jù)挖掘的基本知識(shí)，對(duì)關(guān)聯(lián)規(guī)則有了比較多的認(rèn)識(shí) ,對(duì)頻繁集產(chǎn)生的各個(gè)算法有了比較深入的探討 .對(duì)我的編程能力和自我學(xué)習(xí)的能力也是一個(gè)考驗(yàn) . 最后 ,我要感謝在這段時(shí)間內(nèi)對(duì)我的工作進(jìn)行指導(dǎo)的朱揚(yáng)勇教授 .他在本學(xué)期開設(shè)的一門數(shù)據(jù)庫的課程使我對(duì)原來對(duì)數(shù)據(jù)庫系統(tǒng)抽象的認(rèn)識(shí)更加深刻和感性了 ,對(duì)數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的講解使我來說是全新的 ,有吸引力的 . 我要感謝朱建秋 ,蔡偉杰 ,張曉輝三位研究生 .他們?cè)谖夜ぷ鞯拿恳粋€(gè)過程都及時(shí)的提出建議和給予指導(dǎo) . 還有他們?nèi)唤⒌囊粋€(gè)傳播數(shù)據(jù)挖掘知識(shí)的論壇 ,知道了什么是數(shù)據(jù)挖掘 ,在寫論文的過程中又不斷從那里得到不可或缺的幫助 . 參考文獻(xiàn) ： [1] Jiawei Han,Jian Pei,and Yiwen Frequent Patterns without Candidate Generation [2] Rakesh Agrawal,Ramakrjshnan Srjkant. Fast Algorithms for Mining Association of the 20th VLDB Conference. [3] 朱揚(yáng)勇 ,周欣 ,施伯樂 . 規(guī)則型數(shù)據(jù)采掘工具集 AMINER. 20xx , 高技術(shù)通訊 . [4] 數(shù)據(jù)挖掘入門 . 朱揚(yáng)勇 . [5] 一個(gè)基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)采掘工具的設(shè)計(jì)和實(shí)現(xiàn) . 朱建秋 , 周皓峰 , 朱揚(yáng)勇 , 施伯樂

點(diǎn)擊復(fù)制文檔內(nèi)容

公司管理相關(guān)推薦

本科畢業(yè)論文__數(shù)據(jù)挖掘k均值算法實(shí)現(xiàn)-資料下載頁

【總結(jié)】本科生畢業(yè)論文設(shè)計(jì)數(shù)據(jù)挖掘K-均值算法實(shí)現(xiàn)作者姓名：郝蓓指導(dǎo)教師：郭瑞強(qiáng)所在學(xué)院：數(shù)學(xué)與信息科學(xué)學(xué)院專業(yè)（系）：計(jì)算機(jī)科學(xué)與技術(shù)班級(jí)（屆）：2022屆計(jì)算機(jī)班二零一三年五月二日目錄中文

2025-01-16 18:16

des算法的實(shí)現(xiàn)及安全性分析畢業(yè)論文-資料下載頁

【總結(jié)】DES算法的實(shí)現(xiàn)及安全性分析專業(yè)班級(jí)：計(jì)算機(jī)科學(xué)與技術(shù)1班姓名：廖孜孜學(xué) 號(hào)：120103011126完成日期：2015年5月17日引言如果一個(gè)密碼體制的加密密鑰等于脫密密鑰，或者其中一個(gè)很容易推出

2025-06-28 08:26

des算法的實(shí)現(xiàn)及安全性分析畢業(yè)論文-資料下載頁

【總結(jié)】畢業(yè)設(shè)計(jì)論文DES算法的實(shí)現(xiàn)及安全性分析畢業(yè)設(shè)計(jì)（論文）原創(chuàng)性聲明和使用授權(quán)說明原創(chuàng)性聲明本人鄭重承諾：所呈交的畢業(yè)設(shè)計(jì)（論文），是我個(gè)人在指導(dǎo)教師的指導(dǎo)下進(jìn)行的研究工作及取得的成果。盡我所知，除文中特別加以標(biāo)注和

2025-03-02 23:44

基于fpga的svpwm算法的實(shí)現(xiàn)畢業(yè)論文-資料下載頁

【總結(jié)】基于FPGA的SVPWM算法的實(shí)現(xiàn)摘要：為了數(shù)字實(shí)現(xiàn)SVPWM的算法，文中采用了以FPGA作為硬件基礎(chǔ)，給出了基于FPGA的SVPWM算法的具體算法以及軟件設(shè)計(jì)。文中使用VerilogHDL編寫FPGA程序，采用語句和圖形編輯相結(jié)合的方式進(jìn)行編程以達(dá)到程序結(jié)構(gòu)清晰的目的。程序采用Mealy型狀態(tài)機(jī)的程序結(jié)構(gòu)，以達(dá)到增加硬件資源的利用率，結(jié)構(gòu)清晰，便于數(shù)字設(shè)計(jì)的目的。其中，軟件通過了

2025-06-18 15:41

基于fpga的svpwm算法的實(shí)現(xiàn)畢業(yè)論文-資料下載頁

2025-08-19 19:25

jit及時(shí)生產(chǎn)與臨界生產(chǎn)不生產(chǎn)不需要的東西-資料下載頁

【總結(jié)】及時(shí)生產(chǎn)與臨界生產(chǎn)不生產(chǎn)不需要的東西及時(shí)生產(chǎn)系統(tǒng)的邏輯?使用最少原物料、在製品及完成品庫存，以得到高產(chǎn)量的整合活動(dòng)顧客最終組裝半成品半成品製造製造製造製造製造製造製造製造製造廠商廠商廠商廠商及時(shí)生產(chǎn)系統(tǒng)?大及時(shí)生產(chǎn)系統(tǒng)（bigJIT）–臨界

2025-03-12 22:11

小學(xué)思品誠實(shí)不需要理由-資料下載頁

【總結(jié)】誠實(shí)，不需要理由誠實(shí)，就是實(shí)事求是，說的和做的一個(gè)樣；誠實(shí)，就是敢作敢當(dāng)不隱瞞事情的真相……誠實(shí)是一個(gè)人最基本的品質(zhì)。手捧空花盆的孩子有一個(gè)國王給許多孩子每人發(fā)一些花籽，叫們種花，當(dāng)花朵盛開時(shí)，再把盆花送到王宮來。國王事先悄悄地把花籽煮過，不可能發(fā)芽了，可是到了規(guī)定的日

2025-10-28 18:54

優(yōu)秀生需不需要輔導(dǎo)匯編-資料下載頁

【總結(jié)】第一篇：優(yōu)秀生需不需要輔導(dǎo) 優(yōu)秀生需不需要輔導(dǎo)，這似乎不是一個(gè)問題，但是在實(shí)際工作中卻是一個(gè)經(jīng)常被忽略的方面。這種忽略往往造成巨大的悲劇。優(yōu)秀生經(jīng)常會(huì)在哪些方面出現(xiàn)問題呢？一、心理問題不愿正...

2025-10-15 21:23

基于fpga的fft算法實(shí)現(xiàn)畢業(yè)論文-資料下載頁

【總結(jié)】基于FPGA的FFT算法實(shí)現(xiàn)第I頁共41頁畢業(yè)論文基于FPGA的FFT算法實(shí)現(xiàn)[摘要]快速傅立葉變換(FFT)作為時(shí)域和頻域轉(zhuǎn)換的基本運(yùn)算，是數(shù)字譜分析的必要前提。傳統(tǒng)的FFT使用軟件或DSP實(shí)現(xiàn)，高速處理時(shí)實(shí)時(shí)性較難滿足。FPGA是直接由硬件實(shí)現(xiàn)的，其內(nèi)部結(jié)構(gòu)規(guī)則簡單，通?？梢匀菁{很多相同的運(yùn)算單元，因此FPGA在作指定運(yùn)算時(shí)

2025-06-27 17:28

基于fpga的fft算法實(shí)現(xiàn)畢業(yè)論文-資料下載頁

2025-08-18 15:35

自助游不需要外語過關(guān)了-資料下載頁

【總結(jié)】圣捷出國自助游不需要外語過關(guān)了成都圣捷經(jīng)濟(jì)文化發(fā)展有限公司公司網(wǎng)址：公司地址：四川省成都市西安南路69號(hào)西雅圖10樓10號(hào)自助游不需要外語過關(guān)了？語言不通，曾是阻礙我們出國自助游的主要障礙。尤其是在非英語國家，人生地不熟，兩眼一抹黑，基本上是瞎子文盲。最近更新出版的《法國自助游》一書的封面上，就寫著“不懂外語，照樣自助游法國”。果真如此？

2025-08-18 16:55

畢業(yè)設(shè)計(jì)-一個(gè)編譯原理語法分析器的實(shí)現(xiàn)與設(shè)計(jì)一個(gè)編譯原理語法分析器的實(shí)現(xiàn)與設(shè)計(jì)—論文-資料下載頁

【總結(jié)】學(xué)位論文一個(gè)編譯原理語法分析器的實(shí)現(xiàn)與設(shè)計(jì)論文作者姓名：申請(qǐng)學(xué)位專業(yè)：申請(qǐng)學(xué)位類別：指導(dǎo)教師姓名（職稱）：論文提交日期：一個(gè)編譯原理語法分析器的實(shí)現(xiàn)與設(shè)計(jì)摘要編譯程序一般由詞法分析程序、語法分析程序、語義分析程序、中間代碼生成程序、目標(biāo)代碼生成程

2024-11-30 13:36

一個(gè)編譯原理語法分析器的實(shí)現(xiàn)與設(shè)計(jì)一個(gè)編譯原理語法分析器的實(shí)現(xiàn)與設(shè)計(jì)—畢業(yè)設(shè)計(jì)論文-資料下載頁

2024-11-29 11:23

7在定義社會(huì)組織時(shí)不需要專門強(qiáng)調(diào)陳楚生：我不需要被定義-資料下載頁

【總結(jié)】在定義社會(huì)組織時(shí)不需要專門強(qiáng)調(diào)陳楚生：我不需要被定義第一眼見到他，他穿著低調(diào)的白色t恤，低著頭默默地坐在車的后排，他是萬眾矚目的大明星，而此時(shí)的他，更像一個(gè)涉世未深的大男孩兒，用好奇而沉默的態(tài)...

2025-09-17 16:09