freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)論文數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則和序列模式-免費(fèi)閱讀

2025-08-14 19:36 上一頁面

下一頁面
  

【正文】 他在繁忙的工作之余抽出時(shí)間仔細(xì)審閱,并給了我們很多好的建議。但是它并沒有給出一個(gè)通用的算法實(shí)現(xiàn),故只有一定的實(shí)驗(yàn)意義。 235. ()。 223. step++。 212. 213. ()。 // 對數(shù)據(jù)庫的添加操作 204. = index。 180. while(m_Cust == ) 181. { 182. m_Cust = 。 163. m_Cust = 。 148. for(i=0。 133. ()。 116. index++。 105. return。 80. } 81. 82. while(m_Cust == ) 83. { 84. m_Cust = 。 68. m_Cust = 。 // 生成一個(gè) exSTset 對象,對于 SourceTable 表進(jìn)行操作 45. 46. 47. float fSupp = 。 36. int i,temp。 // 原始數(shù)據(jù)庫的記錄總數(shù) 24. extern int nTransactionNumber。在前推階段 (forward phase)我們忽略了對 C3中序列的支持度的計(jì)算。在第二次遍歷時(shí),我們計(jì)算 C2得到 L2(圖 _9.)。 我們用 apriorigenerate 函數(shù)產(chǎn)生新的候選序列。 elsif (hitk ) return k + 3。 k = 1。 // Result of litemset phase C1 = L1。 ? 例子 {1 5}{2}{3}{4} {1}{3}{4}{3 5} {1}{2}{3}{4} {1}{3}{5} {4}{5} 圖 考察圖 ,在這里我們沒有給出源數(shù)據(jù)庫的形式。在遍歷的最后,候選序列的支持度用來決定大序列 (剔除不足支持度的候選序列 )。接下來是一個(gè) 回溯階段 (backward phase),我們找出所有剩余的大序列。 k ) do foreach ksequence sk do Delete from S all subsequences of sk 附圖 ? 序列階段的算法討論 序列階段算法的基本結(jié)構(gòu)是對數(shù)據(jù)進(jìn)行多次遍歷。圖 的圖 。 3) 轉(zhuǎn)換階段 (Transformation Phase) 在找序列模式的過程中,我們要不斷地進(jìn)行檢測一個(gè)給定的大序列集合是否包含于一個(gè)客戶序列中。實(shí)際上這個(gè)階段將原來的事務(wù)數(shù)據(jù)庫 (transaction database)轉(zhuǎn)換成由客戶序列組成的數(shù)據(jù)庫。具有 k長度的序列稱為 k序列??蛻?4 在項(xiàng) 30 和項(xiàng) 90 之間買了項(xiàng)( 40,70),但仍然支持模式 (30) (90) ,這是因?yàn)槲覀兯业哪J讲⒉恍枰欢ㄟB續(xù)。 Customer Id Customer Sequence 1 2 3 4 5 (30) (90) (10,20) (30) (40,60,70) (30,50,70) (30) (40,70) (90) (90) 圖 如果一個(gè)序列 s 包含于一個(gè)客戶序列中,則我們稱該客戶 支持 (support)序列 s。在一個(gè) 序列集 (a set of sequences)中如果序列 s不包含于任何其他序列中,則稱序列 s 為 最大的 (maximal)。 b.) 一些相關(guān)概念及定義 前面已經(jīng)討論過,數(shù)據(jù)源是一個(gè)給定的由 客戶交易 (customer transaction)組成的大型數(shù)據(jù)庫,每個(gè) 交易 (transaction)由 客戶號 (customerid), 交易時(shí)間 (transactiontime)以及在交易中購買的 項(xiàng) (item)組成。 附圖 函數(shù) ? 舉例 令 L3為 {{1 2 3},{1 2 4},{1 3 4},{1 3 5},{2 3 4}},聯(lián)合階段后, C4將為 {{1 2 3 4},{1 3 4 5}}。 Lk1 ? ?。 另外,關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的思路還可以用于序列模式發(fā)現(xiàn)。前者即用戶規(guī)定的關(guān)聯(lián)規(guī)則必須滿足的最小支持度,它表示了一組物品集在統(tǒng)計(jì)意義上的需滿足的最低程度 。關(guān)聯(lián)規(guī)則是如下形式的一種蘊(yùn)含 :X→ Y,其中 X?I, Y?I,且 X∩ Y= ?。保單上記錄有投保人的年齡、性別、健康狀況、工作單位、工作地址、工資水平等。更確切的說,關(guān)聯(lián)規(guī)則通過量化的數(shù)字描述物品甲的出現(xiàn)對物品乙的出現(xiàn)有多大的影響。 由于條形碼技術(shù)的發(fā)展 ,零售部門可以利用前端收款機(jī)收集存儲大量的售貨數(shù)據(jù)。 關(guān)聯(lián)規(guī)則是關(guān)聯(lián)模式的基礎(chǔ),而 序列模式與關(guān)聯(lián)模式相仿,只是更進(jìn)一步把數(shù)據(jù)之間 的關(guān)聯(lián)性與時(shí)間聯(lián)系起來。例如,在購買彩電的人們當(dāng)中,60%的人會在 3 個(gè)月內(nèi)購買影碟機(jī)。只有充分考慮時(shí)間因素,利用現(xiàn)有數(shù)據(jù)隨時(shí)間變 化的一系列的值,才能更好地預(yù)測將來的值。描述型模式不能直接用于預(yù)測。 E 作為一個(gè)模式要求它比列舉數(shù)據(jù)子集 FE 中所有元素的描述方法簡單 。 1998 年在美國紐約舉行的第四屆知識發(fā)現(xiàn)與數(shù)據(jù)挖掘國際學(xué)術(shù)會議不僅進(jìn)行了學(xué)術(shù)討論,并且有 30 多家軟件公司展示了他們的數(shù)據(jù)挖掘軟件產(chǎn)品,不少軟件已在北美、歐洲等國得到應(yīng)用。經(jīng)歷了博弈時(shí)期、自然語言理解、知識工程等階段,目前的研究熱點(diǎn)是機(jī)器學(xué)習(xí)。應(yīng)用條形碼技術(shù)采集的大量銷售數(shù)據(jù)成為挖掘的基礎(chǔ)。目前的數(shù)據(jù)庫系統(tǒng)可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。 1989年 8月在美國底特律召開的第 11 屆國際人工智能聯(lián)合會議的專題討論會上首次出現(xiàn) KDD 這 個(gè)術(shù)語。一般在科研領(lǐng)域中稱為 KDD,而在工程領(lǐng)域則稱為 數(shù)據(jù)挖掘 。例如,根據(jù)各種動物的資料,可以建立這樣的模式:凡是胎生的動物都是哺乳類動物。如給出某種動物的特征,可 以用分類模式判定這種動物是哺乳動物還是鳥類;給出某個(gè)人的教育情況、工作經(jīng)驗(yàn),可以用回歸模式判定這個(gè)人的年工資在哪個(gè)范圍內(nèi),是在 6000 元以下,還是在 6000 元到 1 萬元之間,還是在 1 萬元以上。關(guān)聯(lián)規(guī)則是如下形式的一種規(guī)則:“在無力償還貸款的人當(dāng)中, 60%的人的月收入在 3000 元以下。聚類模式、關(guān)聯(lián)模式、序列模式則是非監(jiān)督知識,因?yàn)樵谀J浇⑶敖Y(jié)果是未知的,模式的產(chǎn)生不受任何監(jiān)督。條形碼 (barcode)技術(shù)的進(jìn)步使得零售商有能力收集和儲存大量的銷售數(shù)據(jù),稱為 貨籃(basket)數(shù)據(jù)。同一個(gè)顧客在一個(gè)交易時(shí)間只能進(jìn)行一次交易 (這是顯而易見的 ),我們不去考慮顧客在一次交易中所購買物品的數(shù)量,每種物品 (也就是商品 )都由一個(gè)二進(jìn)制變量代替,而不管它是否在交易中被購買與否 。 有些數(shù)據(jù)不像售貨數(shù)據(jù)那樣很容易就能看出一個(gè)事務(wù)是許多物品的集合,但稍微轉(zhuǎn)換一下思考角度,仍然可以像售貨數(shù)據(jù)一樣處理。 b.) 關(guān)聯(lián)規(guī)則的形式 設(shè) I = {i1, i2, ..., im}是一組物品集 (一個(gè)商場的物品可能有上萬種 ), D是一組事務(wù)集 (稱數(shù)數(shù) 據(jù)據(jù) 挖挖 掘掘 中中 的的 關(guān)關(guān) 聯(lián)聯(lián) 規(guī)規(guī) 則則 和和 序序 列列 模模 式式 7 之為事務(wù)數(shù)據(jù)庫 )。事實(shí)上,人們一般只對滿足一定的支持度和可信度的關(guān)聯(lián)規(guī)則感興趣。例如 ”買外套 → 買鞋子 (此處,外套和鞋子是較高層次上的物品或概念,因而該規(guī)則是一種泛化的關(guān)聯(lián)規(guī)則 )。 這里我們討論 (1)中的 Apriori 算法,因?yàn)楦鶕?jù)此算法得到的大項(xiàng)集,在序列模式階段是有實(shí)際用處的。 圖 算法 apriorigen 函數(shù)以 Lk1(所有大 (k1)項(xiàng)集 )作為輸入?yún)?shù),返回所有大 k項(xiàng)集的集合Lk,以以下兩步實(shí)現(xiàn): 第一步,聯(lián)合 insert into Ck select , ,… , from Lk1p,Lk1q where = ,… , = , 。值得數(shù)數(shù) 據(jù)據(jù) 挖挖 掘掘 中中 的的 關(guān)關(guān) 聯(lián)聯(lián) 規(guī)規(guī) 則則 和和 序序 列列 模模 式式 9 注意的是租借這三部電影的行為并不一定需要是連續(xù)的。比如 序列 (3) (4,5) (8) 包含于序列 (7) (3,8) (9) (4,5,6) (8) ,因?yàn)?(3)包含于 (3,8), (4,5)包含于 (4,5,6)以及 (8)包含于 (8)。 Ti中的項(xiàng)集定義成 itemset(Ti)。圖 _2 則以客戶序列集的形式表示了該數(shù)據(jù)庫。最后我們得到圖 _3 的結(jié)果。 注意 :大序列中的每一個(gè)項(xiàng)集都必須具有最小支持。在圖 ,大項(xiàng)集分別是 (30), (40),(70), (40, 70)和 (90)。但是,在計(jì)算客戶總數(shù)的時(shí)候,它仍將被計(jì)算在內(nèi)。在序列階段找到所有的大序列之后,下述算法可以用來找出最大序列。 countall 累計(jì)所有大序 列,包括非最大序 列 (nonmaximal sequence),在找最大階段 (maximal phase),這些非最大序列必須被刪除。 圖 算法 注 :所有算法表示中, Lk代表所有 k序列組成的集合, Ck 代表候選 k序列組成的集合。 附圖 函數(shù) Large 3Sequence Candidate 4Sequence (after join) Candidate 4Sequence (after pruning) 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4 1 2 3 4 1 2 4 3 1 3 4 5 1 3 5 4 1 2 3 4 圖 選序列的產(chǎn)生 在圖 ,考察第一列中顯示的 L3(the set of 3sequence)。 L1 L2 L4 L3 圖 1Sequences Support 1 4 2 2 3 4 4 4 5 4 2Sequences Support 1 2 2 1 3 4 1 4 3 1 5 3 2 3 2 2 4 2 3 4 3 3 5 2 4 5 2 3Sequences Support 1 2 3 2 1 2 4 2 1 3 4 3 1 3 5 2 2 3 4 2 4Sequences Support 1 2 3 4 2 數(shù)數(shù) 據(jù)據(jù) 挖挖 掘掘 中中 的的 關(guān)關(guān) 聯(lián)聯(lián) 規(guī)規(guī) 則則 和和 序序 列列 模模 式式 15 第五次遍歷沒有產(chǎn)生候選,最大序列是以下三個(gè): 1 2 3 4,1 3 5和 4 5。 else Ck = New candidates generated from Ck1。如附圖 。這種情形下, AprioriSome 算法就退化為AprioriAll 算法了。同時(shí)我們也刪除在前推階段找到的那些非最大 (nonmaximal)的大序列。在以 C4計(jì)算 L4(圖 )之后,我們試圖產(chǎn)生 C5,這時(shí)的結(jié)果為空。
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1