【正文】
for all (k1)維子集 s of c if (s 不屬于 Lk1) then delete c from Ck。|X,X39。,稱 join(連接 )步 , 該步可表述為 : insert into Ck ,......, from Lk1P,Lk1Q =,......=, 若用集合表示 :Ck39。 minsupport 表示給定的最小支持度 。 (9) next (10) Lk={c∈ Ck|≥ minsupport}。 //生成含 k個(gè)元素的侯選項(xiàng)目集 (5) for all transactions t∈ D //辦理處理 (6) Ct=count_support(Ck,t)。 (2) L1={c∈ C1|≥ minsupport}。 關(guān)聯(lián)規(guī)則問題的分解 關(guān)聯(lián)規(guī)則挖掘問題可分解為以下兩個(gè)子問題 : 1. 找出事務(wù)數(shù)據(jù)庫(kù) D 中所有大于等于用戶指定最小支持度的項(xiàng)目集 (itemset). 具有最小支持度的項(xiàng)目集稱為最大項(xiàng)目集 .項(xiàng)目集的支持度指包含該項(xiàng)目集的數(shù)目 . 2. 利用最大項(xiàng)目集生成所需要的關(guān)聯(lián)規(guī)則 對(duì) 每 一 最 大 項(xiàng) 目 集 A, 找到 A 的 所 有 非 空 子 集 a, 如 果 比 率support(A)/support(a)=minconfidence,就生 成關(guān)聯(lián)規(guī)則 a=(Aa).support(A)/support(a) 即規(guī)則 a=(Aa)的 置信度 . 事實(shí)上 ,挖掘關(guān)聯(lián)規(guī)則的整個(gè)執(zhí)行過程中第一個(gè)子問題是核心問題 .當(dāng)找到所有的最大項(xiàng)目集后 ,相應(yīng)的關(guān)聯(lián)規(guī)則將很容易生成 .在本文中將對(duì)關(guān)聯(lián)規(guī)則的第一個(gè)問題進(jìn)行探討、研究 。規(guī)則是死的,人是活的,運(yùn)用之妙成乎于人。 S=40%, C=R6:嬰兒爽身粉→尿布。于是可得出下列六條規(guī)則 ,其中: s為支持度, c 為置信度。從雙項(xiàng)統(tǒng)計(jì)中看出, 60%的顧客同時(shí)買了啤酒和尿布, 40%的顧客買了啤酒和牛奶, 40%的顧客買了尿布和爽身粉。其中支持度 2/5 的項(xiàng) ,如單項(xiàng)的 {面包 }, {雨傘 }和 雙項(xiàng)中的 {尿布,牛奶 }等等已經(jīng)略去,三項(xiàng)統(tǒng)計(jì)為空,其中只有 {啤酒,尿布 ,牛奶 }出現(xiàn)了一次 (表 31中 3 號(hào)記錄 ),支持度小于 40%,略去。 表 31 記錄號(hào) 所購(gòu)物品清單 1 啤酒、尿布,嬰兒爽身粉,面包,雨傘 2 尿布,嬰兒爽身粉 3 啤酒、尿布,牛奶 4 尿布,啤酒,洗衣粉 5 啤酒,牛奶,可樂飲料 陜西理工學(xué)院數(shù)學(xué)與計(jì)算機(jī)科學(xué)系開放性實(shí)驗(yàn)結(jié)題報(bào)告 7 超市經(jīng)理想知道商品之間的關(guān)聯(lián),要求列出那些同時(shí)購(gòu)買的、且支持度≥40% (即在 5 行中至少出現(xiàn)兩次)的商品名稱。 關(guān)聯(lián)規(guī)則挖掘舉例 一個(gè)超級(jí)市場(chǎng)的銷售系統(tǒng)記錄了顧客購(gòu)物的情況。 證明 : 很明顯,數(shù)據(jù)項(xiàng)集 XK1:的 K1 維子項(xiàng)集的個(gè)數(shù)為 K1。 規(guī)則 X=Y 的 置信度 c定義為 : 在 D 中 ,c%的事務(wù)包含 X 的同時(shí)也包含 Y, 表示 D 中包含 X 的事務(wù)中有多大可能性包含 Y. 最小支持度閾值 minsupport 表示數(shù)據(jù)項(xiàng)集在統(tǒng)計(jì)意義上的最低主要性 . 最小 置信度 閾值 mincontinence 表示規(guī)則的最低可靠性 . 如果數(shù)據(jù)項(xiàng)集 X 滿足=minsupport, 則 X 是大數(shù)據(jù)項(xiàng)集 . 一般由用戶給定最小 置信度 閾值陜西理工學(xué)院數(shù)學(xué)與計(jì)算機(jī)科學(xué)系開放性實(shí)驗(yàn)結(jié)題報(bào)告 6 和最小支持度閾值 .置信度 和支持度大于相應(yīng)閾值的規(guī)則稱為強(qiáng)關(guān)聯(lián)規(guī)則 , 反之稱為弱關(guān)聯(lián)規(guī)則 . 發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的任務(wù)就是從數(shù)據(jù)庫(kù)中發(fā)現(xiàn) 那些 置信度 、支持度大小等于給定值的強(qiáng)壯規(guī)則 . 基于上述概念,我們可以很容易得到一些基本結(jié)論 : (1) K維數(shù)據(jù)項(xiàng)集 XK是頻繁項(xiàng)集的必要條件是它所有 K1維子項(xiàng)集也為頻繁項(xiàng)集, 記為 XK1 (2)如果 K 維數(shù)據(jù)項(xiàng)集 XK的任意一個(gè) K1 維子集 XK1,不是頻繁項(xiàng)集,則 K維數(shù)據(jù)項(xiàng)集 XK本身也不是最大數(shù)據(jù)項(xiàng)集。 數(shù)據(jù)項(xiàng)集 X的支持度 s(X)是 D 中包含 X的事務(wù)數(shù)量與 D 的總事務(wù)數(shù)量之比 , 但為下文便于敘述 , 數(shù)據(jù)項(xiàng)集 X的支持度是用數(shù)據(jù)庫(kù) D 中包含 X 的數(shù)量來表示 。另一種策略是:將硬件和軟件放在商店的兩端,可能誘發(fā)購(gòu)買這些商品的顧客一路挑選其他商品。分析結(jié)果可以幫助經(jīng)理設(shè)計(jì)不同的商店布局。市場(chǎng)分析員要從大量的數(shù)據(jù)中發(fā)現(xiàn)顧客放入其購(gòu)物籃中的不同商品之間的關(guān)系。 80 年代初, Mchalski 提出了概念聚類技術(shù) 其要點(diǎn)是,在劃分對(duì)象時(shí)不僅考慮對(duì)象之間的距離,還要求劃分出的類具有某種內(nèi)涵描述,從而避免了傳統(tǒng)技術(shù)的某些片 面性。聚類增強(qiáng)了人們對(duì)客觀現(xiàn)實(shí)的認(rèn)識(shí),是概念描述和偏差分析的先決條件。本文在后面將就該規(guī)則作一詳細(xì)的闡述與討論。2)或 許是因?yàn)槠【坪榷啵枰媚虿粷?。在美?guó),有一種說法是 :“尿不濕”和“啤酒”經(jīng)常一起被購(gòu)買。 2 數(shù)據(jù)挖掘的幾種 主要 形式 : :規(guī)則挖掘: 如果一個(gè)事務(wù)中含有 X,則該事務(wù)中很可能含有 Y。數(shù)據(jù)分析者必須知道你所選用的 DM 工具是如何工作的,采用的算 法的原理是什么。 因此,數(shù)據(jù)挖掘可以描述為:按企業(yè)既定業(yè)務(wù)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性,并進(jìn)一步將其模型化的先進(jìn)有效的方法。分析這些數(shù)據(jù)也不再是單純?yōu)榱搜芯康男枰?,更主要是為商業(yè)決策提供真正有價(jià)值的信息,進(jìn)而獲得利潤(rùn)。數(shù)據(jù)分析本身已經(jīng)有很多年的歷 史,只不過在過去數(shù)據(jù)收集和分析的目的是用于科學(xué)研究,另外,由于當(dāng)時(shí)計(jì)算能力的限制,對(duì)大數(shù)據(jù)量進(jìn)行分析的復(fù)雜數(shù)據(jù)分析方法受到很大限制。 商業(yè)角度的定義 數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對(duì)商業(yè)數(shù)據(jù)庫(kù)中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。實(shí)際上,所有發(fā)現(xiàn)的知識(shí)都是相對(duì)的,是有特定前提和約束條件,面向特定領(lǐng)域的,同時(shí)還要陜西理工學(xué)院數(shù)學(xué)與計(jì)算機(jī)科學(xué)系開放性實(shí)驗(yàn)結(jié)題報(bào)告 2 能夠易于被用戶理解。在這種需求牽引下,匯聚了不同領(lǐng)域的研究者,尤其是數(shù)據(jù)庫(kù)技術(shù)、人工智能技術(shù)、數(shù)理統(tǒng)計(jì)、可視化技術(shù)、并行計(jì)算等方面的學(xué)者和工程技術(shù)人員,投身到數(shù)據(jù)挖掘這一新興的研究領(lǐng)域,形成新的技術(shù)熱點(diǎn)。發(fā)現(xiàn)的知識(shí)可以被用于信息管理,查詢優(yōu)化,決策支持和過程控制等,還可以用于數(shù)據(jù)自身的維護(hù)。原始數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù);也可以是半結(jié)構(gòu)化的,如文本、圖形和圖 像數(shù)據(jù);甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。 何為知識(shí) ?從廣義上理解,數(shù)據(jù)、信息也是知識(shí)的表現(xiàn)形式,但是人們更把概念、規(guī)則、模式、規(guī)律和約束等看作知識(shí)。與數(shù)據(jù)挖掘相近的同義詞有數(shù)據(jù)融合、數(shù)據(jù)分析和決策支持等。s I/O operation. It39。這有利于提高挖掘的速度和減少數(shù)據(jù)庫(kù)的 I/O操作時(shí)間的開銷。著名的 Apriori 算法是一種挖掘關(guān)聯(lián)規(guī)則的算法。 陜西理工學(xué)院 開放性實(shí)驗(yàn)結(jié)題論文 學(xué)生姓名 丁侃 所在班級(jí)專業(yè) 01級(jí)計(jì)算機(jī)本科乙班 所在系別 數(shù)學(xué)與計(jì)算機(jī)科學(xué)系 指導(dǎo)教師姓名 周濤 陜西理工學(xué)院數(shù)學(xué)與計(jì)算機(jī)科學(xué)系制 2020年 6月 1日 Apriori算法改進(jìn) 及其實(shí)現(xiàn) 內(nèi)容摘要 信息技術(shù)的不斷推廣應(yīng)用,將企業(yè)帶入了一個(gè)信息爆炸的時(shí)代。如何充分利用這些數(shù)據(jù)信息為企業(yè)決策者提供決策支持成為一個(gè)十分迫切的又棘手的問題,人們除了利用現(xiàn)有的關(guān)系數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)查詢語句得到一般的直觀的信息以外,必須 挖掘其內(nèi)含的、未知的卻又實(shí)際存在的數(shù)據(jù)關(guān)系。 本文 通過對(duì)參與候選集的元素計(jì)數(shù)的方法來減少產(chǎn)生候選集的組合和減少數(shù)據(jù)庫(kù)的掃描次數(shù)來達(dá)到要求。 關(guān)鍵 字: 數(shù)據(jù)挖掘,關(guān)聯(lián)規(guī)則, Apriori 算法 Apriori Algorithm And Improved Apriori Algorithm Abstract: An information burst age is ing with the various application of Information technology. How to maximize the information is a very important problem for the decisionmaker of the panies. Besides getting the regular information from the Database by SQLquery, people still need to mine the data relation which is unclear but really rules is one of the data mining methods, the fam