freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘-在線瀏覽

2025-05-25 20:33本頁面
  

【正文】 與啤酒風(fēng)馬牛不相及,若不是借助數(shù)據(jù)挖掘技術(shù)對大量交易數(shù)據(jù)進(jìn)行挖掘分析,沃爾瑪是不可能發(fā)現(xiàn)數(shù)據(jù)內(nèi)在這一有價值的規(guī)律的。關(guān)聯(lián)分析是發(fā)現(xiàn)交易數(shù)據(jù)庫中不同項之間的聯(lián)系。如果我們能在生活中對關(guān)聯(lián)分析進(jìn)行應(yīng)用,一定可以解決更多的問題。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。他們的工作包括對原有的算法進(jìn)行優(yōu)化,如引入隨機(jī)采樣、并行的思想等,以提高算法挖掘規(guī)則的效率;對關(guān)聯(lián)規(guī)則的應(yīng)用進(jìn)行推廣。 關(guān)聯(lián)規(guī)則(一)關(guān)聯(lián)規(guī)則定義 關(guān)聯(lián)分析是一種簡單、實用的分析技術(shù),就是發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關(guān)聯(lián)性或相關(guān)性,從而描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式。關(guān)聯(lián)分析的一個典型例子是購物籃分析。通過了解哪些商品頻繁地被顧客同時購買,這種關(guān)聯(lián)的發(fā)現(xiàn)可以幫助零售商制定營銷策略。(二)相關(guān)概念關(guān)聯(lián)規(guī)則形如:XY;其中XI,YI,并且X∩Y=。(Support)(Confidence)Conf(XY)=*100%=P(Y|X) 如果某條規(guī)則同時滿足最小支持度和最小置信度則稱為強(qiáng)關(guān)聯(lián)規(guī)則。為了找出有意義的規(guī)則就需要規(guī)定最小支持度和最小置信度前者描述了關(guān)聯(lián)規(guī)則中數(shù)據(jù)項集的最低重要程度,記為minsup后者規(guī)定了關(guān)聯(lián)規(guī)則必須滿足的最低可靠性記為,minconf。同時滿足最小支持度、最小置信度的關(guān)聯(lián)規(guī)則稱為強(qiáng)關(guān)聯(lián)規(guī)則。布爾型關(guān)聯(lián)規(guī)則處理的值都是離散的、種類化的,它顯示了這些變量之間的關(guān)系;而數(shù)值型關(guān)聯(lián)規(guī)則可以和多維關(guān)聯(lián)或多層關(guān)聯(lián)規(guī)則結(jié)合起來,對數(shù)值型字段進(jìn)行處理,將其進(jìn)行動態(tài)的分割,或者直接對原始的數(shù)據(jù)進(jìn)行處理,當(dāng)然數(shù)值型關(guān)聯(lián)規(guī)則中也可以包含種類變量。在單層的關(guān)聯(lián)規(guī)則中,所有的變量都沒有考慮到現(xiàn)實的數(shù)據(jù)是具有多個不同的層次的;而在多層的關(guān)聯(lián)規(guī)則中,對數(shù)據(jù)的多層性已經(jīng)進(jìn)行了充分的考慮。 單維關(guān)聯(lián)規(guī)則是處理單個屬性中的一些關(guān)系;多維關(guān)聯(lián)規(guī)則是處理各個屬性之間的某些關(guān)系。 2)定義:設(shè)C(k)表示候選k項集L(k)表示C(k)中出現(xiàn)頻率大于或等于最小支持度閾值與事務(wù)總數(shù)的乘積的k項集,即k頻繁項集或者是k大項集。這是因為如果含有(k1)項集的事務(wù)占事務(wù)總數(shù)的百分比不大于最小支持度閾值。如果用概念來解釋的話,含有k項集的事務(wù)構(gòu)成的概念的內(nèi)涵比含有(k1)項集事務(wù)所構(gòu)成的概念的內(nèi)涵增加了那么它的外延必然會減小所包含的事務(wù)數(shù)也必然減小。4)Apriori算法的步驟步驟如下1  設(shè)定最小支持度s和最小置信度c。首先產(chǎn)生出候選的項的集合,即候選項集若候選項集的支持度大于或等于最小支持度則該候選項集為頻繁項集。因為先驗原理保證所有非頻繁的1項集的超集都是非頻繁的。得出候選2項集集合。并利用這些頻繁2項集集合來產(chǎn)生候選3項集。1)定義:針對Apriori算法的固有缺陷,J. Han等提出了不產(chǎn)生候選挖掘頻繁項集的方法:FP樹頻集算法。當(dāng)原始數(shù)據(jù)量很大的時候,也可以結(jié)合劃分的方法,使得一個FPtree可以放入主存中。2)FP樹頻集算法的步驟步驟如下1  遍歷一次數(shù)據(jù)庫,到處頻繁項集(1項集)的集合和支持度計數(shù)(頻率),并且以降序排序,結(jié)果集或表記為L。3  根據(jù)第二步得到的FPtree,為1項頻繁項集中的每一項構(gòu)造條件FPtree。 數(shù)據(jù)(1) 小型數(shù)據(jù) 這是我們得到的最原始的數(shù)據(jù),是國外某超市的購物籃數(shù)據(jù),共有約一千條。(2) 大型數(shù)據(jù) 第二個大型數(shù)據(jù)也是國外某公司的超市購物籃數(shù)據(jù),共有88162條數(shù)據(jù)。第一行是對每列數(shù)據(jù)的一個編號,從第二列開始是每個顧客超市購物籃中的東西。因為數(shù)據(jù)過大,所以整個數(shù)據(jù)是數(shù)據(jù)集的形式。它和它的源代碼可在其官方網(wǎng)站下載。 (AttributeRelation File Format)文件,這是一種ASCII文本文件。識別ARFF文件的重要依據(jù)是分行,因此不能在這種文件里隨意的斷行。 WEKA的關(guān)聯(lián)規(guī)則分析功能僅能用來作示范,不適合用來挖掘大型數(shù)據(jù)集。我們查閱有關(guān)資料以及有關(guān)網(wǎng)站,找到了一個用Python轉(zhuǎn)換格式的方法。./39。w39。39。relation ExceptionRelationattribute ID stringattribute Thrown numericattribute SetLogicFlag numericattribute Return numericattribute LOC numericattribute NumMethod numericattribute EmptyBlock numeric
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1