【文章內(nèi)容簡(jiǎn)介】
中的數(shù)據(jù)之間有南京財(cái)經(jīng)大學(xué)本科畢業(yè)論文 6 較高的相似度,而在不同類中的數(shù)據(jù)差別盡可能大。在聚類技術(shù)中,沒有預(yù)先定義好的類別和訓(xùn)練樣本存在 ,所有記錄都根據(jù)彼此相似程度來(lái)加以歸類。主要算法有 k— means、 DBSCAN等。 ( 4) 關(guān)聯(lián)規(guī)則。關(guān)聯(lián)分析的目的是挖掘隱藏在數(shù)據(jù)間的相互關(guān)系,自動(dòng)探測(cè)以前未發(fā)現(xiàn)的隱藏著的模式,關(guān)聯(lián)分析經(jīng)常被表達(dá)為規(guī)則的形式。目前采用的主要關(guān)聯(lián)規(guī)則挖掘算法有 Apriori、 FPgrowth算法等。 ( 5) 路徑分析。路徑分析可以用來(lái)確定網(wǎng)站上的頻繁訪問路徑 , 從而調(diào)整和優(yōu)化網(wǎng)站結(jié)構(gòu) , 使得用戶訪問所需網(wǎng)頁(yè)更加簡(jiǎn)單快捷 , 還可以根據(jù)用戶典型的瀏覽模式用于智能推薦和有針對(duì)性的電子商務(wù)活動(dòng)。 ( 三 ) 模式分析 基于以上的所有過程, 對(duì)原始數(shù)據(jù)進(jìn)行進(jìn)一步分析,找出用戶的瀏覽模式規(guī)律,即用戶的興趣愛好及習(xí)慣,并使其可視化,為網(wǎng)頁(yè)的規(guī)劃及網(wǎng)站建設(shè)的決策提供具體理論依據(jù)。其主要方法有:查詢、 OLAP 技術(shù)和可視化技術(shù) 等 。 二 、關(guān)聯(lián)分析 (一) 關(guān)聯(lián)規(guī)則 顧名思義,關(guān)聯(lián)規(guī)則( association rule)挖掘技術(shù)用于于發(fā)現(xiàn)數(shù)據(jù)庫(kù)中屬性之間的有趣聯(lián)系。 設(shè) D 交易 (transaction) T 的集合, },{ 21 ntttD ?? ,這里交易 T 是項(xiàng)的集合,可以表述為: },{ 21 PtttT ?? 并且 DT? 。 T 中的元素 },2,1{ pji j ??? 稱為項(xiàng)。對(duì)應(yīng)每一個(gè)交易有唯一的標(biāo)識(shí),如交易號(hào),記作 TID 。設(shè) },{ 21 miiiI ??是數(shù)據(jù)集中所有項(xiàng)的集合, I 是二進(jìn)制文字的集合。 I 中的任何子集稱為項(xiàng)目集(itemset),若 k|X| ? ,則稱集合 X 為 ?K 項(xiàng)集。設(shè) kt 和 X 分別為 D 中的事務(wù)和項(xiàng)目集,如果 kt X? ,稱事務(wù) kt 包含項(xiàng)目 集 X 。項(xiàng)目集 X 的支持率 support(X) ,南京財(cái)經(jīng)大學(xué)本科畢業(yè)論文 7 若 support(X) 不小于用戶指定的最小支持率 (記作: minsupport),則稱 X 為頻繁項(xiàng)目集,否則稱 X 為非頻繁項(xiàng)目集。設(shè) X , Y 是數(shù)據(jù)集 D 中的項(xiàng)目集。若 YX? ,則 ) s u p p o r t( Ys u p p o r t( X ) ? ;若 YX? ,如果 X 是非頻繁項(xiàng)目集,則 Y 也是非頻繁項(xiàng)目集;若 YX? ,如果 Y 是頻繁項(xiàng)目集,則 X 也是頻繁項(xiàng)目集。 一個(gè) 關(guān)聯(lián)規(guī)則是形如 YX?? 的蘊(yùn)涵式,這里 X , Y 都是項(xiàng)目集,且 1CX? ,1?Y ,并且 ??YX? , X , Y 分別稱為關(guān)聯(lián)規(guī)則 YX?? 的前提和結(jié)論。 一般使用支 持度( support)和置信度( confidence)兩個(gè)參數(shù)來(lái)描述關(guān)聯(lián)規(guī)則的屬性。 規(guī)則 YX?? 在數(shù)據(jù)庫(kù) D 中的支持度 (support) 是交易集中同時(shí)包含 X , Y 的事務(wù)數(shù)與所有事務(wù)數(shù)之比,記為 Y) support(X ?? )(sup YXport ?? 。支持度描述了 X , Y 這兩個(gè)項(xiàng)集在所有事務(wù)中同時(shí)出現(xiàn)的概率。 2. 置信度 規(guī)則 YX?? 在事務(wù)集中的置信度 (confidence)是指同時(shí)包含 X , Y 的事務(wù)數(shù)與包含 X 的事務(wù)數(shù)之比,它用來(lái)衡量關(guān)聯(lián)規(guī)則的可信程度。記為 )(s u p/)(s u p)( Xp o r tYXp o r tYXc o n fid e n c e ??? 規(guī)則 A ? C: 支持度 = support({A}?{C}) = 50% 置信度 = support({A}?{C})/support({A}) = % 圖 1:支持度計(jì)算圖解 Transactionid Items bought 10 A, B, C 20 A, C 30 A,D 40 B,E,F Frequent pattern Support {A} 75% {B} 50% {C} 50% {A,C} 50% 南京財(cái)經(jīng)大學(xué)本科畢業(yè)論文 8 (二) Apriori方法簡(jiǎn)介 Apriori算法最先是由 Agrawal等人于 1993年提出的,它的基本思想是: 首先找出所有具有超出最小支持度的支持度項(xiàng)集,用頻繁的 (k— 1)項(xiàng)集生成候選的頻繁 k項(xiàng)集;其次利用大項(xiàng)集產(chǎn)生所需的規(guī)則; 任何頻繁項(xiàng)集的所有子集一定是頻繁項(xiàng)集是 其核心。 Apriori算法需要兩個(gè)步驟:第一個(gè)是生成條目集;第二個(gè)是使用生成的條目集創(chuàng)建一組關(guān)聯(lián)規(guī)則。 Ck: 長(zhǎng)度為 k的候選項(xiàng)集 Lk : 長(zhǎng)度為 k的頻繁項(xiàng)集 L1 = {頻繁項(xiàng) }。 for (k = 1。 Lk !=?。 k++) do begin Ck+1 = 由 Lk產(chǎn)生的候選 。 for each 數(shù)據(jù)庫(kù)中的事務(wù) t do 增加包含在 t 中的所有候選 Ck+1的計(jì)數(shù) Lk+1 = Ck+1 中滿足 min_support的候選 南京財(cái)經(jīng)大學(xué)本科畢業(yè)論文 9 圖 2:Apriori算法圖解 數(shù)據(jù)庫(kù) TDB TID Items 10 A, C, D 20 B, C, E 30 A, B, C, E 40 B, E Itemset Sup {A} 2 {B} 3 {C} 3 {D} 1 {E}