freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

7-數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘-資料下載頁(yè)

2025-03-09 12:41本頁(yè)面
  

【正文】 同的值,字段的每種取值都是一個(gè)項(xiàng)。 項(xiàng)集。項(xiàng)的集合稱為項(xiàng)集。包含 K個(gè)項(xiàng)的項(xiàng)集被稱為 K項(xiàng)集, K表示項(xiàng)集中項(xiàng)的數(shù)目。 由所有的項(xiàng)所構(gòu)成的集合是最大的項(xiàng)集,一般用符號(hào) I表示。 I={i1,i2,...,in} 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 83/101 2023/3/28 關(guān)聯(lián)規(guī)則:基本概念 事務(wù)。事務(wù)是項(xiàng)的集合。一個(gè)事務(wù)就是事實(shí)表中的一條記錄。 事務(wù)的集合稱為事務(wù)集,也就是事務(wù)數(shù)據(jù)庫(kù),一般用 D表示。對(duì)銷售數(shù)據(jù)而言,事務(wù)數(shù)據(jù)庫(kù)的記錄一般由 事物處理時(shí)間 ,一組 顧客購(gòu)買的物品 ,顧客標(biāo)示號(hào) 幾部分組成。每個(gè)事務(wù)都有一個(gè)唯一的標(biāo)示,記作 TID。 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 84/101 2023/3/28 基本概念 ——示例 ? 項(xiàng)的集合 I={A,B,C,D,E,F} ? 每個(gè)事務(wù) T由事務(wù)標(biāo)識(shí)符 TID標(biāo)識(shí),它是項(xiàng)的集合 – 比如: TID(2023)={A,B,C} ? 任務(wù)相關(guān)數(shù)據(jù) D是數(shù)據(jù)庫(kù)事務(wù)的集合 規(guī)則度量:支持度和置信度 T I D 購(gòu)買的 it e m2023 A , B , C1000 A , C4000 A , D5000 B , E , FCustomer buys diaper Customer buys both Customer buys beer ? 對(duì)所有滿足最小支持度和置信度的關(guān)聯(lián)規(guī)則 – 支持度 s是指事務(wù)集 D中包含 的百分比 – 置信度 c是指 D中同時(shí)包含 A和 B的事務(wù)數(shù)與只包含 A的事務(wù)數(shù)的比值 ? 假設(shè)最小支持度為 50%,最小置信度為 50%,則有如下關(guān)聯(lián)規(guī)則 – A ? C (50%, %) – C ? A (50%, 100%) BA?sup ( ) ( )po rt A B P A B? ? ? ( ) ( | ) ( ) / ( )c on fi de nc e A B P B A P A B P A? ? ? ?華中農(nóng)業(yè)大學(xué) 信息學(xué)院 86/101 2023/3/28 知識(shí)點(diǎn)回顧 何為企業(yè)倉(cāng)庫(kù)、數(shù)據(jù)集市?二者有何區(qū)別? 請(qǐng)分析數(shù)據(jù)倉(cāng)庫(kù)、 OLAP、數(shù)據(jù)挖掘的關(guān)系。 請(qǐng)解釋如下關(guān)聯(lián)規(guī)則: sup ( ) ( )po rt A B P A B? ? ? ( ) ( | ) ( ) / ( )c on fi de nc e A B P B A P A B P A? ? ? ?華中農(nóng)業(yè)大學(xué) 信息學(xué)院 87/101 2023/3/28 知識(shí)點(diǎn)回顧 請(qǐng)分析數(shù)據(jù)倉(cāng)庫(kù)、 OLAP、數(shù)據(jù)挖掘的關(guān)系 ?聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘是數(shù)據(jù)倉(cāng)庫(kù)之上的增值技術(shù)。 ?OLAP側(cè)重于與用戶的交互、快速的響應(yīng)速度及提供數(shù)據(jù)的多維視圖,而 數(shù)據(jù)挖掘則注重自動(dòng)發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式和有用信息。 ?OLAP的分析結(jié)果可以給數(shù)據(jù)挖掘提供分析信息作為挖掘的依據(jù),數(shù)據(jù)挖掘可以拓展 OLAP分析的深度,可以發(fā)現(xiàn) OLAP所不能發(fā)現(xiàn)的更為復(fù)雜、細(xì)致的信息。 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 88/101 2023/3/28 大型數(shù)據(jù)庫(kù)關(guān)聯(lián)規(guī)則挖掘 (1) 項(xiàng)的集合稱為項(xiàng)集。包含 k個(gè)項(xiàng)的項(xiàng)集稱為 k項(xiàng)集。集合 {puter,financial_management_software}是一個(gè) 2項(xiàng)集。 項(xiàng)集的出現(xiàn)頻率是包含項(xiàng)集的事務(wù)數(shù),簡(jiǎn)稱為項(xiàng)集的頻率、支持計(jì)數(shù)或計(jì)數(shù)。 同時(shí)滿足最小支持度閾值 (min_sup)和最小置信度閾值 (min_conf)的規(guī)則稱作強(qiáng)規(guī)則。 支持度大于等于支持度閾值的項(xiàng)集稱為 頻繁項(xiàng)集。含有 K個(gè)項(xiàng)的項(xiàng)集稱為 K項(xiàng)集,或頻繁 K項(xiàng)集。 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 89/101 2023/3/28 最小支持度和最小可信度 為了發(fā)現(xiàn)有意義的關(guān)聯(lián)規(guī)則, 通過(guò)由用戶或數(shù)據(jù)挖掘系統(tǒng)給定兩個(gè)閾值:最小支持度和最小可信度。 最小支持度表示了項(xiàng)集在統(tǒng)計(jì)意義上須滿足的最低程度。最小可信度反應(yīng)了關(guān)聯(lián)規(guī)則需滿足的最低程度。 如果不考慮關(guān)聯(lián)規(guī)則的支持度和可信度,那么在 D中則存在過(guò)多的關(guān)聯(lián)規(guī)則。人們一般只對(duì)滿足一定的支持度和置信度的關(guān)聯(lián)規(guī)則感興趣。 因此,使用兩個(gè)閾值的作用可以限制數(shù)據(jù)挖掘系統(tǒng)輸出的關(guān)聯(lián)規(guī)則的數(shù)量,盡可能給用戶提供有意義的關(guān)聯(lián)規(guī)則。 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 90/101 2023/3/28 大型數(shù)據(jù)庫(kù)關(guān)聯(lián)規(guī)則挖掘 (2) “如何由大型數(shù)據(jù)庫(kù)挖掘關(guān)聯(lián)規(guī)則? ” 關(guān)聯(lián)規(guī)則的挖掘是一個(gè)兩步的過(guò)程: 1. 找出所有頻繁項(xiàng)集: 根據(jù)定義,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持計(jì)數(shù)一樣。 (最小支持度 ) 2. 由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則: 根據(jù)定義,這些規(guī)則必須滿足 最小支持度和最小置信度。 如果愿意,也可以使用附加的興趣度度量。這兩步中,第二步最容易。挖掘關(guān)聯(lián)規(guī)則的總體性能由第一步?jīng)Q定。 關(guān)聯(lián)規(guī)則挖掘分類 (1) ? 關(guān)聯(lián)規(guī)則有多種分類: – 根據(jù)規(guī)則中所處理的值類型 ?布爾關(guān)聯(lián)規(guī)則 ?如果規(guī)則描述的是量化的項(xiàng)或?qū)傩灾g的關(guān)聯(lián),則它是量化關(guān)聯(lián)規(guī)則。 在這種規(guī)則中,項(xiàng)或?qū)傩缘牧炕祫澐譃閰^(qū)間。 ) ,( )48...42 ,( )39...30 ,( puterXbuyskkXin eXage ??華中農(nóng)業(yè)大學(xué) 信息學(xué)院 92/101 2023/3/28 關(guān)聯(lián)規(guī)則挖掘分類 (1) – 根據(jù)規(guī)則中涉及的數(shù)據(jù)維 ? 單維關(guān)聯(lián)規(guī)則: 如果關(guān)聯(lián)規(guī)則中的項(xiàng)或?qū)傩悦總€(gè)只涉及一個(gè)維,則它是單維關(guān)聯(lián)規(guī)則。 ? (僅涉及 buys這個(gè)維) ? 多維關(guān)聯(lián)規(guī)則: 如果規(guī)則涉及兩個(gè)或多個(gè)維,如維buys,time_of_transaction 和 customer_category,則它是多維關(guān)聯(lián)規(guī)則。 ) ,( ) ,( softwareXbuys puterXbuys ?華中農(nóng)業(yè)大學(xué) 信息學(xué)院 93/101 2023/3/28 關(guān)聯(lián)規(guī)則挖掘分類 (2) – 根據(jù)規(guī)則集所涉及的抽象層 ?單層關(guān)聯(lián)規(guī)則 ?多層關(guān)聯(lián)規(guī)則 (在不同的抽象層發(fā)現(xiàn)關(guān)聯(lián)規(guī)則) )_ ,( )39...30 ,( puterlaptopXbuysXage ? ) ,( )39...30 ,( puterXbuysXage ?由事務(wù)數(shù)據(jù)庫(kù)挖掘單維布爾關(guān)聯(lián)規(guī)則 ? 最簡(jiǎn)單的關(guān)聯(lián)規(guī)則挖掘,即 單維、單層、布爾關(guān)聯(lián)規(guī)則的挖掘。 T r a n s a ct i o n I D I t e m s B o u g h t2023 A , B , C1000 A , C4000 A , D5000 B , E , FF r e q u e n t I te m s e t S u p p o r t{ A } 75%{ B } 50%{ C} 50%{ A ,C} 50%最小支持度 50% 最小置信度 50% ? 對(duì)規(guī)則 A ? C, 其支持度 =50% ? 置信度 %)(sup/)(sup)(/)()|( )( ??????? AportCAportAPCAPACPCAconfidence)( )(sup CAPCAport ???? Apriori算法是挖掘產(chǎn)生布爾關(guān)聯(lián)規(guī)則所需頻繁項(xiàng)集的基本算法, 它也是一個(gè)很有影響的關(guān)聯(lián)規(guī)則挖掘算法。由Agrawal等人于 1993年提出。 ? Apriori算法利用了一個(gè)層次順序搜索的循環(huán)方法來(lái)完成頻繁項(xiàng)集的挖掘工作。 這一循環(huán)方法就是利用 k項(xiàng)集來(lái)產(chǎn)生 (k+1)?項(xiàng)集。具體做法就是: – 首先,通過(guò)掃描數(shù)據(jù)集,產(chǎn)生一個(gè)大的候選數(shù)據(jù)項(xiàng)集 ,并計(jì)算每個(gè)候選數(shù)據(jù)項(xiàng)發(fā)生的次數(shù),然后基于 預(yù)先給定的最小支持度生成頻繁 1項(xiàng)集的集合,該集合記作 L1; – 然后基于 L1和數(shù)據(jù)集中的數(shù)據(jù),產(chǎn)生頻繁 2項(xiàng)集 L2; – 用同樣的方法,直到生成頻繁 n項(xiàng)集 Ln,其中已不再可能生成滿足最小支持度的( N+1)-項(xiàng)集。 – Apriori算法由 連接和剪枝 兩個(gè)步驟組成。 – 最后,從大數(shù)據(jù)項(xiàng)集中導(dǎo)出規(guī)則。 每挖掘一層,就需要掃描整個(gè)數(shù)據(jù)庫(kù)一遍。 Apriori算法 ——示例 Database TDB 1st scan C1 L1 L2 C2 C2 2nd scan C3 L3 3rd scan Tid Items 10 A, C, D 20 B, C, E 30 A, B, C, E 40 B, E Itemset sup {A} 2 {B} 3 {C} 3 {D} 1 {E} 3 Itemset sup {A} 2 {B} 3 {C} 3 {E} 3 Itemset {A, B} {A, C} {A, E} {B, C} {B, E} {C, E} Itemset sup {A, B} 1 {A, C} 2 {A, E} 1 {B, C} 2 {B, E} 3 {C, E} 2 Itemset sup {A, C} 2 {B, C} 2 {B, E} 3 {C, E} 2 Itemset {B, C, E} Itemset sup {B, C, E} 2 最小支持計(jì)數(shù): 2 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 97/101 2023/3/28 使用 Apiori性質(zhì)由 L2產(chǎn)生 C3 : C3=L2 L2= {{A,C},{B,C},{B,E}{C,E}} {{A,C},{B,C},{B,E}{C,E}} = {{A,B,C},{A,C,E},{B,C,E}} Apriori性質(zhì)剪枝:頻繁項(xiàng)集的所有子集必須是頻繁的,對(duì)候選項(xiàng) C3,我們可以刪除其子集為非頻繁的選項(xiàng): {A,B,C}的 2項(xiàng)子集是 {A,B},{A,C},{B,C},其中{A,B}不是 L2的元素,所以刪除這個(gè)選項(xiàng); {A,C,E}的 2項(xiàng)子集是 {A,C},{A,E},{C,E},其中{A,E} 不是 L2的元素,所以刪除這個(gè)選項(xiàng); {B,C,E}的 2項(xiàng)子集是 {B,C},{B,E},{C,E},它的所有 2-項(xiàng)子集都是 L2的元素,因此保留這個(gè)選項(xiàng)。 ,剪枝后得到 C3={{B,C,E}} ??1st scan C1 L1 最小支持計(jì)數(shù): 2 C2 2st scan C2 最小支持計(jì)數(shù): 2 L2 C3 C3 L3 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 100/101 2023/3/28 總結(jié) 本章簡(jiǎn)單介紹了數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖據(jù)的概念及其相關(guān)技術(shù),重點(diǎn)掌握以下問(wèn)題。 數(shù)據(jù)挖掘的常用模式有哪些? 什么是數(shù)據(jù)倉(cāng)庫(kù)?請(qǐng)?jiān)敿?xì)闡述其特征。 DW的構(gòu)建需要進(jìn)行哪些數(shù)據(jù)預(yù)處理過(guò)程? 試比較 OLAP與 OLTP的區(qū)別。 數(shù)據(jù)倉(cāng)庫(kù)的概念模型有哪些?各有什么特點(diǎn)? 多維數(shù)據(jù)模型上的 OLAP操作有哪些? 何為企業(yè)倉(cāng)庫(kù)、數(shù)據(jù)集市?二者有何區(qū)別? 請(qǐng)分析數(shù)據(jù)倉(cāng)庫(kù)、 OLAP、數(shù)據(jù)挖掘的關(guān)系。 簡(jiǎn)單了解關(guān)聯(lián)規(guī)則的相關(guān)概念及其代表性算法。 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 101/101 2023/3/28 本章結(jié)束 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 演講完畢,謝謝觀看!
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1