freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘(完整版)

2025-04-02 12:41上一頁面

下一頁面
  

【正文】 數(shù)據(jù)挖掘 ? 基于數(shù)據(jù)倉庫的 OLAP系統(tǒng) – OLAP系統(tǒng)專注于數(shù)據(jù)的匯總,而數(shù)據(jù)挖掘系統(tǒng)可以對數(shù)據(jù)進行多種復(fù)雜的處理。 數(shù)據(jù)分類實際上就是從數(shù)據(jù)庫對象中發(fā)現(xiàn)共性, 并將數(shù)據(jù)對象分成不同類別的過程。 – 趨勢和偏差 : 回歸分析 – 序列模式匹配:周期性分析 – 基于類似性的分析 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 17/101 2023/3/28 所有模式都是有趣的嗎? ? 數(shù)據(jù)挖掘可能產(chǎn)生數(shù)以千計的模式或規(guī)則,但并不是所有的模式或規(guī)則都是令人感興趣的。 從信息管理的角度看, 主題就是在一個較高的管理層次上對信息系統(tǒng)的數(shù)據(jù)按照某一具體的管理對象進行綜合、歸類所形成的分析對象。 ?數(shù)據(jù)倉庫 :從歷史的角度提供信息(比如過去 510 年) – 數(shù)據(jù)倉庫中的每一個關(guān)鍵結(jié)構(gòu)都隱式或顯式地包含時間元素,而操作數(shù)據(jù)庫中的關(guān)鍵結(jié)構(gòu)可能就不包括時間元素 – 盡管數(shù)據(jù)倉庫中的數(shù)據(jù)并不像業(yè)務(wù)數(shù)據(jù)庫那樣反映業(yè) 務(wù)處理的實際狀況,但是數(shù)據(jù)也不能長期不變,如果依 據(jù) 10年前的數(shù)據(jù)進行決策分析,那決策所帶來的后果將 是十分可怕的。 – 不需要事務(wù)處理,恢復(fù),和并發(fā)控制等機制(大大提高了處理速度) – 只需要兩種數(shù)據(jù)訪問 : ?數(shù)據(jù)的初始轉(zhuǎn)載和數(shù)據(jù)訪問(讀操作) 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 31/101 2023/3/28 數(shù)據(jù)倉庫的構(gòu)建與使用 ? 數(shù)據(jù)倉庫的構(gòu)建包括一系列的數(shù)據(jù)預(yù)處理過程 – 數(shù)據(jù)清理 – 數(shù)據(jù)集成 – 數(shù)據(jù)變換 ? 數(shù)據(jù)倉庫的使用熱點是商業(yè)決策行為,例如: – 增加客戶聚焦 – 產(chǎn)品重定位 – 尋找獲利點 – 客戶關(guān)系管理 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 32/101 2023/3/28 數(shù)據(jù)倉庫與操作數(shù)據(jù)庫系統(tǒng) ? 操作數(shù)據(jù)庫系統(tǒng)的主要任務(wù)是 聯(lián)機事務(wù)處理 OLTP – 日常操作 : 購買,庫存,銀行,制造,工資,注冊,記帳等 ? 數(shù)據(jù)倉庫的主要任務(wù)是 聯(lián)機分析處理 OLAP – 數(shù)據(jù)分析和決策支持,支持以不同的形式顯示數(shù)據(jù)以滿足不同的用戶需要 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 33/101 2023/3/28 OLAP VS. OLTP (1) ? 用戶和系統(tǒng)的面向性 – 面向顧客(事務(wù)) VS. 面向市場(分析) ? 數(shù)據(jù)內(nèi)容 – 當前的、詳細的數(shù)據(jù)(如超市一個月的數(shù)據(jù)) VS. 歷史的、匯總的數(shù)據(jù) ? 數(shù)據(jù)庫設(shè)計 – 實體-聯(lián)系模型 (ER)和面向應(yīng)用的數(shù)據(jù)庫設(shè)計 VS. 星型 /雪花模型和面向主題的數(shù)據(jù)庫設(shè)計 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 34/101 2023/3/28 OLAP VS. OLTP (2) ? 數(shù)據(jù)視圖 – 當前的、企業(yè)內(nèi)部的數(shù)據(jù) VS. 經(jīng)過演化的、集成的數(shù)據(jù) ? 訪問模式 – 事務(wù)操作(如查詢、寫入、修改) VS. 只讀查詢(但很多是復(fù)雜的查詢) ? 任務(wù)單位 – 簡短的事務(wù) VS. 復(fù)雜的查詢 ? 訪問數(shù)據(jù)量 – 數(shù)十個 VS. 數(shù)百萬個 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 35/101 2023/3/28 OLAP VS. OLTP (3) ? 用戶數(shù) – 數(shù)千個 VS. 數(shù)百個 (復(fù)雜查詢,消耗資源) ? 數(shù)據(jù)庫規(guī)模 – 100M數(shù) GB(因此一般關(guān)注近期數(shù)據(jù)) VS. 100GB數(shù) TB ? 設(shè)計優(yōu)先性 – 高性能、高可用性 VS. 高靈活性、端點用戶自治 ? 度量 – 事務(wù)吞吐量 VS. 查詢吞吐量、響應(yīng)時間 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 36/101 2023/3/28 為什么需要一個分離的數(shù)據(jù)倉庫 ? ? “既然操作數(shù)據(jù)庫存放了大量數(shù)據(jù)”, “為什么不直接在這種數(shù)據(jù)庫上進行聯(lián)機分析處理,而是另外花費時間和資源去構(gòu)造一個分離的數(shù)據(jù)倉庫?”分離的主要原因是提高兩個系統(tǒng)的性能 – DBMS是為 OLTP而設(shè)計的: 存儲方式 ,索引 , 并發(fā)控制 , 恢復(fù)( OLAP不需要) – 數(shù)據(jù)倉庫是為 OLAP而設(shè)計: 復(fù)雜的 OLAP查詢 , 多維視圖,匯總 為什么需要一個分離的數(shù)據(jù)倉庫 ? ? 兩個系統(tǒng)提供不同的功能和處理不同的數(shù)據(jù) : – 歷史數(shù)據(jù) : 決策支持需要歷史數(shù)據(jù),而這些數(shù)據(jù)在操作數(shù)據(jù)庫中一般不會去維護 – 數(shù)據(jù)匯總: 決策支持需要將來自異種源的數(shù)據(jù)統(tǒng)一(如聚集和匯總) – 數(shù)據(jù)質(zhì)量 : 不同的源使用不一致的數(shù)據(jù)表示、編碼和格式,對這些數(shù)據(jù)進行有效的分析需要將他們轉(zhuǎn)化后進行集成 ? 由于兩個系統(tǒng)提供很不相同的功能,需要不同類型的數(shù)據(jù),因此需要維護分離的數(shù)據(jù)庫。 維的層次:在同一維度上存在多個程度不同的細 節(jié)。這種模型可以以 星型模式、雪花模式、或事實星座模式的形式存在。例如,維 time 基于屬性 day, week, month, quarter 和 year 就是一個偏序 “ day {month quarter。 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 57/101 2023/3/28 數(shù)據(jù)倉庫設(shè)計:一個商務(wù)分析框架 (1) ? 數(shù)據(jù)倉庫給商業(yè)分析專家提供了什么? – 通過提供相關(guān)數(shù)據(jù)與信息, 獲得競爭優(yōu)勢 – 通過有效的收集精確的描述組織的數(shù)據(jù),獲得生產(chǎn)力的提高 – 通過提供不同級別(部門、市場、商業(yè))的客戶視圖, 協(xié)助客戶關(guān)系管理 – 通過追蹤長期趨勢、異常等,降低成本 ? 有效構(gòu)建數(shù)據(jù)倉庫的關(guān)鍵:理解和分析商業(yè)需求 – 通過提供一個商業(yè)分析框架,綜合各種不同的數(shù)據(jù)使用者的視圖 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 58/101 2023/3/28 數(shù)據(jù)倉庫設(shè)計:一個商務(wù)分析框架 (2) ? 數(shù)據(jù)倉庫設(shè)計的四種視圖 – 自頂向下視圖 ? 使得我們可以選擇數(shù)據(jù)倉庫所需的相關(guān)信息。例如,單個事務(wù)、一天的快照等。 ? 解決方法: – 使用遞增性、演化性的開發(fā)方法(見后圖) – 高層數(shù)據(jù)模型 ?企業(yè)倉庫和數(shù)據(jù)集市并行開發(fā) ?通過分布式模型集成各數(shù)據(jù)集市 ?多層數(shù)據(jù)倉庫 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 66/101 2023/3/28 數(shù)據(jù)倉庫開發(fā) ——一個推薦的方法 定義高層數(shù)據(jù)模型 數(shù)據(jù)集市 數(shù)據(jù)集市 分布式數(shù)據(jù)集市 多層數(shù)據(jù)倉庫 企業(yè)數(shù)據(jù)倉庫 模型提煉 模型提煉 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 67/101 2023/3/28 OLAP服務(wù)器類型 (1) ? OLAP 服務(wù)器為商務(wù)用戶提供來自數(shù)據(jù)倉庫或數(shù) 據(jù)集市的多維數(shù)據(jù),而不必關(guān)心數(shù)據(jù)如何存放和存放在何處。 例如, HOLAP 服務(wù)器允許將大量詳細數(shù)據(jù)存放在關(guān)系數(shù)據(jù)庫中,而 聚集保持在分離的MOLAP 存儲中。它不反映復(fù)雜的模式,或隱藏在數(shù)據(jù)庫中的規(guī)律。 在這種意義下,數(shù)據(jù)挖掘涵蓋的數(shù)據(jù)挖掘功能和處理的數(shù)據(jù)復(fù)雜性要比 OLAP 大得多。 置信度 60%意味購買計算機的顧客 60%也購買財務(wù)管理軟件。 由所有的項所構(gòu)成的集合是最大的項集,一般用符號 I表示。 請解釋如下關(guān)聯(lián)規(guī)則: sup ( ) ( )po rt A B P A B? ? ? ( ) ( | ) ( ) / ( )c on fi de nc e A B P B A P A B P A? ? ? ?華中農(nóng)業(yè)大學(xué) 信息學(xué)院 87/101 2023/3/28 知識點回顧 請分析數(shù)據(jù)倉庫、 OLAP、數(shù)據(jù)挖掘的關(guān)系 ?聯(lián)機分析處理和數(shù)據(jù)挖掘是數(shù)據(jù)倉庫之上的增值技術(shù)。 支持度大于等于支持度閾值的項集稱為 頻繁項集。 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 90/101 2023/3/28 大型數(shù)據(jù)庫關(guān)聯(lián)規(guī)則挖掘 (2) “如何由大型數(shù)據(jù)庫挖掘關(guān)聯(lián)規(guī)則? ” 關(guān)聯(lián)規(guī)則的挖掘是一個兩步的過程: 1. 找出所有頻繁項集: 根據(jù)定義,這些項集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持計數(shù)一樣。 ? (僅涉及 buys這個維) ? 多維關(guān)聯(lián)規(guī)則: 如果規(guī)則涉及兩個或多個維,如維buys,time_of_transaction 和 customer_category,則它是多維關(guān)聯(lián)規(guī)則。 – 最后,從大數(shù)據(jù)項集中導(dǎo)出規(guī)則。 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 101/101 2023/3/28 本章結(jié)束 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 演講完畢,謝謝觀看! 。 Apriori算法 ——示例 Database TDB 1st scan C1 L1 L2 C2 C2 2nd scan C3 L3 3rd scan Tid Items 10 A, C, D 20 B, C, E 30 A, B, C, E 40 B, E Itemset sup {A} 2 {B} 3 {C} 3 {D} 1 {E} 3 Itemset sup {A} 2 {B} 3 {C} 3 {E} 3 Itemset {A, B} {A, C} {A, E} {B, C} {B, E} {C, E} Itemset sup {A, B} 1 {A, C} 2 {A, E} 1 {B, C} 2 {B, E} 3 {C, E} 2 Itemset sup {A, C} 2 {B, C} 2 {B, E} 3 {C, E} 2 Itemset {B, C, E} Itemset sup {B, C, E} 2 最小支持計數(shù): 2 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 97/101 2023/3/28 使用 Apiori性質(zhì)由 L2產(chǎn)生 C3 : C3=L2 L2= {{A,C},{B,C},{B,E}{C,E}} {{A,C},{B,C},{B,E}{C,E}} = {{A,B,C},{A,C,E},{B,C,E}} Apriori性質(zhì)剪枝:頻繁項集的所有子集必須是頻繁的,對候選項 C3,我們可以刪除其子集為非頻繁的選項: {A,B,C}的 2項子集是 {A,B},{A,C},{B,C},其中{A,B}不是 L2的元素,所以刪除這個選項; {A,C,E}的 2項子集是 {A,C},{A,E},{C,E},其中{A,E} 不是 L2的元素,所以刪除這個選項; {B,C,E}的 2項子集是 {B,C},{B,E},{C,E},它的所有 2-項子集都是 L2的元素,因此保留這個選項。 T r a n s a ct i o n I D I t e m s B o u g h t2023 A , B , C1000 A , C4000 A , D5000 B , E , FF r e q u e n t I te m s e t S u p p o r t{ A } 75%{ B } 50%{ C} 50%{ A ,C} 50%最小支持度 50% 最小置信度 50% ? 對規(guī)則 A ? C, 其支持度 =50% ? 置信度 %)(sup/)(sup)(/)()|( )( ??????? AportCAportAPCAPACPCAconfidence)( )(sup CAPCAport ???? Apriori算法是挖掘產(chǎn)生布爾關(guān)聯(lián)規(guī)則所需頻繁項集的基本算法, 它也是一個很有影響的關(guān)聯(lián)規(guī)則挖掘算法。
點擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1