freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

7-數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘(完整版)

  

【正文】 數(shù)據(jù)挖掘 ? 基于數(shù)據(jù)倉(cāng)庫(kù)的 OLAP系統(tǒng) – OLAP系統(tǒng)專注于數(shù)據(jù)的匯總,而數(shù)據(jù)挖掘系統(tǒng)可以對(duì)數(shù)據(jù)進(jìn)行多種復(fù)雜的處理。 數(shù)據(jù)分類實(shí)際上就是從數(shù)據(jù)庫(kù)對(duì)象中發(fā)現(xiàn)共性, 并將數(shù)據(jù)對(duì)象分成不同類別的過程。 – 趨勢(shì)和偏差 : 回歸分析 – 序列模式匹配:周期性分析 – 基于類似性的分析 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 17/101 2023/3/28 所有模式都是有趣的嗎? ? 數(shù)據(jù)挖掘可能產(chǎn)生數(shù)以千計(jì)的模式或規(guī)則,但并不是所有的模式或規(guī)則都是令人感興趣的。 從信息管理的角度看, 主題就是在一個(gè)較高的管理層次上對(duì)信息系統(tǒng)的數(shù)據(jù)按照某一具體的管理對(duì)象進(jìn)行綜合、歸類所形成的分析對(duì)象。 ?數(shù)據(jù)倉(cāng)庫(kù) :從歷史的角度提供信息(比如過去 510 年) – 數(shù)據(jù)倉(cāng)庫(kù)中的每一個(gè)關(guān)鍵結(jié)構(gòu)都隱式或顯式地包含時(shí)間元素,而操作數(shù)據(jù)庫(kù)中的關(guān)鍵結(jié)構(gòu)可能就不包括時(shí)間元素 – 盡管數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)并不像業(yè)務(wù)數(shù)據(jù)庫(kù)那樣反映業(yè) 務(wù)處理的實(shí)際狀況,但是數(shù)據(jù)也不能長(zhǎng)期不變,如果依 據(jù) 10年前的數(shù)據(jù)進(jìn)行決策分析,那決策所帶來的后果將 是十分可怕的。 – 不需要事務(wù)處理,恢復(fù),和并發(fā)控制等機(jī)制(大大提高了處理速度) – 只需要兩種數(shù)據(jù)訪問 : ?數(shù)據(jù)的初始轉(zhuǎn)載和數(shù)據(jù)訪問(讀操作) 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 31/101 2023/3/28 數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建與使用 ? 數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建包括一系列的數(shù)據(jù)預(yù)處理過程 – 數(shù)據(jù)清理 – 數(shù)據(jù)集成 – 數(shù)據(jù)變換 ? 數(shù)據(jù)倉(cāng)庫(kù)的使用熱點(diǎn)是商業(yè)決策行為,例如: – 增加客戶聚焦 – 產(chǎn)品重定位 – 尋找獲利點(diǎn) – 客戶關(guān)系管理 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 32/101 2023/3/28 數(shù)據(jù)倉(cāng)庫(kù)與操作數(shù)據(jù)庫(kù)系統(tǒng) ? 操作數(shù)據(jù)庫(kù)系統(tǒng)的主要任務(wù)是 聯(lián)機(jī)事務(wù)處理 OLTP – 日常操作 : 購(gòu)買,庫(kù)存,銀行,制造,工資,注冊(cè),記帳等 ? 數(shù)據(jù)倉(cāng)庫(kù)的主要任務(wù)是 聯(lián)機(jī)分析處理 OLAP – 數(shù)據(jù)分析和決策支持,支持以不同的形式顯示數(shù)據(jù)以滿足不同的用戶需要 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 33/101 2023/3/28 OLAP VS. OLTP (1) ? 用戶和系統(tǒng)的面向性 – 面向顧客(事務(wù)) VS. 面向市場(chǎng)(分析) ? 數(shù)據(jù)內(nèi)容 – 當(dāng)前的、詳細(xì)的數(shù)據(jù)(如超市一個(gè)月的數(shù)據(jù)) VS. 歷史的、匯總的數(shù)據(jù) ? 數(shù)據(jù)庫(kù)設(shè)計(jì) – 實(shí)體-聯(lián)系模型 (ER)和面向應(yīng)用的數(shù)據(jù)庫(kù)設(shè)計(jì) VS. 星型 /雪花模型和面向主題的數(shù)據(jù)庫(kù)設(shè)計(jì) 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 34/101 2023/3/28 OLAP VS. OLTP (2) ? 數(shù)據(jù)視圖 – 當(dāng)前的、企業(yè)內(nèi)部的數(shù)據(jù) VS. 經(jīng)過演化的、集成的數(shù)據(jù) ? 訪問模式 – 事務(wù)操作(如查詢、寫入、修改) VS. 只讀查詢(但很多是復(fù)雜的查詢) ? 任務(wù)單位 – 簡(jiǎn)短的事務(wù) VS. 復(fù)雜的查詢 ? 訪問數(shù)據(jù)量 – 數(shù)十個(gè) VS. 數(shù)百萬個(gè) 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 35/101 2023/3/28 OLAP VS. OLTP (3) ? 用戶數(shù) – 數(shù)千個(gè) VS. 數(shù)百個(gè) (復(fù)雜查詢,消耗資源) ? 數(shù)據(jù)庫(kù)規(guī)模 – 100M數(shù) GB(因此一般關(guān)注近期數(shù)據(jù)) VS. 100GB數(shù) TB ? 設(shè)計(jì)優(yōu)先性 – 高性能、高可用性 VS. 高靈活性、端點(diǎn)用戶自治 ? 度量 – 事務(wù)吞吐量 VS. 查詢吞吐量、響應(yīng)時(shí)間 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 36/101 2023/3/28 為什么需要一個(gè)分離的數(shù)據(jù)倉(cāng)庫(kù) ? ? “既然操作數(shù)據(jù)庫(kù)存放了大量數(shù)據(jù)”, “為什么不直接在這種數(shù)據(jù)庫(kù)上進(jìn)行聯(lián)機(jī)分析處理,而是另外花費(fèi)時(shí)間和資源去構(gòu)造一個(gè)分離的數(shù)據(jù)倉(cāng)庫(kù)?”分離的主要原因是提高兩個(gè)系統(tǒng)的性能 – DBMS是為 OLTP而設(shè)計(jì)的: 存儲(chǔ)方式 ,索引 , 并發(fā)控制 , 恢復(fù)( OLAP不需要) – 數(shù)據(jù)倉(cāng)庫(kù)是為 OLAP而設(shè)計(jì): 復(fù)雜的 OLAP查詢 , 多維視圖,匯總 為什么需要一個(gè)分離的數(shù)據(jù)倉(cāng)庫(kù) ? ? 兩個(gè)系統(tǒng)提供不同的功能和處理不同的數(shù)據(jù) : – 歷史數(shù)據(jù) : 決策支持需要?dú)v史數(shù)據(jù),而這些數(shù)據(jù)在操作數(shù)據(jù)庫(kù)中一般不會(huì)去維護(hù) – 數(shù)據(jù)匯總: 決策支持需要將來自異種源的數(shù)據(jù)統(tǒng)一(如聚集和匯總) – 數(shù)據(jù)質(zhì)量 : 不同的源使用不一致的數(shù)據(jù)表示、編碼和格式,對(duì)這些數(shù)據(jù)進(jìn)行有效的分析需要將他們轉(zhuǎn)化后進(jìn)行集成 ? 由于兩個(gè)系統(tǒng)提供很不相同的功能,需要不同類型的數(shù)據(jù),因此需要維護(hù)分離的數(shù)據(jù)庫(kù)。 維的層次:在同一維度上存在多個(gè)程度不同的細(xì) 節(jié)。這種模型可以以 星型模式、雪花模式、或事實(shí)星座模式的形式存在。例如,維 time 基于屬性 day, week, month, quarter 和 year 就是一個(gè)偏序 “ day {month quarter。 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 57/101 2023/3/28 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì):一個(gè)商務(wù)分析框架 (1) ? 數(shù)據(jù)倉(cāng)庫(kù)給商業(yè)分析專家提供了什么? – 通過提供相關(guān)數(shù)據(jù)與信息, 獲得競(jìng)爭(zhēng)優(yōu)勢(shì) – 通過有效的收集精確的描述組織的數(shù)據(jù),獲得生產(chǎn)力的提高 – 通過提供不同級(jí)別(部門、市場(chǎng)、商業(yè))的客戶視圖, 協(xié)助客戶關(guān)系管理 – 通過追蹤長(zhǎng)期趨勢(shì)、異常等,降低成本 ? 有效構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵:理解和分析商業(yè)需求 – 通過提供一個(gè)商業(yè)分析框架,綜合各種不同的數(shù)據(jù)使用者的視圖 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 58/101 2023/3/28 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì):一個(gè)商務(wù)分析框架 (2) ? 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的四種視圖 – 自頂向下視圖 ? 使得我們可以選擇數(shù)據(jù)倉(cāng)庫(kù)所需的相關(guān)信息。例如,單個(gè)事務(wù)、一天的快照等。 ? 解決方法: – 使用遞增性、演化性的開發(fā)方法(見后圖) – 高層數(shù)據(jù)模型 ?企業(yè)倉(cāng)庫(kù)和數(shù)據(jù)集市并行開發(fā) ?通過分布式模型集成各數(shù)據(jù)集市 ?多層數(shù)據(jù)倉(cāng)庫(kù) 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 66/101 2023/3/28 數(shù)據(jù)倉(cāng)庫(kù)開發(fā) ——一個(gè)推薦的方法 定義高層數(shù)據(jù)模型 數(shù)據(jù)集市 數(shù)據(jù)集市 分布式數(shù)據(jù)集市 多層數(shù)據(jù)倉(cāng)庫(kù) 企業(yè)數(shù)據(jù)倉(cāng)庫(kù) 模型提煉 模型提煉 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 67/101 2023/3/28 OLAP服務(wù)器類型 (1) ? OLAP 服務(wù)器為商務(wù)用戶提供來自數(shù)據(jù)倉(cāng)庫(kù)或數(shù) 據(jù)集市的多維數(shù)據(jù),而不必關(guān)心數(shù)據(jù)如何存放和存放在何處。 例如, HOLAP 服務(wù)器允許將大量詳細(xì)數(shù)據(jù)存放在關(guān)系數(shù)據(jù)庫(kù)中,而 聚集保持在分離的MOLAP 存儲(chǔ)中。它不反映復(fù)雜的模式,或隱藏在數(shù)據(jù)庫(kù)中的規(guī)律。 在這種意義下,數(shù)據(jù)挖掘涵蓋的數(shù)據(jù)挖掘功能和處理的數(shù)據(jù)復(fù)雜性要比 OLAP 大得多。 置信度 60%意味購(gòu)買計(jì)算機(jī)的顧客 60%也購(gòu)買財(cái)務(wù)管理軟件。 由所有的項(xiàng)所構(gòu)成的集合是最大的項(xiàng)集,一般用符號(hào) I表示。 請(qǐng)解釋如下關(guān)聯(lián)規(guī)則: sup ( ) ( )po rt A B P A B? ? ? ( ) ( | ) ( ) / ( )c on fi de nc e A B P B A P A B P A? ? ? ?華中農(nóng)業(yè)大學(xué) 信息學(xué)院 87/101 2023/3/28 知識(shí)點(diǎn)回顧 請(qǐng)分析數(shù)據(jù)倉(cāng)庫(kù)、 OLAP、數(shù)據(jù)挖掘的關(guān)系 ?聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘是數(shù)據(jù)倉(cāng)庫(kù)之上的增值技術(shù)。 支持度大于等于支持度閾值的項(xiàng)集稱為 頻繁項(xiàng)集。 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 90/101 2023/3/28 大型數(shù)據(jù)庫(kù)關(guān)聯(lián)規(guī)則挖掘 (2) “如何由大型數(shù)據(jù)庫(kù)挖掘關(guān)聯(lián)規(guī)則? ” 關(guān)聯(lián)規(guī)則的挖掘是一個(gè)兩步的過程: 1. 找出所有頻繁項(xiàng)集: 根據(jù)定義,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持計(jì)數(shù)一樣。 ? (僅涉及 buys這個(gè)維) ? 多維關(guān)聯(lián)規(guī)則: 如果規(guī)則涉及兩個(gè)或多個(gè)維,如維buys,time_of_transaction 和 customer_category,則它是多維關(guān)聯(lián)規(guī)則。 – 最后,從大數(shù)據(jù)項(xiàng)集中導(dǎo)出規(guī)則。 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 101/101 2023/3/28 本章結(jié)束 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 演講完畢,謝謝觀看! 。 Apriori算法 ——示例 Database TDB 1st scan C1 L1 L2 C2 C2 2nd scan C3 L3 3rd scan Tid Items 10 A, C, D 20 B, C, E 30 A, B, C, E 40 B, E Itemset sup {A} 2 {B} 3 {C} 3 {D} 1 {E} 3 Itemset sup {A} 2 {B} 3 {C} 3 {E} 3 Itemset {A, B} {A, C} {A, E} {B, C} {B, E} {C, E} Itemset sup {A, B} 1 {A, C} 2 {A, E} 1 {B, C} 2 {B, E} 3 {C, E} 2 Itemset sup {A, C} 2 {B, C} 2 {B, E} 3 {C, E} 2 Itemset {B, C, E} Itemset sup {B, C, E} 2 最小支持計(jì)數(shù): 2 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 97/101 2023/3/28 使用 Apiori性質(zhì)由 L2產(chǎn)生 C3 : C3=L2 L2= {{A,C},{B,C},{B,E}{C,E}} {{A,C},{B,C},{B,E}{C,E}} = {{A,B,C},{A,C,E},{B,C,E}} Apriori性質(zhì)剪枝:頻繁項(xiàng)集的所有子集必須是頻繁的,對(duì)候選項(xiàng) C3,我們可以刪除其子集為非頻繁的選項(xiàng): {A,B,C}的 2項(xiàng)子集是 {A,B},{A,C},{B,C},其中{A,B}不是 L2的元素,所以刪除這個(gè)選項(xiàng); {A,C,E}的 2項(xiàng)子集是 {A,C},{A,E},{C,E},其中{A,E} 不是 L2的元素,所以刪除這個(gè)選項(xiàng); {B,C,E}的 2項(xiàng)子集是 {B,C},{B,E},{C,E},它的所有 2-項(xiàng)子集都是 L2的元素,因此保留這個(gè)選項(xiàng)。 T r a n s a ct i o n I D I t e m s B o u g h t2023 A , B , C1000 A , C4000 A , D5000 B , E , FF r e q u e n t I te m s e t S u p p o r t{ A } 75%{ B } 50%{ C} 50%{ A ,C} 50%最小支持度 50% 最小置信度 50% ? 對(duì)規(guī)則 A ? C, 其支持度 =50% ? 置信度 %)(sup/)(sup)(/)()|( )( ??????? AportCAportAPCAPACPCAconfidence)( )(sup CAPCAport ???? Apriori算法是挖掘產(chǎn)生布爾關(guān)聯(lián)規(guī)則所需頻繁項(xiàng)集的基本算法, 它也是一個(gè)很有影響的關(guān)聯(lián)規(guī)則挖掘算法。
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1