freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘chappt課件-wenkub.com

2025-05-09 03:17 本頁面
   

【正文】 ?在數(shù)據(jù)倉庫中,元數(shù)據(jù)的主要用途包括: ? 用作目錄,幫助決策支持系統(tǒng)分析者對數(shù)據(jù)倉庫的內(nèi)容定義 ? 作為數(shù)據(jù)倉庫和操作性數(shù)據(jù)庫之間進行數(shù)據(jù)轉(zhuǎn)換時的映射標準 ? 用于指導當前細節(jié)數(shù)據(jù)和稍加綜合的數(shù)據(jù)之間的匯總算法,指導稍加綜合的數(shù)據(jù)和高度綜合的數(shù)據(jù)之間的匯總算法。 ? 可以由以前計算的聚集計算新的聚集,而不必有基本事實表計算 ?基于 MOLAP方法(底層使用多維數(shù)組存儲數(shù)據(jù)) ? 多路數(shù)組聚集的計算方法 ? 將數(shù)組切成塊(每個塊都可以整個裝入內(nèi)存) ? 通過訪問各個塊來計算匯總值 方體計算的多路數(shù)組聚集方法 (1) ? 將數(shù)組分成塊( chunk,一個可以裝入內(nèi)存的小子方) ? 通過訪問立方體單元,計算聚集。比如: location維的定義,officecitycountryregion;這些屬性 按一個全序相關,形成一個層次結(jié)構(gòu): year day quarter month week 維的屬性也可以組成一個偏序,形成一個格: 概念分層 (3) —— 使用 ?概念分層為不同級別上的數(shù)據(jù)匯總提供了一個良好的基礎 ?綜合概念分層和多維數(shù)據(jù)模型的潛力,可以對數(shù)據(jù)獲得更深入的洞察力 ? 通過在多維數(shù)據(jù)模型中,在不同的維上定義概念分層,使得用戶在不同的維上從不同的層次對數(shù)據(jù)進行觀察成為可能。 ? (剛才的示例中用的是什么函數(shù)? ) ? 度量可以根據(jù)其所用的聚集函數(shù)分為三類: ? 分布的 (distributive):將函數(shù)用于 n個聚集值得到的結(jié)果和將函數(shù)用于所有數(shù)據(jù)得到的結(jié)果一樣。 ? 星型模式( Star schema) : 事實表在中心,周圍圍繞地連接著維表(每維一個),事實表含有大量數(shù)據(jù),沒有冗余。給定一個維的集合,我們可以構(gòu)造一個 方體的格 ,每個都在不同的匯總級或不同的數(shù)據(jù)子集顯示數(shù)據(jù),方體的格稱為 數(shù)據(jù)立方體 。 ? 不需要事務處理,恢復,和并發(fā)控制等機制 ? 只需要兩種數(shù)據(jù)訪問 : ? 數(shù)據(jù)的初始轉(zhuǎn)載和數(shù)據(jù)訪問(讀操作) 數(shù)據(jù)倉庫的構(gòu)建與使用 ?數(shù)據(jù)倉庫的構(gòu)建包括一系列的數(shù)據(jù)預處理過程 ? 數(shù)據(jù)清理 ? 數(shù)據(jù)集成 ? 數(shù)據(jù)變換 ?數(shù)據(jù)倉庫的使用熱點是商業(yè)決策行為,例如: ? 增加客戶聚焦 ? 產(chǎn)品重定位 ? 尋找獲利點 ? 客戶關系管理 數(shù)據(jù)倉庫與異種數(shù)據(jù)庫集成 ?異種數(shù)據(jù)庫的集成方法 ? 傳統(tǒng)的異種數(shù)據(jù)庫集成 :( 查詢驅(qū)動 ) ? 在多個異種數(shù)據(jù)庫上建立包裝程序( wrappers)和中介程序( mediators ) ? 查詢驅(qū)動方法 ——當從客戶端傳過來一個查詢時,首先使用元數(shù)據(jù)字典將查詢轉(zhuǎn)換成相應異種數(shù)據(jù)庫上的查詢;然后,將這些查詢映射和發(fā)送到局部查詢處理器 ? 數(shù)據(jù)倉庫 : ( 更新驅(qū)動 ) ? 將來自多個異種源的信息預先集成,并存儲在數(shù)據(jù)倉庫中,供直接查詢和分析 查詢驅(qū)動方法和更新驅(qū)動方法的比較 ?查詢驅(qū)動的方法 ? 需要負責的信息過濾和集成處理 ? 與局部數(shù)據(jù)源上的處理競爭資源 ? 對于頻繁的查詢,尤其是涉及聚集(匯總)操作的查詢,開銷很大(決策支持中常見的查詢形式) ?更新驅(qū)動的方法(帶來高性能) ? 數(shù)據(jù)經(jīng)預處理后單獨存儲,對聚集操作提供良好支持 ? 不影響局部數(shù)據(jù)源上的處理 ? 集成歷史信息,支持負責的多維查詢 數(shù)據(jù)倉庫與操作數(shù)據(jù)庫系統(tǒng) ?操作數(shù)據(jù)庫系統(tǒng)的主要任務是聯(lián)機事務處理OLTP ? 日常操作 : 購買,庫存,銀行,制造,工資,注冊,記帳等 ?數(shù)據(jù)倉庫的主要任務是聯(lián)機分析處理 OLAP ? 數(shù)據(jù)分析和決策支持,支持以不同的形式顯示數(shù)據(jù)以滿足不同的用戶需要 OLTP VS. OLAP(1) ?用戶和系統(tǒng)的面向性 ? 面向顧客(事務) VS. 面向市場(分析) ?數(shù)據(jù)內(nèi)容 ? 當前的、詳細的數(shù)據(jù) VS. 歷史的、匯總的數(shù)據(jù) ?數(shù)據(jù)庫設計 ? 實體-聯(lián)系模型 (ER)和面向應用的數(shù)據(jù)庫設計 VS. 星型 /雪花模型和面向主題的數(shù)據(jù)庫設計 OLTP VS. OLAP(2) ?數(shù)據(jù)視圖 ? 當前的、企業(yè)內(nèi)部的數(shù)據(jù) VS. 經(jīng)過演化的、集成的數(shù)據(jù) ?訪問模式 ? 事務操作 VS. 只讀查詢(但很多是復雜的查詢) ?任務單位 ? 簡短的事務 VS. 復雜的查詢 ?訪問數(shù)據(jù)量 ? 數(shù)十個 VS. 數(shù)百萬個 OLAP VS. OLTP (3) ?用戶數(shù) ? 數(shù)千個 VS. 數(shù)百個 ?數(shù)據(jù)庫規(guī)模 ? 100M數(shù) GB VS. 100GB數(shù) TB ?設計優(yōu)先性 ? 高性能、高可用性 VS. 高靈活性、端點用戶自治 ?度量 ? 事務吞吐量 VS. 查詢吞吐量、響應時間 為什么需要一個分離的數(shù)據(jù)倉庫 ? ?提高兩個系統(tǒng)的性能 ? DBMS是為 OLTP而設計的:存儲方式 ,索引 , 并發(fā)控制 , 恢復 ? 數(shù)據(jù)倉庫是為 OLAP而設計:復雜的 OLAP查詢 , 多維視圖,匯總 ?不同的功能和不同的數(shù)據(jù) : ? 歷史數(shù)據(jù) : 決策支持需要歷史數(shù)據(jù),而這些數(shù)據(jù)在操作數(shù)據(jù)庫中一般不會去維護 ? 數(shù)據(jù)匯總:決策支持需要將來自異種源的數(shù)據(jù)統(tǒng)一(如聚集和匯總) ? 數(shù)據(jù)質(zhì)量 : 不同的源使用不一致的數(shù)據(jù)表示、編碼和格式,對這些數(shù)據(jù)進行有效的分析需要將他們轉(zhuǎn)化后進行集成 多維數(shù)據(jù)模型 (1) ?數(shù)據(jù)倉庫和 OLAP工具基于多維數(shù)據(jù)模型 ?在多維數(shù)據(jù)模型中,數(shù)據(jù)以數(shù)據(jù)立方體 (data cube)的形式存在 ? 數(shù)據(jù)立方體 允許以多維數(shù)據(jù)建模和觀察。 ? 操作數(shù)據(jù)庫系統(tǒng) : 主要保存當前數(shù)據(jù)。 ? 關系數(shù)據(jù)庫,一般文件, 聯(lián)機事務處理( OLTP)記錄 ?使用數(shù)據(jù)清理和數(shù)據(jù)集成技術。 ?逐步被聯(lián)機分析處理 (OLAP) 取代 ?主管信息服務( EIS)、地理信息服務( GIS)、OLAP、知識發(fā)現(xiàn)系統(tǒng)、專家系統(tǒng) 桌面 DSS ?Microsoft Excel、 Lotus 12 ExpertChoice 數(shù)據(jù)倉庫與 OLAP ?數(shù)據(jù)倉庫是什么?它與數(shù)據(jù)庫系統(tǒng)有什么不同? ?數(shù)據(jù)立方體 ?數(shù)據(jù)立方體上的 OLAP操作 數(shù)據(jù)倉庫-數(shù)據(jù)挖掘的有效平臺 ?數(shù)據(jù)倉庫中的數(shù)據(jù)清理和數(shù)據(jù)集成,是數(shù)據(jù)挖掘的重要數(shù)據(jù)預處理步驟 ?數(shù)據(jù)倉庫提供 OLAP工具,可用于不同粒度的數(shù)據(jù)分析 ?很多數(shù)據(jù)挖掘功能都可以和 OLAP操作集成,以提供不同概念層上的知識發(fā)現(xiàn) ? 分類 ? 預測 ? 關聯(lián) ? 聚集 什么是數(shù)據(jù)倉庫 ? ?數(shù)據(jù)倉庫的定義很多,但卻很難有一種嚴格的定義 ? 它是一個提供決策支持功能的數(shù)據(jù)庫,它與公司的操作數(shù)據(jù)庫分開維護。 ? 特殊任務:特殊任務是指一般任務在某一特定情況下的描述,例如,數(shù)據(jù)清理任務有特殊任務,比如清理數(shù)值和清理分類值。 CrispDM參考模型的階段 ? CrispDM數(shù)據(jù)挖掘方法論能通過分層流程模型來描述,包括一組描述 4個抽象層次的任務: ? 階段:流程的最頂層是階段。 ? 面向生產(chǎn)到銷售的全過程 ? 電子商務 CrispDM模型 ?跨行業(yè)數(shù)據(jù)挖掘標準流程 (CrossIndustry Standard Process for Data Mining, CrispDM) 數(shù)據(jù)挖掘方法論最初由 SPSS、 NCR和DaimlerChrysler三個公司在 1996年提出。 ? 主要關注單一任務的、研究驅(qū)動的工具組成 ? 操作復雜 ? 結(jié)果表示和可視化效果不理想 ? 第二代:數(shù)據(jù)挖掘系統(tǒng)套裝 (suite),1995年??梢詾榻M織機構(gòu)提供一種優(yōu)化商務數(shù)據(jù)處理的方法 ? 企業(yè)(組織)數(shù)據(jù)更加全面,生產(chǎn)、銷售、質(zhì)量 ? 數(shù)據(jù)挖掘公司關注各個不同的行業(yè) ? 對大型、超大型、復雜的數(shù)據(jù)進行數(shù)據(jù)挖掘 ?DM可以用于商務應用,依靠三種成熟技術所支持 ? 大量數(shù)收集 ? 功能強大的多處理器計算機 ? 數(shù)據(jù)挖掘算法 數(shù)據(jù)挖掘演變 進化階段 商業(yè)問題 支持技術 產(chǎn)品廠家 產(chǎn)品特點 數(shù)據(jù)搜集 (60年代 ) “ 過去五年中我的總收入是多少? ” 計算機、磁帶和磁盤 IBM CDC 提供歷史性的、靜態(tài)的數(shù)據(jù)信息 數(shù)據(jù)訪問 (80年代 ) “ 在新英格蘭的分部去年三月的銷售額是多少? ” 關系數(shù)據(jù)庫 (RDBMS) 結(jié)構(gòu)化查詢語言 (SQL) ODBC Oracle Sybase Informix IBM Microsoft 在記錄級提供歷史性的、動態(tài)數(shù)據(jù)信息 數(shù)據(jù)倉庫 決策支持 (90年代 ) “ 在新英格蘭的分部去年三月的銷售額是多少?波士頓據(jù)此可得出什么結(jié)論? ” 聯(lián)機分析處理 (OLAP) 多維數(shù)據(jù)庫 數(shù)據(jù)倉庫 Pilot Comshare Arbor Cognos Microstrategy 在各種層次上提供回溯的、動態(tài)的數(shù)據(jù)信息 數(shù)據(jù)挖掘 (正在流行) “ 下個月波士頓的銷售會怎么樣?為什么? ” 高級算法 多處理器計算機 海量數(shù)據(jù)庫 Pilot Lockhee
點擊復制文檔內(nèi)容
教學課件相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1