freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘chappt課件-免費閱讀

2025-06-05 03:17 上一頁面

下一頁面
  

【正文】 A(month) 40個值 B 29 30 31 32 1 2 3 4 5 9 13 14 15 16 64 63 62 61 48 47 46 45 a1 a0 c3 c2 c1 c 0 b3 b2 b1 b0 a2 a3 C(item) 4000個值 B(city) 400個值 44 28 56 40 24 52 36 20 60 哪個是多路數(shù)組聚集的最佳遍歷次序? 方體計算的多路數(shù)組聚集方法 (2) A(month) 40 B 29 30 31 32 1 2 3 4 5 9 13 14 15 16 64 63 62 61 48 47 46 45 a1 a0 c3 c2 c1 c 0 b3 b2 b1 b0 a2 a3 C(item) 400044 28 56 40 24 52 36 20 60 B(city) 400 方體計算的多路數(shù)組聚集方法 (3) A B 29 30 31 32 1 2 3 4 5 9 13 14 15 16 64 63 62 61 48 47 46 45 a1 a0 c3 c2 c1 c 0 b3 b2 b1 b0 a2 a3 C 44 28 56 40 24 52 36 20 60 B 方體計算的多路數(shù)組聚集方法 (4) ?方法:各平面要按他們大小的升序排列進行排序和計算 ? 詳見書 P50 例 (P52 圖 216有誤 ) ? 思想:將最小的平面放在內(nèi)存中,對最大的平面每次只是取并計算一塊 A B CB CA CA BA BCa l l內(nèi) 存 空 間 需 求 最 大 的 塊 計 算 次 序A B CB CA CA BA B Ca l l內(nèi) 存 空 間 需 求 最 小 的 塊 計 算 次 序方體計算的多路數(shù)組聚集方法 (5) ?根據(jù) 1到 64的掃描次序,在塊內(nèi)存中保存所有相關的 2D平面所需的最小存儲為: ? 40 400(用于整個 AB平面)+ 40 1000(用于AC平面一行)+ 100 1000(用于 BC平面一塊 )= 156, 000 ?這種方法的限制:只有在維數(shù)比較小的情況下,效果才比較理想 (要計算的立方體隨維數(shù)指數(shù)增長) ? 如果維的數(shù)目比較多,可以考慮使用“自底向上的計算”或者時“冰山方體” 計算 OLAP查詢的有效處理 ?確定哪些操作應當在可利用的方體上執(zhí)行: ? 將查詢中的選擇、投影、上卷和下鉆等操作轉(zhuǎn)化為對應的 SQL或 /和 OLAP操作,如: dice = selection + projection ?確定相關操作應當使用哪些物化的方體 ? 找尋 MOLAP中可以利用的索引結(jié)構(gòu)以及壓縮的或是稠密的數(shù)組結(jié)構(gòu) 有效處理 OLAP查詢(示例) 立方體的定義為: sales[time,item,location]: sum(sales_in_dollar) time的維層次 dayweekmonthquateryear location的維層次 streetcityprovince_or_statecountry item的維層次 item_namebrandtype 現(xiàn)在要處理一個 year= 2022,定位在 brand和 province_or_state級別的查詢,現(xiàn)有四個可用的已經(jīng)物化的方體: {item_name, city, year} {brand, country, year} {brand, province_or_state, year} {item_name, province_or_state}其中 year= 2022 Question:以上四個方體,選那個來處理查詢? (要考慮計算的量,以及可以使用的索引等因素) 元數(shù)據(jù)存儲 ?在數(shù)據(jù)倉庫中,元數(shù)據(jù)就是定義數(shù)據(jù)倉庫對象的數(shù)據(jù)。 ? 比如: avg(), min_N(), standard_deviation() ? 整體的 (holistic):描述函數(shù)的子聚集所需的存儲沒有一個常數(shù)界。 數(shù)據(jù)立方體 —— 一個方體的格 all time item location supplier time,item time,location time,supplier item,location item,supplier location,supplier time,item,location time,item,supplier time,location,supplier item,location,supplier time, item, location, supplier 0D(頂點 ) 方體 1D方體 2D 方體 3D 方體 4D(基本 ) 方體 數(shù)據(jù)倉庫的概念模型 ?最流行的數(shù)據(jù)倉庫概念模型是多維數(shù)據(jù)模型。 數(shù)據(jù)倉庫關鍵特征四 —— 數(shù)據(jù)不易丟失 ?盡管數(shù)據(jù)倉庫中的數(shù)據(jù)來自于操作數(shù)據(jù)庫,但他們卻是在物理上分離保存的。 ? 排除對于決策無用的數(shù)據(jù),提供特定主題的簡明視圖。 ? 一般任務:一般任務是每個階段下的任務的一般性描述。 ? 解決具體的商務問題,篩選存儲在大型數(shù)據(jù)庫中的信息,發(fā)現(xiàn)隱藏的模式。 ? 商務機構(gòu)的數(shù)據(jù)挖掘目標主要是改善組織機構(gòu)與它們的顧客之間的溝通質(zhì)量。 ? 數(shù)據(jù)挖掘在人的控制下,使用算法從 數(shù)據(jù) 中提取模式。通過決策支持系統(tǒng)集成數(shù)據(jù)挖掘系統(tǒng),能對特定的問題進行決策,忽略數(shù)據(jù)挖掘工具的細節(jié)。這一層還比較抽象,例如,數(shù)據(jù)清理是一般任務。 數(shù)據(jù)倉庫關鍵特征二 —— 數(shù)據(jù)集成 ?一個數(shù)據(jù)倉庫是通過集成多個異種數(shù)據(jù)源來構(gòu)造的。 ? 操作數(shù)據(jù)庫的更新操作不會出現(xiàn)在數(shù)據(jù)倉庫環(huán)境下。這種模型可以以星型模式、雪花模式、或事實星座模式的形式存在。 ? 比如: median(), mode(), rank() 概念分層 (1) ?一個概念分層( concept hierarchy)定義一個映射序列,將低層概念映射到更一般的高層概念 ? . 表示 location的概念:南寧 ?廣西 ?中國 ?亞洲 ? 概念分層允許我們在各種抽象級審查和處理數(shù)據(jù) ?概念分層可以由系統(tǒng)用戶、領域?qū)<?、知識工程師人工的提供,也可以根據(jù)數(shù)據(jù)分布的統(tǒng)計分析自動的產(chǎn)生 概念分層 (2): location維的一個概念分層 all Europe North_America Mexico Canada Spain Germany Vancouver M. Wind L. Chan ... ... ... ... ... ... all region office country Toronto Frankfurt city 許多概念分層的定義隱含在數(shù)據(jù)庫的模式中。有以下幾種: ? 數(shù)據(jù)倉庫結(jié)構(gòu)的描述 ? 倉庫模式、視圖、維、層次結(jié)構(gòu)、導出數(shù)據(jù)的定義,以及數(shù)據(jù)集市的位置和內(nèi)容 ? 操作元數(shù)據(jù) ? 包括數(shù)據(jù)血統(tǒng) (data lineage)、數(shù)據(jù)類別 (currency of data),以及監(jiān)視信息 ? 匯總用的算法 ? 由操作環(huán)境到數(shù)據(jù)倉庫的映射 ? 關于系統(tǒng)性能的數(shù)據(jù) ? 索引, profiles,數(shù)據(jù)刷新、更新或復制事件的調(diào)度和定時 ? 商務元數(shù)據(jù) ? 商務術語和定義、數(shù)據(jù)擁有者信息、收費政策等 元數(shù)據(jù)的使用 ?元數(shù)據(jù)與數(shù)據(jù)一起,構(gòu)成了數(shù)據(jù)倉庫中的數(shù)據(jù)模型,元數(shù)據(jù)所描述的更多的是這個模型的結(jié)構(gòu)方面的信息??梢詢?yōu)化訪問單元組的次序,使得每個單元被訪問的次數(shù)最小化,從而減少內(nèi)存訪問和磁盤 I/O的開銷。 ? 比如: count(), sum(), min(), max()等 ? 代數(shù)的 (algebraic):函數(shù)可以由一個帶 M個參數(shù)的代數(shù)函數(shù)計算(M為有界整數(shù)),而每個參數(shù)值都可以有一個分布的聚集函數(shù)求得。 0維方體存放最高層的匯總,稱作 頂點方體 ;而存放最底層匯總的方體則稱為 基本方體 。 ? 數(shù)據(jù)倉庫 :從歷史的角度提供信息(比如過去 510 年) ? 數(shù)據(jù)倉庫中的每一個關鍵結(jié)構(gòu)都隱式或顯式地包含時間元素,而操作數(shù)據(jù)庫中的關鍵結(jié)構(gòu)可能就不包括時間元素。 ? 為統(tǒng)一的歷史數(shù)據(jù)分析提供堅實的平臺,對信息處理提供支持 ?數(shù)據(jù)倉庫區(qū)別于其他數(shù)據(jù)存儲系統(tǒng) ? “數(shù)據(jù)倉庫是一個面向主題的、集成的、隨時間而變化的、不容易丟失的數(shù)據(jù)集合,支持管理部門的決策過程 .”—W. H. Inmon 數(shù)據(jù)倉庫關鍵特征一 —— 面向主題 ?面向主題,是數(shù)據(jù)倉庫顯著區(qū)別于關系數(shù)據(jù)庫系統(tǒng)的一個特征 ? 圍繞一些主題,如顧客、供應商、產(chǎn)品等 ? 關注決策者的數(shù)據(jù)建模與分析,而不是集中于組織機構(gòu)的日常操作和事務處理。例如,商業(yè)理解是數(shù)據(jù)挖掘過程的第一個階段。 ? 關注數(shù)據(jù)清理和預處理 ? 集成了數(shù)據(jù)處理及可視化表示等功能 ? Clementine、 Mineset、 Intelligent Miner ? 第三代:基于應用和解決方案的從生產(chǎn)到銷售全過程的數(shù)據(jù)挖掘, 20世紀 90年代
點擊復制文檔內(nèi)容
教學課件相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1