freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的olap技術(武漢大學-李春葆)-資料下載頁

2025-01-27 02:38本頁面
  

【正文】 維 OLAP等)。 ? 前端客戶工具層 ? 關注的問題:查詢工具、報表工具、分析工具、挖掘工具等。 ? 從體系結構的角度去看,數(shù)據(jù)倉庫模型有以下三種: ? 企業(yè)倉庫 ? 搜集關于跨越整個組織的主題的所有信息。 ? 數(shù)據(jù)集市 ? 企業(yè)范圍數(shù)據(jù)的一個子集,對于特定的客戶是有用的。其范圍限于選定的主題,比如一個商場的數(shù)據(jù)集市。 ? 獨立的數(shù)據(jù)集市 VS. 非獨立的數(shù)據(jù)集市(數(shù)據(jù)來自于企業(yè)數(shù)據(jù)倉庫)。 ? 虛擬倉庫 ? 操作數(shù)據(jù)庫上的一系列視圖。 ? 只有一些可能的匯總視圖被物化。 ? 數(shù)據(jù)倉庫開發(fā)上的困難 ? 自頂向下的開發(fā)方法從全系統(tǒng)的角度提供解決方案,使得(模塊)集成的問題最?。坏窃摲椒ㄊ职嘿F,需要對組織進行長期研究和建模分析。 ? 自底向上方法提供了更多的開發(fā)靈活性,價格便宜;但往往會遇到集成問題(每個模塊單獨運行都沒有問題,但是一集成就出異常)。 ? 解決方法 ? 使用遞增性、演化性的開發(fā)方法 ? 高層數(shù)據(jù)模型 ?企業(yè)倉庫和數(shù)據(jù)集市并行開發(fā) ?通過分布式模型集成各數(shù)據(jù)集市 ?多層數(shù)據(jù)倉庫。 OLAP服務器類型 ? 邏輯上, OLAP服務器從數(shù)據(jù)倉庫或數(shù)據(jù)集市中給商業(yè)用戶提供多維數(shù)據(jù) ? 物理上, OLAP的底層數(shù)據(jù)存儲實現(xiàn)可以有多種不同的方式 ? 關系 OLAP服務器( ROLAP) ? 使用關系數(shù)據(jù)庫或擴展的關系數(shù)據(jù)庫存放并管理數(shù)據(jù)倉庫的數(shù)據(jù),而用 OLAP中間件支持其余部分。 ? 包括每個 DBMS后端優(yōu)化,聚集導航邏輯的實現(xiàn),附加的工具和服務。 ? 較大的可擴展性。 ? 多維 OLAP服務器( MOLAP) ? 基于數(shù)組的多維存儲引擎(稀疏矩陣技術)。 ? 能對預計算的匯總數(shù)據(jù)快速索引。 ? 混合 OLAP服務器( HOLAP) ? 結合上述兩種技術,更大的使用靈活性。 ? 特殊的 SQL服務器 ? 在星型和雪花模型上支持 SQL查詢。 數(shù)據(jù)倉庫的實現(xiàn) ? 數(shù)據(jù)倉庫中的 OLAP查詢是一種海量數(shù)據(jù)計算 (想象一下對過去 10年各地區(qū)的軟件產(chǎn)品銷售的匯總查詢) ? 用戶卻希望這個計算能在數(shù)秒鐘內完成 ? 解決方法在于給出一種有效的計算數(shù)據(jù)立方體的方法 ? 匯總的數(shù)據(jù)立方體可以被看成是一個立方體的格 ? 最底層的立方體是基本立方體 ? 最頂端的立方體(頂點)只包含一個單元的值 ? 一個 n維的數(shù)據(jù)立方體,每維 Li層,可能產(chǎn)生的立方體總數(shù)是多少? )ni i(LT 11 ???? 數(shù)據(jù)立方體的有效計算 1表示原始數(shù)據(jù)即 all層 編號 日期 商品 地區(qū) 數(shù)量 1 長虹電視機 南京市 … 1 2 美的微波爐 上海市 … 2 3 … … 1 4 … … 2 5 … … 3 6 … … 2 … … … … … 事實表(可看成是基本立方體): 一個立方體是某種匯總的結果 商品維 電子 日用品 農(nóng)用物資 冰箱 彩電 空調 維層次關系 類劃分 商品大類 商品小類 地區(qū)維(上卷到省市) 日期維(上卷到季度) 商品維(上卷到商品類別) 一個立方體( 3維) 立方體是 OLAP的基礎。例如: 對比江蘇和上海在 2023二季度的日用品銷售情況 當上述立方體存在時,其計算過程就非??臁? (商品) (地區(qū)) () (日期) (地區(qū) ,商品) (地區(qū) ,日期) (商品 ,日期) (地區(qū) ,商品 ,日期) 當 Li=1時(沒有概念分層), T=2n 這里有 8個立方體。 立方體格: 則立方體總數(shù) T=(4+1) (3+1) (2+1)=60個 盡管立方體可以提高 OLAP的效率,但事先產(chǎn)生所有的立方體是不現(xiàn)實的。 年 月 季度 日 假設日期 : 4層 假設地區(qū) : 假設商品 : 商品大類 商品小類 省 市 縣 3層 2層 數(shù)據(jù)立方體的物化 ? 數(shù)據(jù)立方體的物化可以有以下三種選擇: ? 全物化 ? 預先計算所有立方體。對于 n維數(shù)據(jù)立方體,可能產(chǎn)生的立方體總數(shù)是 T=(L1+1)(L2+1)…(L n+1), Li表示維 i的層次數(shù),例如, n=10,每維 10層,則立方體總數(shù)約為 9800000個。 日用品涉及的立方體 例:求 2023一季度的日用品 通常,這種選擇需要海量存儲空間來存放所有預計算的立方體。 優(yōu)點是 OLAP速度快。 ? 不物化 ? 不預先計算任何“非基本”立方體 事實表 匯總 涉及大量上卷操作(表連接) 這可能導致回答查詢時,因進行昂貴的多維聚集計算,速度非常慢。 維災難?。?! ? 部分物化 ? 有選擇的計算一個所有立方體的適當子集 ? 考慮因素 :( 1) 確定要物化的立方體;( 2)在查詢時利用物化的立方體;( 3)在裝載和刷新時,有效地更新物化的立方體 有選擇地計算整個可能的立方體集中一個適當?shù)淖蛹2糠治锘谴鎯臻g和響應時間兩者之間的很好折衷。 ? 確定物化哪些立方體 ? 考慮工作負荷下的查詢、它們的頻率和它們的開銷等等。 日用品涉及的立方體 立方體的操作 ? DMQL中的立方體定義和計算 define cube sales[item, city, year]: sum(sales_in_dollars) pute cube sales ? 上述的 pute cube子句可以轉化為一個類似于 SQL的語句 SELECT item, city, year, SUM (amount) FROM SALES CUBE BY item, city, year ? 這個相當于 SQL中以下的 group by子句 ? (item, city, year) - 3D ? (item, city), (item year), (city, year)- 2D ? (item), (city), (year) - 1D ? () - 0D ( item) ( city) () ( year) ( city, item) ( city, year) ( item, year) ( city, item, year) 假設為 AllElectrics定義了維和數(shù)據(jù)立方體。 查詢: 對 {brand,province_or_state}查詢 year=2023。 有 4個立方體可用: 立方體 1: {year,item_name,city} 立方體 2: {year,brand,country} 立方體 3: {year,brand,prvoince_or_state} 立方體 4: {item_name,province_or_state},其中year=2023 以上 4個立方體,應當選擇哪一個處理查詢? 立方體 2不能用:較細粒度的數(shù)據(jù)不能由較粗粒度的數(shù)據(jù)產(chǎn)生??捎昧⒎襟w 3和 4。 立方體 3最佳 。 立方體計算: ROLAP和 MOLAP ? 立方體計算的挑戰(zhàn):海量數(shù)據(jù),有限的內存和時間。 ? 基于 ROLAP的方法(底層使用關系模型存儲數(shù)據(jù)) ? 將排序、散列( hashing)和分組操作應用于維的屬性,以便對相關元組重新排序和聚類。 ? 在某些子聚集上分組,作為“部分分組步驟”。 ? 可以由以前計算的聚集計算新的聚集,而不必有基本事實表計算。 ? 基于 MOLAP方法(底層使用多維數(shù)組存儲數(shù)據(jù))。 ? 多路數(shù)組聚集的計算方法 ? 將數(shù)組切成塊(每個塊都可以整個裝入內存)。 ? 通過訪問各個塊來計算匯總值。 索引 OLAP 數(shù)據(jù)-位圖索引 ? 在一個特定列上索引。 ? 列上的每個值是一個位向量 : 位操作很快。 ? 位向量的長度 : 基本表的記錄數(shù)。 ? 如果數(shù)據(jù)表中給定行的屬性值為 v, 則在位圖索引的對應行 , 表示該值的位為 1, 該行的其它位均為 0 。 ? 不適合勢(不同值個數(shù))很高的域。 Cust Region TypeC1 Asia RetailC2 Europe DealerC3 Asia DealerC4 America RetailC5 Europe DealerRecID Retail Dealer1 1 02 0 13 0 14 1 05 0 1RecID Asia Europe America1 1 0 02 0 1 03 1 0 04 0 0 15 0 1 0基本表 在 Region上索引 在 Type上索引 數(shù)據(jù)倉庫后端工具和程序 ? 數(shù)據(jù)倉庫后端工具主要指的是用來裝入和刷新數(shù)據(jù)的工具,包括: ? 數(shù)據(jù)提取 ? 從多個外部的異構數(shù)據(jù)源收集數(shù)據(jù)。 ? 數(shù)據(jù)清理 ? 檢測數(shù)據(jù)中的錯誤并作可能的訂正。 ? 數(shù)據(jù)變換 ? 將數(shù)據(jù)由歷史或主機的格式轉化為數(shù)據(jù)倉庫的格式 ? 裝載 ? 排序、匯總、合并、計算視圖,檢查完整性,并建立索引和分區(qū)。 ? 刷新 ? 將數(shù)據(jù)源的更新傳播到數(shù)據(jù)倉庫中。 數(shù)據(jù)立方體技術的進一步發(fā)展 ? 數(shù)據(jù)立方體發(fā)現(xiàn)驅動的探查。 根據(jù)需求預測物化立方體、異常檢測。 ? 多粒度上的復雜聚集。 在概念分層上物化立方體。 ? 其他進展。 智能化:合理保存查詢結果,為后期查詢提供基礎。 演講完畢,謝謝觀看!
點擊復制文檔內容
試題試卷相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1