freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

第2章數(shù)據(jù)倉庫的數(shù)據(jù)存儲與處理(存儲版)

2025-01-31 13:12上一頁面

下一頁面
  

【正文】 m) ?定義: 將數(shù)據(jù)從源操作型業(yè)務系統(tǒng)的格式轉(zhuǎn)換到企業(yè)數(shù)據(jù)倉 庫的數(shù)據(jù)格式。 30 ○ 檢測并解決數(shù)據(jù)值的沖突 不同的數(shù)據(jù)表示,不同的度量等等。 32 數(shù)據(jù)變換 —— 規(guī)范化 maxA,minA :屬性 A的最大與最小值 new_ maxA,new_minA:屬性 A變換后區(qū)間的最大與最小值 AAAAAA minnewminnewmaxnewminmaxminvv _)__(39。 數(shù)據(jù)歸約可以用來得到數(shù)據(jù)集的歸約表示 , 它小得多 , 但可以產(chǎn)生相同的 ( 或幾乎相同的 ) 分析結(jié)果 。 例如: R(RID,A)和 S(B,SID)在屬性 A和 B上連接 , 其連接索引為 (RID,SID)。 ( 2) 從地理分布角度觀察產(chǎn)品的銷售 , 則地理分布是一個維 ( 地理維 ) 。 ?雪花模式 ( Snowflake schema) 星型模式的變種 , 其中某些維表是規(guī)范化的 , 因而把數(shù)據(jù)進一步分解到附加表中 , 模式圖形成類似于雪花的形狀 。 ? Kimball提出的多維模型 以分析主題為基本框架組織數(shù)據(jù) , 基于事實表和維表 , 事實表的主碼由維表的所有主碼組成 。 以關(guān)系數(shù)據(jù)庫為核心 , 以關(guān)系型結(jié)構(gòu)進行多維數(shù)據(jù)的表示和存儲 。 ? 度量: 多維數(shù)據(jù)空間中的單元格 , 用于存放數(shù)據(jù) , 也叫事實 。 EDW、 ODS 選擇、格式化、聚集 數(shù)據(jù)集市 調(diào)和數(shù)據(jù) 導出數(shù)據(jù) 導出數(shù)據(jù)層的存儲方式: 1. 存儲在多維數(shù)據(jù)庫中,即按照多維數(shù)組方式存儲,對應 MOLAP。 ?刷新方式:在定期間隔對目標數(shù)據(jù)進行批量重寫 全部更新加載 。 ※ 小數(shù)定標規(guī)范化:通過移動屬性 A的小數(shù)點位置進行規(guī)范化。 ? 聚集: 對數(shù)據(jù)進行聚集和匯總,數(shù)據(jù)立方體的構(gòu)建。 如:工資、基本工資、加班工資 29 Σ[( AA平 )( BB平 ) ] RA,B = ( n1) σA σB ?如果 RA ,B 〉 0,則 A和 B是正相關(guān)的;該值越大,則 A涵蓋 B的可能性越大。 引起不正確屬性值的 原因 : ?數(shù)據(jù)收集工具的問題 ?數(shù)據(jù)輸入錯誤 ?數(shù)據(jù)傳輸錯誤 ?技術(shù)限制 ?命名規(guī)則的不一致 22 處理噪聲數(shù)據(jù)方法 分箱 (binning) ?先排序數(shù)據(jù),并將他們分到等深(寬)的箱中 ?然后對每箱使用平均值平滑、中值平滑和邊界平滑等方法 23 數(shù)據(jù)平滑的分箱方法 price的排序后數(shù)據(jù): 4, 8, 15, 21, 21, 24, 25, 28, 34 劃分為(等深的)箱 箱 1: 4, 8, 15 箱 2: 21, 21, 24 箱 3: 25, 28, 34 ?用箱邊界平滑 箱 1: 4, 4, 15 箱 2: 21, 21, 24 箱 3: 25, 25, 34 ?用箱平均值平滑 箱 1: 9, 9, 9 箱 2: 22, 22, 22 箱 3: 29, 29, 29 ?平均值平滑 箱中每個值被平均值替換 ?中值平滑 箱中每個值被中值(排序后出現(xiàn)次數(shù)最多的值)替換 ?邊界平滑 最小最大值視為邊界, 箱中每個值被靠近的邊界值替換 24 如何處理噪聲數(shù)據(jù)(續(xù)) 聚類 將聯(lián)系松散的數(shù)據(jù)當作孤立點,監(jiān)測并且去除孤立點。 ?缺點:復雜的信息過濾和集成處理,競爭資源 ?數(shù)據(jù)倉庫 更新驅(qū)動 ?將來自多個異種源的信息預先集成,并存儲在數(shù)據(jù)倉庫中,供直接查詢和分析 ?高性能 數(shù)據(jù)倉庫的數(shù)據(jù) ETL過程 12 傳統(tǒng)的異種數(shù)據(jù)庫集成 : 數(shù)據(jù)倉庫 : 更新驅(qū)動 ....... 查詢 轉(zhuǎn)換/集成 子結(jié)果/子查詢 異種數(shù)據(jù)庫 ....... 查詢 查詢 數(shù)據(jù)歸集 異種數(shù)據(jù)庫 13 數(shù)據(jù)倉庫的數(shù)據(jù) ETL過程 ETL概念 數(shù)據(jù) ETL是用來實現(xiàn)異構(gòu)數(shù)據(jù)源的數(shù)據(jù)集成,即完成數(shù)據(jù)的如下工作: ?抓取 /抽?。?Capture/Extract) ?清洗( Scrub or data cleansing) ?轉(zhuǎn)換( Transform) ?裝載與索引( Load and Index) 等數(shù)據(jù)集成工作 14 數(shù)據(jù)具有的特點: ? 詳細的 ?歷史的 ?規(guī)范化的 ETL的目標 ETL過程的目標:為決策支持應用提供一個單一的、權(quán)威的數(shù)據(jù)源。如: 事件數(shù)據(jù): 日期 帳戶 取款標示 取款金額 43472 1 50000 狀態(tài)數(shù)據(jù) : 帳戶 日期 存 /取 金額 帳戶余額 … … … 43472 存款 7000 193000(S1) 43472 取款 5000 143000 (S2) 6 、當前數(shù)據(jù)與周期數(shù)據(jù) 商品名稱 2023725 2023725 100 200 A品牌方便面 B品牌衣服 A001 B002 更新日期 現(xiàn)有庫存量 商品名稱 商品編號 2023726 2023726 2023726 85 210 300 A品牌方便面 B品牌衣服 C品牌礦泉水 A001 B002 C003 更新日期 現(xiàn)有庫存量 商品編號 簡化的庫存表(當前數(shù)據(jù)類型) 1天后簡化的庫存表(當前數(shù)據(jù)類型) 當前數(shù)據(jù) 只保留當前的最新數(shù)據(jù),現(xiàn)存的最新記錄將改變以前記錄中的內(nèi)容;即歷史數(shù)據(jù)將被破壞。 8
點擊復制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1