freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

第2章數(shù)據(jù)倉庫的數(shù)據(jù)存儲與處理(編輯修改稿)

2025-01-29 13:12 本頁面
 

【文章內(nèi)容簡介】 如果 A, B相關性大,分析時就可以刪除其中一個。 相關分析:討論兩個屬性的相關性。 A平 = ΣA/n σA= SQRT[Σ(A A平 )2/(n1)] 其中 A平、 B平 分別是 A、 B的平均值; σ A 、 σ B分別是 A、 B的標準差。 30 ○ 檢測并解決數(shù)據(jù)值的沖突 不同的數(shù)據(jù)表示,不同的度量等等。 例如: 對現(xiàn)實世界中的同一實體,來自不同數(shù)據(jù)源的屬性值可能是不同的(如價格的單位:元、千元)。 1)數(shù)據(jù)集成(續(xù)) 31 2)數(shù)據(jù)變換 ? 平滑: 去除數(shù)據(jù)中的噪聲。如分箱、聚類、回歸。 ? 聚集: 對數(shù)據(jù)進行聚集和匯總,數(shù)據(jù)立方體的構建。 ? 數(shù)據(jù)概化: 沿概念分層向上匯總。 ? 規(guī)范化: 將數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間。 ?最小-最大規(guī)范化 ? zscore規(guī)范化 ?小數(shù)定標規(guī)范化 ? 屬性構造 ?通過現(xiàn)有屬性構造新的屬性,并添加到屬性集中。 32 數(shù)據(jù)變換 —— 規(guī)范化 maxA,minA :屬性 A的最大與最小值 new_ maxA,new_minA:屬性 A變換后區(qū)間的最大與最小值 AAAAAA minnewminnewmaxnewminmaxminvv _)__(39。 ?????※ 最?。畲笠?guī)范化 :對原始數(shù)據(jù)進行線性變換,使得數(shù)據(jù)落在 new_ maxA,new_minA區(qū)間內(nèi)。 例 :( 一般映射到 [0, 1]區(qū)間) 工資在 700~12023之間,則工資 7830規(guī)范化后為: V’=( 7830700) /( 12023700) *( 10) +0= 33 數(shù)據(jù)變換 —— 規(guī)范化 39。AvAv???※ zscore規(guī)范化 :基于屬性 A的平均值和標準差規(guī)范化。 ※ 小數(shù)定標規(guī)范化:通過移動屬性 A的小數(shù)點位置進行規(guī)范化。 39。 10 jvv ?其中 j是使得 max( |v‘|) 1的最小整數(shù)。 34 3)數(shù)據(jù)歸約 ?數(shù)據(jù)立方體聚集 ?維歸約 ?數(shù)據(jù)壓縮 ?數(shù)值歸約 ?離散化和概念分層產(chǎn)生 數(shù)據(jù)倉庫中往往存有海量數(shù)據(jù) , 在其上進行復雜的數(shù)據(jù)分析與挖掘需要很長的時間 。 數(shù)據(jù)歸約可以用來得到數(shù)據(jù)集的歸約表示 , 它小得多 , 但可以產(chǎn)生相同的 ( 或幾乎相同的 ) 分析結果 。 數(shù)據(jù)歸約策略: 35 ( 1) 數(shù)據(jù)立方體聚集 ?最底層的方體對應于基本方體 ?基本方體對應于感興趣的實體 (基本事實表) ?在數(shù)據(jù)立方體中存在著不同級別的匯總 ?數(shù)據(jù)立方體可以看成方體的格 ?每個較高層次的抽象將進一步減少結果數(shù)據(jù) ?數(shù)據(jù)立方體提供了對預計算的匯總數(shù)據(jù)的快速訪問 ?使用與給定任務相關的最小方體 (基本方體,注意數(shù)據(jù)立方體的晶格結構) ?在可能的情況下,對于匯總數(shù)據(jù)的查詢應當使用數(shù)據(jù)立方體 (item) (city) (year) (city, item) (city, year) (item, year) (city, item, year) 36 (2)維歸約 ?通過 刪除不相干的屬性 (或維 )減少數(shù)據(jù)量 ?屬性子集選擇方法 ?目標:找出最小屬性集,使得數(shù)據(jù)類的概率分布盡可能的接近使用所有屬性的原分布。 ?好處:減少出現(xiàn)在發(fā)現(xiàn)模式上的屬性的數(shù)目,使得模式更易于理解。 ?啟發(fā)式的 (探索性的\貪心算法)方法 ?逐步向前選擇:從空集開始,逐步添加 ?逐步向后刪除:從整個屬性集開始,逐步刪除 ?向前選擇和向后刪除相結合 ?判定歸納樹:如 ID3和 37 (3)數(shù)據(jù)壓縮 ?有損壓縮 VS. 無損壓縮 ?字符串壓縮 ?有廣泛的理論基礎和精妙的算法 ?通常是無損壓縮 ?在解壓縮前對字符串的操作非常有限 ?音頻 /視頻壓縮 ?通常是有損壓縮,壓縮精度可以遞進選擇 ?有時可以在不解壓整體數(shù)據(jù)的情況下,重構某個片斷 ?兩種有損數(shù)據(jù)壓縮方法:小波變換和主要成分分析 38 2. 數(shù)據(jù)索引:位圖索引和連接索引 數(shù)據(jù)加載和索引( Load/Index) 1. 數(shù)據(jù)加載:將數(shù)據(jù)寫入數(shù)據(jù)倉庫或數(shù)據(jù)集市的過程 。 ?刷新方式:在定期間隔對目標數(shù)據(jù)進行批量重寫 全部更新加載 。 ?更新方式:只將源數(shù)據(jù)中的數(shù)據(jù)改變寫進數(shù)據(jù)倉庫的方法 , 但不覆蓋或刪除以前的記錄而是通過時間戳來區(qū)分 部分更新加載 。 ?SQL命令,例如: INSERT或 UPDATE ?數(shù)據(jù)倉庫供應商或第三方提供專門的加載工具 ?由數(shù)據(jù)倉庫管理員編寫自定義程序 ? 傳統(tǒng)索引:將給定列上的值映射到具有該值的行表上 。 ? 連接索引:登記來自兩個關系數(shù)據(jù)庫的可連接行 。 例如: R(RID,A)和 S(B,SID)在屬性 A和 B上連接 , 其連接索引為 (RID,SID)。 連接索引舉例: 40 多維數(shù)據(jù)模型 導出數(shù)據(jù)的特征: 。 2. 為特定用戶和特定應用定制的數(shù)據(jù),并為之提供快速響應。 3. 數(shù)據(jù)模型為星型模式。 EDW、 ODS 選擇、格式化、聚集 數(shù)據(jù)集市 調(diào)和數(shù)據(jù) 導出數(shù)據(jù) 導出數(shù)據(jù)層的存儲方式: 1. 存儲在多維數(shù)據(jù)庫中,即按照多維數(shù)組方式存儲,對應 MOLAP。 2. 存儲在關系數(shù)據(jù)庫中,采用星型模式及其變體,對應 ROLAP。 41 多維數(shù)據(jù)模型及其相關概念 多維數(shù)據(jù)模型的相關概念 ? 維: 是人們觀察數(shù)據(jù)的特定角度 , 是考慮問題時的一類屬性 , 此類屬性的集合構成一個維度 。 ( 1) 從時間角度觀察產(chǎn)品的銷售 , 則時間是一個維 ( 時間維 ) 。 ( 2) 從地理分布角度觀察產(chǎn)品的銷售 , 則地理分布是一個維 ( 地理維 ) 。 ? 維類別 ( 維分層 ) :同一維度可以存在細節(jié)程度不同的各個類別屬性 。 例如: 時間維包括年 、 月 、 日;地理維包括省 、 市 、 縣 。 ? 維屬性: 維的一個取值 。 ? 度量: 多維數(shù)據(jù)空間中的單元格 , 用于存放數(shù)據(jù) , 也叫事實 。 ? 粒度 :是對數(shù)據(jù)倉庫中數(shù)據(jù)的綜合程度高低的一個衡量 。
點擊復制文檔內(nèi)容
公司管理相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1