freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

第2章數(shù)據(jù)倉庫的數(shù)據(jù)存儲與處理(編輯修改稿)

2025-01-29 13:12 本頁面
 

【文章內(nèi)容簡介】 如果 A, B相關(guān)性大,分析時就可以刪除其中一個。 相關(guān)分析:討論兩個屬性的相關(guān)性。 A平 = ΣA/n σA= SQRT[Σ(A A平 )2/(n1)] 其中 A平、 B平 分別是 A、 B的平均值; σ A 、 σ B分別是 A、 B的標(biāo)準(zhǔn)差。 30 ○ 檢測并解決數(shù)據(jù)值的沖突 不同的數(shù)據(jù)表示,不同的度量等等。 例如: 對現(xiàn)實世界中的同一實體,來自不同數(shù)據(jù)源的屬性值可能是不同的(如價格的單位:元、千元)。 1)數(shù)據(jù)集成(續(xù)) 31 2)數(shù)據(jù)變換 ? 平滑: 去除數(shù)據(jù)中的噪聲。如分箱、聚類、回歸。 ? 聚集: 對數(shù)據(jù)進(jìn)行聚集和匯總,數(shù)據(jù)立方體的構(gòu)建。 ? 數(shù)據(jù)概化: 沿概念分層向上匯總。 ? 規(guī)范化: 將數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間。 ?最?。畲笠?guī)范化 ? zscore規(guī)范化 ?小數(shù)定標(biāo)規(guī)范化 ? 屬性構(gòu)造 ?通過現(xiàn)有屬性構(gòu)造新的屬性,并添加到屬性集中。 32 數(shù)據(jù)變換 —— 規(guī)范化 maxA,minA :屬性 A的最大與最小值 new_ maxA,new_minA:屬性 A變換后區(qū)間的最大與最小值 AAAAAA minnewminnewmaxnewminmaxminvv _)__(39。 ?????※ 最?。畲笠?guī)范化 :對原始數(shù)據(jù)進(jìn)行線性變換,使得數(shù)據(jù)落在 new_ maxA,new_minA區(qū)間內(nèi)。 例 :( 一般映射到 [0, 1]區(qū)間) 工資在 700~12023之間,則工資 7830規(guī)范化后為: V’=( 7830700) /( 12023700) *( 10) +0= 33 數(shù)據(jù)變換 —— 規(guī)范化 39。AvAv???※ zscore規(guī)范化 :基于屬性 A的平均值和標(biāo)準(zhǔn)差規(guī)范化。 ※ 小數(shù)定標(biāo)規(guī)范化:通過移動屬性 A的小數(shù)點位置進(jìn)行規(guī)范化。 39。 10 jvv ?其中 j是使得 max( |v‘|) 1的最小整數(shù)。 34 3)數(shù)據(jù)歸約 ?數(shù)據(jù)立方體聚集 ?維歸約 ?數(shù)據(jù)壓縮 ?數(shù)值歸約 ?離散化和概念分層產(chǎn)生 數(shù)據(jù)倉庫中往往存有海量數(shù)據(jù) , 在其上進(jìn)行復(fù)雜的數(shù)據(jù)分析與挖掘需要很長的時間 。 數(shù)據(jù)歸約可以用來得到數(shù)據(jù)集的歸約表示 , 它小得多 , 但可以產(chǎn)生相同的 ( 或幾乎相同的 ) 分析結(jié)果 。 數(shù)據(jù)歸約策略: 35 ( 1) 數(shù)據(jù)立方體聚集 ?最底層的方體對應(yīng)于基本方體 ?基本方體對應(yīng)于感興趣的實體 (基本事實表) ?在數(shù)據(jù)立方體中存在著不同級別的匯總 ?數(shù)據(jù)立方體可以看成方體的格 ?每個較高層次的抽象將進(jìn)一步減少結(jié)果數(shù)據(jù) ?數(shù)據(jù)立方體提供了對預(yù)計算的匯總數(shù)據(jù)的快速訪問 ?使用與給定任務(wù)相關(guān)的最小方體 (基本方體,注意數(shù)據(jù)立方體的晶格結(jié)構(gòu)) ?在可能的情況下,對于匯總數(shù)據(jù)的查詢應(yīng)當(dāng)使用數(shù)據(jù)立方體 (item) (city) (year) (city, item) (city, year) (item, year) (city, item, year) 36 (2)維歸約 ?通過 刪除不相干的屬性 (或維 )減少數(shù)據(jù)量 ?屬性子集選擇方法 ?目標(biāo):找出最小屬性集,使得數(shù)據(jù)類的概率分布盡可能的接近使用所有屬性的原分布。 ?好處:減少出現(xiàn)在發(fā)現(xiàn)模式上的屬性的數(shù)目,使得模式更易于理解。 ?啟發(fā)式的 (探索性的\貪心算法)方法 ?逐步向前選擇:從空集開始,逐步添加 ?逐步向后刪除:從整個屬性集開始,逐步刪除 ?向前選擇和向后刪除相結(jié)合 ?判定歸納樹:如 ID3和 37 (3)數(shù)據(jù)壓縮 ?有損壓縮 VS. 無損壓縮 ?字符串壓縮 ?有廣泛的理論基礎(chǔ)和精妙的算法 ?通常是無損壓縮 ?在解壓縮前對字符串的操作非常有限 ?音頻 /視頻壓縮 ?通常是有損壓縮,壓縮精度可以遞進(jìn)選擇 ?有時可以在不解壓整體數(shù)據(jù)的情況下,重構(gòu)某個片斷 ?兩種有損數(shù)據(jù)壓縮方法:小波變換和主要成分分析 38 2. 數(shù)據(jù)索引:位圖索引和連接索引 數(shù)據(jù)加載和索引( Load/Index) 1. 數(shù)據(jù)加載:將數(shù)據(jù)寫入數(shù)據(jù)倉庫或數(shù)據(jù)集市的過程 。 ?刷新方式:在定期間隔對目標(biāo)數(shù)據(jù)進(jìn)行批量重寫 全部更新加載 。 ?更新方式:只將源數(shù)據(jù)中的數(shù)據(jù)改變寫進(jìn)數(shù)據(jù)倉庫的方法 , 但不覆蓋或刪除以前的記錄而是通過時間戳來區(qū)分 部分更新加載 。 ?SQL命令,例如: INSERT或 UPDATE ?數(shù)據(jù)倉庫供應(yīng)商或第三方提供專門的加載工具 ?由數(shù)據(jù)倉庫管理員編寫自定義程序 ? 傳統(tǒng)索引:將給定列上的值映射到具有該值的行表上 。 ? 連接索引:登記來自兩個關(guān)系數(shù)據(jù)庫的可連接行 。 例如: R(RID,A)和 S(B,SID)在屬性 A和 B上連接 , 其連接索引為 (RID,SID)。 連接索引舉例: 40 多維數(shù)據(jù)模型 導(dǎo)出數(shù)據(jù)的特征: 。 2. 為特定用戶和特定應(yīng)用定制的數(shù)據(jù),并為之提供快速響應(yīng)。 3. 數(shù)據(jù)模型為星型模式。 EDW、 ODS 選擇、格式化、聚集 數(shù)據(jù)集市 調(diào)和數(shù)據(jù) 導(dǎo)出數(shù)據(jù) 導(dǎo)出數(shù)據(jù)層的存儲方式: 1. 存儲在多維數(shù)據(jù)庫中,即按照多維數(shù)組方式存儲,對應(yīng) MOLAP。 2. 存儲在關(guān)系數(shù)據(jù)庫中,采用星型模式及其變體,對應(yīng) ROLAP。 41 多維數(shù)據(jù)模型及其相關(guān)概念 多維數(shù)據(jù)模型的相關(guān)概念 ? 維: 是人們觀察數(shù)據(jù)的特定角度 , 是考慮問題時的一類屬性 , 此類屬性的集合構(gòu)成一個維度 。 ( 1) 從時間角度觀察產(chǎn)品的銷售 , 則時間是一個維 ( 時間維 ) 。 ( 2) 從地理分布角度觀察產(chǎn)品的銷售 , 則地理分布是一個維 ( 地理維 ) 。 ? 維類別 ( 維分層 ) :同一維度可以存在細(xì)節(jié)程度不同的各個類別屬性 。 例如: 時間維包括年 、 月 、 日;地理維包括省 、 市 、 縣 。 ? 維屬性: 維的一個取值 。 ? 度量: 多維數(shù)據(jù)空間中的單元格 , 用于存放數(shù)據(jù) , 也叫事實 。 ? 粒度 :是對數(shù)據(jù)倉庫中數(shù)據(jù)的綜合程度高低的一個衡量 。
點擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1