freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

第2章數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)與處理-在線瀏覽

2025-02-12 13:12本頁(yè)面
  

【正文】 3725 2023725 15 50 A品牌方便面 B品牌衣服 A001 B002 銷(xiāo)售日期 日銷(xiāo)售量 商品名稱 商品編號(hào) 2023725 2023725 2023726 2023726 15 50 30 25 A品牌方便面 B品牌衣服 C品牌礦泉水 A品牌方便面 A001 B002 C003 A001 銷(xiāo)售日期 日銷(xiāo)售量 商品編號(hào) 簡(jiǎn)化的銷(xiāo)售日?qǐng)?bào)表(周期數(shù)據(jù)類(lèi)型) 1天后簡(jiǎn)化簡(jiǎn)化的銷(xiāo)售日?qǐng)?bào)表(周期數(shù)據(jù)類(lèi)型) 周期數(shù)據(jù) 不僅保留當(dāng)前的最新數(shù)據(jù),而且保留歷史數(shù)據(jù)。如下表。 ?數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)的描述。 ?缺點(diǎn):復(fù)雜的信息過(guò)濾和集成處理,競(jìng)爭(zhēng)資源 ?數(shù)據(jù)倉(cāng)庫(kù) 更新驅(qū)動(dòng) ?將來(lái)自多個(gè)異種源的信息預(yù)先集成,并存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中,供直接查詢和分析 ?高性能 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù) ETL過(guò)程 12 傳統(tǒng)的異種數(shù)據(jù)庫(kù)集成 : 數(shù)據(jù)倉(cāng)庫(kù) : 更新驅(qū)動(dòng) ....... 查詢 轉(zhuǎn)換/集成 子結(jié)果/子查詢 異種數(shù)據(jù)庫(kù) ....... 查詢 查詢 數(shù)據(jù)歸集 異種數(shù)據(jù)庫(kù) 13 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù) ETL過(guò)程 ETL概念 數(shù)據(jù) ETL是用來(lái)實(shí)現(xiàn)異構(gòu)數(shù)據(jù)源的數(shù)據(jù)集成,即完成數(shù)據(jù)的如下工作: ?抓取 /抽取( Capture/Extract) ?清洗( Scrub or data cleansing) ?轉(zhuǎn)換( Transform) ?裝載與索引( Load and Index) 等數(shù)據(jù)集成工作 14 數(shù)據(jù)具有的特點(diǎn): ? 詳細(xì)的 ?歷史的 ?規(guī)范化的 ETL的目標(biāo) ETL過(guò)程的目標(biāo):為決策支持應(yīng)用提供一個(gè)單一的、權(quán)威的數(shù)據(jù)源。 ? 靜態(tài)抽取 ? 增量抽取 注意事項(xiàng): ? 數(shù)據(jù)命名的透明度 ? 業(yè)務(wù)規(guī)則的完整性與準(zhǔn)確性數(shù)據(jù) ? 數(shù)據(jù)格式:跨數(shù)據(jù)源的統(tǒng)一數(shù)據(jù)格式 源文件或者源數(shù)據(jù)庫(kù) 數(shù)據(jù)倉(cāng)庫(kù) 協(xié)調(diào) 可以使用 SELECT FROM ...... INTO ......語(yǔ)句實(shí)現(xiàn) 18 清洗( Scrub/Cleaning) 定義:使用模式識(shí)別和其他技術(shù)將原始數(shù)據(jù)轉(zhuǎn)換和移到數(shù)據(jù)倉(cāng)庫(kù)之前來(lái)升級(jí)原始數(shù)據(jù)質(zhì)量的技術(shù)。 ? 為數(shù)據(jù)解碼 ? 重新格式化、改變數(shù)據(jù)類(lèi)型 ? 增加時(shí)間戳 ? 度量單位轉(zhuǎn)換 ? 為表的每一行產(chǎn)生主碼 ? 找到缺失數(shù)據(jù) ? … 19 清洗( Scrub/Cleaning) 1)空缺值(續(xù)) ? 引起空缺值的原因 ? 設(shè)備異常 ? 與其他已有數(shù)據(jù)不一致而被刪除 ? 因?yàn)檎`解而沒(méi)有被輸入的數(shù)據(jù) ? 在輸入時(shí),有些數(shù)據(jù)因?yàn)榈貌坏街匾暥鴽](méi)有被輸入 ? 對(duì)數(shù)據(jù)的改變沒(méi)有進(jìn)行日志記載(不能恢復(fù)) ? 空缺值要經(jīng)過(guò)推斷而補(bǔ)上 20 如何處理空缺值 ? 忽略元組: 假定挖掘任務(wù)設(shè)計(jì)為分類(lèi)或描述時(shí),缺少類(lèi)標(biāo)號(hào)的元組通常被忽略。 ? 人工填寫(xiě)空缺值 :工作量大,可行性低 ? 使用一個(gè) 全局常量填充空缺值 :比如使用 unknown或 ∞ ? 使用屬性的 平均值 填充空缺值 ? 使用與給定元組 屬同一類(lèi)的所有樣本的平均值 ? 使用最可能的值填充空缺值:使用 Bayesian公式或判定樹(shù) 等基于推斷的方法確定。 引起不正確屬性值的 原因 : ?數(shù)據(jù)收集工具的問(wèn)題 ?數(shù)據(jù)輸入錯(cuò)誤 ?數(shù)據(jù)傳輸錯(cuò)誤 ?技術(shù)限制 ?命名規(guī)則的不一致 22 處理噪聲數(shù)據(jù)方法 分箱 (binning) ?先排序數(shù)據(jù),并將他們分到等深(寬)的箱中 ?然后對(duì)每箱使用平均值平滑、中值平滑和邊界平滑等方法 23 數(shù)據(jù)平滑的分箱方法 price的排序后數(shù)據(jù): 4, 8, 15, 21, 21, 24, 25, 28, 34 劃分為(等深的)箱 箱 1: 4, 8, 15 箱 2: 21, 21, 24 箱 3: 25, 28, 34 ?用箱邊界平滑 箱 1: 4, 4, 15 箱 2: 21, 21, 24 箱 3: 25, 25, 34 ?用箱平均值平滑 箱 1: 9, 9, 9 箱 2: 22, 22, 22 箱 3: 29, 29, 29 ?平均值平滑 箱中每個(gè)值被平均值替換 ?中值平滑 箱中每個(gè)值被中值(排序后出現(xiàn)次數(shù)最多的值)替換 ?邊界平滑 最小最大值視為邊界, 箱中每個(gè)值被靠近的邊界值替換 24 如何處理噪聲數(shù)據(jù)(續(xù)) 聚類(lèi) 將聯(lián)系松散的數(shù)據(jù)當(dāng)作孤立點(diǎn),監(jiān)測(cè)并且去除孤立點(diǎn)。 25 如何處理噪聲數(shù)據(jù)(續(xù)) 回歸 通過(guò)讓數(shù)據(jù)適應(yīng)回歸函數(shù)來(lái)平滑數(shù)據(jù)(線性回歸或多線性回歸)。 27 ( Transform) ?定義: 將數(shù)據(jù)從源操作型業(yè)務(wù)系統(tǒng)的格式轉(zhuǎn)換到企業(yè)數(shù)據(jù)倉(cāng) 庫(kù)的數(shù)據(jù)格式。 1)不是關(guān)系情形 2)不同域情形 3)源數(shù)據(jù)有錯(cuò)誤情形 28 ( Transform) 1)數(shù)據(jù)集成 ?數(shù)據(jù)集成: 將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)整合到一個(gè)一致的數(shù)據(jù)存儲(chǔ)(如數(shù)據(jù)倉(cāng)庫(kù))中。 如:工資、基本工資、加班工資 29 Σ[( AA平 )( BB平 ) ] RA,B = ( n1) σA σB ?如果 RA ,B 〉 0,則 A和 B是正相關(guān)的;該值越大,則 A涵蓋 B的可能性越大。 相關(guān)分析:討論兩個(gè)屬性的相關(guān)性。 30 ○ 檢測(cè)并解決數(shù)據(jù)值的沖突 不同的數(shù)據(jù)表示,不同的度量等等。 1)數(shù)據(jù)集成(續(xù)) 31 2)數(shù)據(jù)變換 ? 平滑: 去除數(shù)據(jù)中的噪聲。 ? 聚集: 對(duì)數(shù)據(jù)進(jìn)行聚集和匯總,數(shù)據(jù)立方體的構(gòu)建。 ? 規(guī)范化: 將數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間。 32 數(shù)據(jù)變換 —— 規(guī)范化 maxA,minA :屬性 A的
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1