freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的olap技術(shù)(參考版)

2024-08-24 12:12本頁面
  

【正文】 ? 方法 ? 由用戶和專家在模式級顯式的說明屬性的部分序 ? 通過顯式的數(shù)據(jù)分組說明分層結(jié)構(gòu)的一部分 ? 說明屬性集,但不說明他們的偏序 ? 只說明部分的屬性集 。 進(jìn)一步發(fā)展和探討 ? 發(fā)現(xiàn)驅(qū)動的探查 :預(yù)計算的度量指出數(shù)據(jù)異常 ,避免人工檢查數(shù)據(jù) . ? 擴(kuò)充 SQL語句的實現(xiàn) (多粒度上的復(fù)雜聚集 ). ? 聯(lián)機(jī)聚集 ,可以顯示迄今為止所知道的 ,而不是等待查詢完全處理完 . ? 最高 N查詢 ,只查詢最高的 N項 ,而不是整個排序的表 ,這導(dǎo)致較快的響應(yīng)時間并減少資源浪費 . 從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘 ? 信息處理 :支持查詢和基本的統(tǒng)計分析 ,并使用表或圖進(jìn)行報告 . ? 分析處理 :支持基本的 OLAP操作 ,在匯總的和細(xì)節(jié)的歷史數(shù)據(jù)上操作 . ? 數(shù)據(jù)挖掘 :支持知識發(fā)現(xiàn) ,包括找出隱藏的模式和關(guān)聯(lián) ,構(gòu)造分析模型 ,進(jìn)行分類和預(yù)測 ,并用可視化工具提供挖掘結(jié)果 . 數(shù)據(jù)倉庫的應(yīng)用 聯(lián)機(jī)分析挖掘 (OLAM) 將聯(lián)機(jī)分析處理與數(shù)據(jù)挖掘集成 ,有以下幾 個原因 : ? 數(shù)據(jù)倉庫中數(shù)據(jù)的高質(zhì)量 :大部分?jǐn)?shù)據(jù)挖掘工具需要在集成的一致的和清理過的數(shù)據(jù)上進(jìn)行 ,經(jīng)由這些預(yù)處理而構(gòu)造的數(shù)據(jù)倉庫不僅用作 OLAP而且也用作數(shù)據(jù)挖掘的數(shù)據(jù)源 . ? 環(huán)繞數(shù)據(jù)倉庫的有價值的信息處理基礎(chǔ)設(shè)施 :謹(jǐn)慎的做法是盡量利用可用的基礎(chǔ)設(shè)施 ,而不是一切從頭做起 . ? 基于 OLAP的探測式數(shù)據(jù)分析 :有效的數(shù)據(jù)挖掘需要探測式數(shù)據(jù)分析 .用戶常常想在不同粒度上分析它們 .聯(lián)機(jī)分析挖掘提供在不同的數(shù)據(jù)子集和不同的抽象層上進(jìn)行數(shù)據(jù)挖掘的工具 . ? 數(shù)據(jù)挖掘功能的聯(lián)機(jī)選擇 :用戶常常不知道想挖掘些什么 .通過將 OLAP與多種數(shù)據(jù)挖掘功能集成在一起 ,聯(lián)機(jī)分析挖掘為用戶選擇所期望的數(shù)據(jù)挖掘功能動態(tài)修改挖掘任務(wù)提供了靈活性 2020/9/16 54 數(shù)據(jù)預(yù)處理 2020年 4月 27日 2020/9/16 55 數(shù)據(jù)預(yù)處理的原因 ? 正確性( Correctness) ? 一致性( Consistency) ? 完整性( Completeness) ? 可靠性( Reliability) 數(shù)據(jù)質(zhì)量的含義 2020/9/16 56 數(shù)據(jù)錯誤的不可避免性 ? 數(shù)據(jù)輸入和獲得過程數(shù)據(jù)錯誤 ? 數(shù)據(jù)集成所表現(xiàn)出來的錯誤 ? 數(shù)據(jù)傳輸過程所引入的錯誤 ? 據(jù)統(tǒng)計有錯誤的數(shù)據(jù)占總數(shù)據(jù)的 5%左右 [Redmen],[Orr98] 數(shù)據(jù)錯誤的危害性 ? 高昂的操作費用 ? 糟糕的決策制定 ? 組織的不信任 ? 分散管理的注意力 2020/9/16 57 數(shù)據(jù)預(yù)處理的形式 ? 數(shù)據(jù)清理 ? 數(shù)據(jù)集成 ? 數(shù)據(jù)變換 ? 數(shù)據(jù)歸約 2020/9/16 58 ? 均值 ? 分布式度量 sum() count() min() max() ? 代數(shù)度量 average() mean() 加權(quán)平均 截斷平均 減小極端值的影響 ? 整體度量 中位數(shù) 眾數(shù) ? 中列數(shù) (max+min)/2 度量數(shù)據(jù)的中心趨勢 2020/9/16 59 ? 極差、四分位數(shù)、離群點和箱形圖 ? 方差 標(biāo)準(zhǔn)差 度量數(shù)據(jù)的離散趨勢 2020/9/16 60 ? 直方圖、分位數(shù)圖、分位數(shù) 分位數(shù)圖 ? 散點圖、散點圖陣、 ? Loess曲線 基本描述數(shù)據(jù)匯總的圖形顯示 2020/9/16 61 數(shù)據(jù)清理 ? 忽略元組 ? 人工填寫空缺值 ? 使用一個全局常量填充空缺值 ? 使用屬性的平均值填充空缺值 ? 使用與給定元組屬同一類的所有樣本的平均值 ? 使用最可能的值填充空缺值 缺失值 2020/9/16 62 ? 分箱:按箱平均值、按箱中值、按箱邊界 ? 聚類 ? 計算機(jī)和人工檢查結(jié)合 ? 回歸 躁聲數(shù)據(jù) 數(shù)據(jù)清理作為一個過程 2020/9/16 63 ? 實體識別:元數(shù)據(jù)可幫助避免錯誤 ? 屬性冗余:相關(guān)分析 ? 數(shù)據(jù)重復(fù) ? 數(shù)據(jù)值沖突的檢測與處理: 數(shù)據(jù)集成和變換 數(shù)據(jù)集成 2020/9/16 64 ? 平滑 ? 聚集 ? 數(shù)據(jù)概化 ? 規(guī)范化:最小 最大、 ZScore、按小數(shù)定標(biāo) ? 屬性構(gòu)造 數(shù)據(jù)變換 2020/9/16 65 數(shù)據(jù)歸約 歸約數(shù)據(jù)集小、近似保持原數(shù)據(jù)的完整性 數(shù)據(jù)立方體聚集:聚集數(shù)據(jù)立方體 使用與給定任務(wù)相關(guān)的最小方體 屬性子集選擇 檢測、刪除不相關(guān) 弱相關(guān) 冗于的屬性和維 方法:逐步向前、逐步向后、向前向后結(jié)合 決策樹歸納:信息增益法 2020/9/16 66 數(shù)據(jù)歸約 歸約數(shù)據(jù)集小、近似保持原數(shù)據(jù)的完整性 數(shù)據(jù)壓縮:編碼機(jī)制壓縮數(shù)
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1