freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的olap技術(shù)-資料下載頁

2025-08-11 12:12本頁面

【導(dǎo)讀】數(shù)據(jù)倉庫的基本概念。自從NCR公司為WalMart建立了第一個數(shù)據(jù)倉庫。1996年,加拿大的IDC公司調(diào)查了62家實現(xiàn)了數(shù)據(jù)。早期的數(shù)據(jù)倉庫大都采用當時流行的客戶/服務(wù)器結(jié)。近年來分布式對象技術(shù)飛速發(fā)展,整個數(shù)據(jù)倉庫。應(yīng)用程序中向用戶提供調(diào)用的接口。IBM的實驗室在數(shù)據(jù)倉庫方面已經(jīng)進行了10多年的研。究,并將研究成果發(fā)展成為商用產(chǎn)品。其他數(shù)據(jù)庫廠商在數(shù)據(jù)倉庫領(lǐng)域也紛紛提出了各自的。IBM:在其DB2UDB發(fā)布一年后的1998年9月發(fā)布。外,IBM還提供了一系列相關(guān)的產(chǎn)品,包括前端工具,形成一整套解決方案。中集成了代號為Plato的OLAP服務(wù)器。的一套較有特色的整體方案。Oracle公司:則推出從數(shù)據(jù)倉庫構(gòu)建、OLAP到數(shù)據(jù)集。由于銀行商業(yè)化的步伐正在加大,各大中型銀行在入世的。數(shù)據(jù)挖掘是與數(shù)據(jù)倉庫密切相關(guān)的一個信息技。自80年代后期以來,聯(lián)機分析處理。數(shù)據(jù)倉庫是與操作型系統(tǒng)相分離的、基于標準企業(yè)。集合,用以支持管理決策的過程。策,而不是事務(wù)處理。大量數(shù)據(jù)的組織和管理:包含了大量的歷史數(shù)據(jù),

  

【正文】 . ? 環(huán)繞數(shù)據(jù)倉庫的有價值的信息處理基礎(chǔ)設(shè)施 :謹慎的做法是盡量利用可用的基礎(chǔ)設(shè)施 ,而不是一切從頭做起 . ? 基于 OLAP的探測式數(shù)據(jù)分析 :有效的數(shù)據(jù)挖掘需要探測式數(shù)據(jù)分析 .用戶常常想在不同粒度上分析它們 .聯(lián)機分析挖掘提供在不同的數(shù)據(jù)子集和不同的抽象層上進行數(shù)據(jù)挖掘的工具 . ? 數(shù)據(jù)挖掘功能的聯(lián)機選擇 :用戶常常不知道想挖掘些什么 .通過將 OLAP與多種數(shù)據(jù)挖掘功能集成在一起 ,聯(lián)機分析挖掘為用戶選擇所期望的數(shù)據(jù)挖掘功能動態(tài)修改挖掘任務(wù)提供了靈活性 2020/9/16 54 數(shù)據(jù)預(yù)處理 2020年 4月 27日 2020/9/16 55 數(shù)據(jù)預(yù)處理的原因 ? 正確性( Correctness) ? 一致性( Consistency) ? 完整性( Completeness) ? 可靠性( Reliability) 數(shù)據(jù)質(zhì)量的含義 2020/9/16 56 數(shù)據(jù)錯誤的不可避免性 ? 數(shù)據(jù)輸入和獲得過程數(shù)據(jù)錯誤 ? 數(shù)據(jù)集成所表現(xiàn)出來的錯誤 ? 數(shù)據(jù)傳輸過程所引入的錯誤 ? 據(jù)統(tǒng)計有錯誤的數(shù)據(jù)占總數(shù)據(jù)的 5%左右 [Redmen],[Orr98] 數(shù)據(jù)錯誤的危害性 ? 高昂的操作費用 ? 糟糕的決策制定 ? 組織的不信任 ? 分散管理的注意力 2020/9/16 57 數(shù)據(jù)預(yù)處理的形式 ? 數(shù)據(jù)清理 ? 數(shù)據(jù)集成 ? 數(shù)據(jù)變換 ? 數(shù)據(jù)歸約 2020/9/16 58 ? 均值 ? 分布式度量 sum() count() min() max() ? 代數(shù)度量 average() mean() 加權(quán)平均 截斷平均 減小極端值的影響 ? 整體度量 中位數(shù) 眾數(shù) ? 中列數(shù) (max+min)/2 度量數(shù)據(jù)的中心趨勢 2020/9/16 59 ? 極差、四分位數(shù)、離群點和箱形圖 ? 方差 標準差 度量數(shù)據(jù)的離散趨勢 2020/9/16 60 ? 直方圖、分位數(shù)圖、分位數(shù) 分位數(shù)圖 ? 散點圖、散點圖陣、 ? Loess曲線 基本描述數(shù)據(jù)匯總的圖形顯示 2020/9/16 61 數(shù)據(jù)清理 ? 忽略元組 ? 人工填寫空缺值 ? 使用一個全局常量填充空缺值 ? 使用屬性的平均值填充空缺值 ? 使用與給定元組屬同一類的所有樣本的平均值 ? 使用最可能的值填充空缺值 缺失值 2020/9/16 62 ? 分箱:按箱平均值、按箱中值、按箱邊界 ? 聚類 ? 計算機和人工檢查結(jié)合 ? 回歸 躁聲數(shù)據(jù) 數(shù)據(jù)清理作為一個過程 2020/9/16 63 ? 實體識別:元數(shù)據(jù)可幫助避免錯誤 ? 屬性冗余:相關(guān)分析 ? 數(shù)據(jù)重復(fù) ? 數(shù)據(jù)值沖突的檢測與處理: 數(shù)據(jù)集成和變換 數(shù)據(jù)集成 2020/9/16 64 ? 平滑 ? 聚集 ? 數(shù)據(jù)概化 ? 規(guī)范化:最小 最大、 ZScore、按小數(shù)定標 ? 屬性構(gòu)造 數(shù)據(jù)變換 2020/9/16 65 數(shù)據(jù)歸約 歸約數(shù)據(jù)集小、近似保持原數(shù)據(jù)的完整性 數(shù)據(jù)立方體聚集:聚集數(shù)據(jù)立方體 使用與給定任務(wù)相關(guān)的最小方體 屬性子集選擇 檢測、刪除不相關(guān) 弱相關(guān) 冗于的屬性和維 方法:逐步向前、逐步向后、向前向后結(jié)合 決策樹歸納:信息增益法 2020/9/16 66 數(shù)據(jù)歸約 歸約數(shù)據(jù)集小、近似保持原數(shù)據(jù)的完整性 數(shù)據(jù)壓縮:編碼機制壓縮數(shù)據(jù) 方法:小波變換、主成分分析( PCA) 數(shù)值壓縮:用替代的、較小的數(shù)據(jù)表示數(shù)據(jù) 方法:有參方法 回歸和對數(shù)線性模型 無參方法 直方圖 聚類 抽樣 2020/9/16 67 離散化和概念分層 原始值用區(qū)間值或較高 層的概念替換 離散化:原始值劃分為有限個區(qū)間,減少了連續(xù)屬性值的個數(shù) 概念分層:原始值用較高層的概念替換 2020/9/16 68 離散化和概念分層: 對數(shù)值數(shù)據(jù) :分箱 直方圖分析 聚類分析 基于熵的離散化 (entropy) 通過信息增益方法確定區(qū)間邊界 使用類信息,更可能將區(qū)間邊界定義準確 基于卡方分析的區(qū)間合并 通過自然劃分分段 345規(guī)則 (P58):將數(shù)值數(shù)據(jù)劃分成相對一致的區(qū)間 2020/9/16 69 對分類數(shù)據(jù) : ? 分類數(shù)據(jù)是離散數(shù)據(jù)。一個分類屬性可能有有限個不同的值。 ? 方法 ? 由用戶和專家在模式級顯式的說明屬性的部分序 ? 通過顯式的數(shù)據(jù)分組說明分層結(jié)構(gòu)的一部分 ? 說明屬性集,但不說明他們的偏序 ? 只說明部分的屬性集
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1