freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的olap技術(shù)(更新版)

  

【正文】 t() min() max() ? 代數(shù)度量 average() mean() 加權(quán)平均 截?cái)嗥骄? 減小極端值的影響 ? 整體度量 中位數(shù) 眾數(shù) ? 中列數(shù) (max+min)/2 度量數(shù)據(jù)的中心趨勢(shì) 2020/9/16 59 ? 極差、四分位數(shù)、離群點(diǎn)和箱形圖 ? 方差 標(biāo)準(zhǔn)差 度量數(shù)據(jù)的離散趨勢(shì) 2020/9/16 60 ? 直方圖、分位數(shù)圖、分位數(shù) 分位數(shù)圖 ? 散點(diǎn)圖、散點(diǎn)圖陣、 ? Loess曲線 基本描述數(shù)據(jù)匯總的圖形顯示 2020/9/16 61 數(shù)據(jù)清理 ? 忽略元組 ? 人工填寫空缺值 ? 使用一個(gè)全局常量填充空缺值 ? 使用屬性的平均值填充空缺值 ? 使用與給定元組屬同一類的所有樣本的平均值 ? 使用最可能的值填充空缺值 缺失值 2020/9/16 62 ? 分箱:按箱平均值、按箱中值、按箱邊界 ? 聚類 ? 計(jì)算機(jī)和人工檢查結(jié)合 ? 回歸 躁聲數(shù)據(jù) 數(shù)據(jù)清理作為一個(gè)過程 2020/9/16 63 ? 實(shí)體識(shí)別:元數(shù)據(jù)可幫助避免錯(cuò)誤 ? 屬性冗余:相關(guān)分析 ? 數(shù)據(jù)重復(fù) ? 數(shù)據(jù)值沖突的檢測(cè)與處理: 數(shù)據(jù)集成和變換 數(shù)據(jù)集成 2020/9/16 64 ? 平滑 ? 聚集 ? 數(shù)據(jù)概化 ? 規(guī)范化:最小 最大、 ZScore、按小數(shù)定標(biāo) ? 屬性構(gòu)造 數(shù)據(jù)變換 2020/9/16 65 數(shù)據(jù)歸約 歸約數(shù)據(jù)集小、近似保持原數(shù)據(jù)的完整性 數(shù)據(jù)立方體聚集:聚集數(shù)據(jù)立方體 使用與給定任務(wù)相關(guān)的最小方體 屬性子集選擇 檢測(cè)、刪除不相關(guān) 弱相關(guān) 冗于的屬性和維 方法:逐步向前、逐步向后、向前向后結(jié)合 決策樹歸納:信息增益法 2020/9/16 66 數(shù)據(jù)歸約 歸約數(shù)據(jù)集小、近似保持原數(shù)據(jù)的完整性 數(shù)據(jù)壓縮:編碼機(jī)制壓縮數(shù)據(jù) 方法:小波變換、主成分分析( PCA) 數(shù)值壓縮:用替代的、較小的數(shù)據(jù)表示數(shù)據(jù) 方法:有參方法 回歸和對(duì)數(shù)線性模型 無(wú)參方法 直方圖 聚類 抽樣 2020/9/16 67 離散化和概念分層 原始值用區(qū)間值或較高 層的概念替換 離散化:原始值劃分為有限個(gè)區(qū)間,減少了連續(xù)屬性值的個(gè)數(shù) 概念分層:原始值用較高層的概念替換 2020/9/16 68 離散化和概念分層: 對(duì)數(shù)值數(shù)據(jù) :分箱 直方圖分析 聚類分析 基于熵的離散化 (entropy) 通過信息增益方法確定區(qū)間邊界 使用類信息,更可能將區(qū)間邊界定義準(zhǔn)確 基于卡方分析的區(qū)間合并 通過自然劃分分段 345規(guī)則 (P58):將數(shù)值數(shù)據(jù)劃分成相對(duì)一致的區(qū)間 2020/9/16 69 對(duì)分類數(shù)據(jù) : ? 分類數(shù)據(jù)是離散數(shù)據(jù)。細(xì)節(jié)數(shù)據(jù)量太大,會(huì)嚴(yán)重影響分析的效率,而且太多的細(xì)節(jié)數(shù)據(jù)不利于分析人員將注意力集中于有用的信息。事務(wù)型處理是用來協(xié)助企業(yè)對(duì)響應(yīng)事件或事務(wù)的日常商務(wù)活動(dòng)進(jìn)行處理。 OLAP從數(shù)據(jù)倉(cāng)庫(kù)中的綜合數(shù)據(jù)出發(fā),提供面向分析的多維模型,并使用多維分析的方法從多個(gè)角度、多個(gè)層次對(duì)多維數(shù)據(jù)進(jìn)行分析,使決策者能夠以更加自然的方式來分析數(shù)據(jù)。為了創(chuàng)建一個(gè)有效的主題域,必須將這些來自不同數(shù)據(jù)源的數(shù)據(jù)集成起來,使之遵循統(tǒng)一的編碼規(guī)則。 (Data Warehouse) ? 數(shù)據(jù)倉(cāng)庫(kù)用來保存從多個(gè)數(shù)據(jù)庫(kù)或其它信息源選取的數(shù)據(jù) , 并為上層應(yīng)用提供統(tǒng)一 用戶接口,完成數(shù)據(jù)查詢和分析。 ? PLATINUM: 提出了由 InfoPump(數(shù)據(jù)倉(cāng)庫(kù)建模與數(shù)據(jù)加載工具)和 Forestamp。 ? 早期的數(shù)據(jù)倉(cāng)庫(kù)大都采用當(dāng)時(shí)流行的客戶 /服務(wù)器結(jié)構(gòu)。 ? 其他數(shù)據(jù)庫(kù)廠商在數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域也紛紛提出了各自的解決方案。 數(shù)據(jù)倉(cāng)庫(kù)的我國(guó)的發(fā)展 ? 前景:隨著計(jì)算機(jī)技術(shù)的發(fā)展,尤其是分布式技術(shù)的發(fā)展, 數(shù)據(jù)倉(cāng)庫(kù)在我國(guó)有著廣闊的發(fā)展空間和良好的發(fā)展前景。 ? :數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、穩(wěn)定的、隨時(shí)間變化的數(shù)據(jù)集合,用以支持管理決策的過程。 穩(wěn)定性 ? 數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)反映的是一段時(shí)間內(nèi)歷史數(shù)據(jù)的內(nèi)容,是不同時(shí)點(diǎn)的數(shù)據(jù)庫(kù)快照的集合,以及基于撰寫快照進(jìn)行統(tǒng)計(jì)、綜合和重組的導(dǎo)出數(shù)據(jù),而不是聯(lián)機(jī)處理的數(shù)據(jù)。 數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)要求 ? 大量數(shù)據(jù)的組織和管理:包含了大量的歷史數(shù)據(jù),它是從數(shù)據(jù)庫(kù)中提取得來的,不必關(guān)心它的數(shù)據(jù)安全性和數(shù)據(jù)完整性。在事務(wù)型處理環(huán)境中,數(shù)據(jù)庫(kù)要求能支持日常事務(wù)中的大量事務(wù),用戶對(duì)數(shù)據(jù)的存取操作頻率高而每次操作處理的時(shí)間短。 ? 數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的日常管理工作: ? 清除過時(shí)的、不再使用的數(shù)據(jù); ? 定期從源數(shù)據(jù)中提取數(shù)據(jù),刷新數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù); ? 管理元數(shù)據(jù)等
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1