freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘-在線瀏覽

2025-08-11 05:52本頁面
  

【正文】 數(shù)據(jù)倉庫系統(tǒng)主要以現(xiàn)有的商用數(shù)據(jù)庫管理系統(tǒng)作為數(shù)據(jù)的存儲體,與傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)不同,數(shù)據(jù)倉庫系統(tǒng)是以面向主題的、集成的、時變的和穩(wěn)定的為特點,因此在數(shù)據(jù)倉庫系統(tǒng)的建設(shè)中,其主要內(nèi)容為數(shù)據(jù)抽取與數(shù)據(jù)集成。在數(shù)據(jù)清洗中一個重要的問題是重復(fù)數(shù)據(jù)的發(fā)現(xiàn)與刪除.由于數(shù)據(jù)來自不同的數(shù)據(jù)源,所以相同的數(shù)據(jù)經(jīng)常會在數(shù)據(jù)倉庫中出現(xiàn)多個復(fù)本,但由于各個數(shù)據(jù)源的數(shù)據(jù)質(zhì)量有較大差別,同樣的數(shù)據(jù)在錄入時由于拼寫錯誤、不一致的習(xí)慣會出現(xiàn)小的差別,從而被認為是不同的數(shù)據(jù)。目前在重復(fù)數(shù)據(jù)的尋找方面主要采用一些標準文本相似性匹配方j(luò)去,如編輯距離、Cosine Metric等。 聯(lián)機分析技術(shù)聯(lián)機分析技術(shù)是針對數(shù)據(jù)倉庫應(yīng)用中廣泛出現(xiàn)的大量的聚集操作而產(chǎn)生的一種新的技術(shù),總體上講聯(lián)機分析技術(shù)可以分成兩種類型,一種是基于關(guān)系數(shù)據(jù)庫系統(tǒng)實現(xiàn)的聯(lián)機分析系統(tǒng),簡稱ROLAP。目前各個關(guān)系數(shù)據(jù)庫廠商均在它們的關(guān)系數(shù)據(jù)庫管理系統(tǒng)的產(chǎn)品中提供了相應(yīng)的查詢手段,同時為了提高查詢的性能,它們還增加了相應(yīng)的索引機制;另一種基于多維模型實現(xiàn)聯(lián)機分析,簡稱MOLAP。近年在這兩方面均有研究論文發(fā)表??稍诒WC系統(tǒng)查詢的正確性和一致性的同時充分發(fā)揮集群系統(tǒng)的性能。當(dāng)用戶提交查詢的時候,從已經(jīng)計算出來的視圖出發(fā),可以較快地計算出查詢結(jié)果。另一方面是針對OLAP查詢的索引結(jié)構(gòu).比較常見的是基于位圖的索引和UBtree等。例如,Nikos Karayannidis等人對基于層次的簇聚方式存儲的事實表進行聯(lián)機的星形查詢的實現(xiàn)技術(shù)進行了研究,提出了一整套查詢過程的實現(xiàn)方法和優(yōu)化策略,在查詢訪問計劃的實現(xiàn)中充分利用了基于層次的簇聚存儲方式帶來的優(yōu)點。其挖掘?qū)ο蟛粌H可以是數(shù)據(jù)庫,也可以是文件系統(tǒng)或組織在一起的數(shù)據(jù)集合,更主要的是數(shù)據(jù)倉庫。目前,數(shù)據(jù)挖掘是可以從統(tǒng)計學(xué)、數(shù)據(jù)庫和機器學(xué)習(xí)等三個方面進行定義。從數(shù)據(jù)庫的角度來看,數(shù)據(jù)挖掘是指從存儲在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息倉庫中的大量數(shù)據(jù)中發(fā)現(xiàn)有趣的知識的過程。可以理解為,數(shù)據(jù)挖掘是一個從已知數(shù)據(jù)集合中發(fā)現(xiàn)各種模型、概要和導(dǎo)出值的過程。圖1 典型的數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)過程表述如下:從數(shù)據(jù)庫或數(shù)據(jù)倉庫等資源庫中收集數(shù)據(jù),并進行信息的初步篩選;根據(jù)用戶對數(shù)據(jù)信息的要求,由服務(wù)器提取并傳輸有用的數(shù)據(jù);為了對已經(jīng)采集到的數(shù)據(jù)進行更有效的分配,數(shù)據(jù)挖掘引擎對數(shù)據(jù)進行特征化、關(guān)聯(lián)、分類等操作;然后將精確劃分的數(shù)據(jù)信息進行模式評估,從而使搜索僅限制在感興趣的模式上.通過圖形用戶界面,用戶可以方便的與數(shù)據(jù)挖掘系統(tǒng)之間通信.實現(xiàn)對數(shù)據(jù)的使用。由于所用的數(shù)據(jù)挖掘方法不同、所挖掘的數(shù)據(jù)類型與知識類型不同、數(shù)據(jù)挖掘應(yīng)用的不同。掌握數(shù)據(jù)挖掘系統(tǒng)的不同非類,可以幫助用戶確定最適合的數(shù)據(jù)挖掘系統(tǒng)。(2)根據(jù)所挖掘的知識類型來分類:分為特征化、區(qū)分、關(guān)聯(lián)、分類、聚類、孤立點分析f異常數(shù)據(jù))和演變分析、偏差分析、相似性分析等分類。(4)根據(jù)數(shù)據(jù)挖掘方法來分類:如面向數(shù)據(jù)庫的方法、面向數(shù)據(jù)倉庫的方法、機器學(xué)習(xí)方法、統(tǒng)計學(xué)方法、模式識別方法、神經(jīng)網(wǎng)絡(luò)方法等。成對于該應(yīng)用特別有效果的方法。 數(shù)據(jù)挖掘任務(wù)數(shù)據(jù)挖掘任務(wù)有六項,分別是:關(guān)聯(lián)分析、時序模式、聚類、偏差、檢測、預(yù)測。若兩個或多個數(shù)據(jù)項的取值之間重復(fù)出現(xiàn)并且概率很高的時候,就存在某種管理.可以建立起這些數(shù)據(jù)項的關(guān)聯(lián)準則。這里強調(diào)時間序列的影響。在同一類別中,個體之間的距離較小,而不同類別的個體之間的距離偏大。分類是數(shù)據(jù)挖掘中應(yīng)用最多的任務(wù)。一般用規(guī)則或決策樹模式表示。數(shù)據(jù)庫中的數(shù)據(jù)存在很多異常情況。偏差檢測的基本方法是尋找觀察結(jié)果與參照
點擊復(fù)制文檔內(nèi)容
規(guī)章制度相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1