freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘原理及應用v(完整版)

2025-07-01 08:48上一頁面

下一頁面
  

【正文】 性度量以及數(shù)據(jù)特點等 。由于歷史的原因,各操作數(shù)據(jù)庫的組織結構往往是不同的,在這些異構數(shù)據(jù)輸入到數(shù)據(jù)倉庫之前,必須經歷一個集成過程。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 原理及應用 東華理工大學 理學院 劉愛華 目錄 1. 數(shù)據(jù)倉庫基礎 7. 分類和預測 2. 數(shù)據(jù)倉庫設計和實現(xiàn) 8. 關聯(lián)分析 3. 數(shù)據(jù)倉庫實例 9. Web挖掘 4. OLAP和 OLAM 10. 數(shù)據(jù)挖掘實例 5 . 數(shù)據(jù)挖掘基礎 11. 知識 6. 聚類分析 12. 語義網和本體 1 數(shù)據(jù)倉庫基礎 引言 體系結構 組成 元數(shù)據(jù) 數(shù)據(jù)粒度 數(shù)據(jù)模型 ETL 引言 ? 數(shù)據(jù)倉庫定義 數(shù)據(jù)倉庫是在企業(yè)管理和決策中面向主題的、集成的、與時間相關的、不可修改的數(shù)據(jù)集合。 引言 ?集成的 最重要的特點 。 引言 ?與時間相關的 數(shù)據(jù)倉庫以維的形式對數(shù)據(jù)進行組織,時間維是數(shù)據(jù)倉庫中很重要的一個維度。 -技術元數(shù)據(jù)存儲關于數(shù)據(jù)倉庫系統(tǒng)技術細節(jié)的數(shù)據(jù),是用于開發(fā)和管理數(shù)據(jù)倉庫使用的數(shù)據(jù),它保證了數(shù)據(jù)倉庫系統(tǒng)的正常運行; -業(yè)務元數(shù)據(jù)從業(yè)務角度描述數(shù)據(jù)倉庫中的數(shù)據(jù),它提供介于使用者和實際系統(tǒng)之間的語義層,使得數(shù)據(jù)倉庫使用人員能夠“讀懂”數(shù)據(jù)倉庫中的數(shù)據(jù)。與數(shù)據(jù)庫的數(shù)據(jù)模型相類似,數(shù)據(jù)倉庫的數(shù)據(jù)模型也分為三個層次: ? 概念模型 ? 邏輯模型 ? 物理模型 ? 數(shù)據(jù)倉庫的數(shù)據(jù)模型 星型結構 雪花型結構 星型雪花型結構 ? 數(shù)據(jù)倉庫的數(shù)據(jù)=事實數(shù)據(jù)+維度數(shù)據(jù) 不論是星型、雪花型或者是星型雪花型結構都是以事實表為中心。 ETL ? 提高數(shù)據(jù)質量 ? 提供一種統(tǒng)一的、跨平臺的存取數(shù)據(jù)方法 ? 將數(shù)據(jù)“信息化”,為企業(yè)決策者的經營分析提供信息來源 ETL 2 數(shù)據(jù)倉庫設計和實現(xiàn) 數(shù)據(jù)倉庫設計 ETL設計 數(shù)據(jù)倉庫實現(xiàn) ( 1)確定數(shù)據(jù)倉庫的主題 根據(jù)電信業(yè)務和電信運營的需求,電信公司涉及的最主要的 三 個主題是: ? 客戶發(fā)展 ? 收益分析 ? 呼叫特性分析 數(shù)據(jù)倉庫設計 ( 2)數(shù)據(jù)倉庫模型的設計 —— 可用的數(shù)據(jù) 例如,要完成客戶發(fā)展、收益分析、呼叫特性分析三個主題,下列三部分信息是必要的,即: ? 客戶的基本信息表 ? 客戶的賬單信息表 ? 客戶的呼叫信息表 數(shù)據(jù)倉庫設計 ( 2)數(shù)據(jù)倉庫模型的設計 —— 粒度的確定 在數(shù)據(jù)倉庫設計中,最重要的步驟是確定數(shù)據(jù)的粒度。 ETL設計 d. 加載事實表 這中間也涉及到鍵查找的問題,即從有關維表中找到相應的主鍵,并以此作事實表的外鍵??蛻舻臎Q策分析需要對關系數(shù)據(jù)庫進行大量計算才能獲得結果,而查詢的結果并不能滿足決策者提出的需求。 OLAP 將 OLAP與數(shù)據(jù)挖掘結合起來 , 發(fā)展出一種為數(shù)據(jù)挖掘服務的具有新型 OLAP的數(shù)據(jù)倉庫 , 將更能適應實際的需要 。 1989年 8月,在美國底特律召開的第 11屆國際人工智能聯(lián)合會議的專題討論會上首次出現(xiàn)數(shù)據(jù)庫中的知識發(fā)現(xiàn)( Knowledge Discovery in Database, KDD)這一術語。 但往往不合適直接在這些數(shù)據(jù)上進行知識挖掘 , 需要做一些準備工作 , 也就數(shù)據(jù)的預處理 。 實現(xiàn) ? 知識運用 發(fā)現(xiàn)知識是為了運用 , 如何使知識能被運用也是 KDD的步驟之一 。 ? 聚類有效性對聚類分析具有重要意義,被認為是聚類分析的一個瓶頸。在高維空間中聚類是一個挑戰(zhàn),特別是數(shù)據(jù)有可能非常稀疏和偏斜。這常常是高效率算法的弱點。它采用自頂向下、遞歸的、各個擊破的方式構造決策樹。通過學習, SVM可以自動尋找出那些對分類有較好區(qū)分能力的支持向量,由此構造出的分類器可以最大化類與類的間隔,因而有較好的適應能力和較高的分準率。 ? 人工神經網絡 (ANN)預測方法 目前應用最廣泛的短期預測方法。因此,需要專家系統(tǒng)的相關技術。 組合預測方法是建立在信息利用最大化的基礎上,它集結多種單一模型所包含的信息,進行最優(yōu)組合。 多叉樹( ID3)的內部節(jié)點是屬性,邊是該屬性的所有取值,有幾個屬性值,就有幾條邊。對于同樣一組樣本,可以有很多決策樹能符合這組樣本。當數(shù)據(jù)稀疏時,要防止過分剪枝( overpruning)。重復上述過程直到再也發(fā)現(xiàn)不了新的頻繁項集為止。 (3)挖掘過程中采用的搜索技術是基于分區(qū)的 , 通過分割再解決的方法 , 而不是 Apriori類算法的自下向上產生頻繁模式的集合 。 Web挖掘可在很多方面發(fā)揮作用,如搜索引擎結構挖掘、確定權威頁面、 Web文檔分類、 Web日志挖掘和智能檢索等。 -選擇特征變量和數(shù)據(jù)清洗 -建立呼叫指紋庫 -設定呼叫指紋相似度閾值,大于該閾值的匹配用戶對可界定為疑似重入網用戶。只有當表達式 E比列舉所有 FE中元素的描述方法更為簡單時,我們才可稱之為模式。 知識表示 知 識 表 示 方 法替 代 表 示 分 布 表 示直 接 表 示局 部 表 示陳 述 性 表 示過 程 性 表 示邏 輯 表 示 產 生 式 表 示 語 義 網 絡 表 示框 架 表 示腳 本 表 示 知識表示 ?產生式系統(tǒng) 自然界的各種知識單元之間存在著大量的因果關系,這些因果關系或者前提與結論的關系,采用產生式(或稱規(guī)則)表示是非常方便的。 框架是一種通用的知識表達方法,對于如何運用框架還沒有一種統(tǒng)一的形式,常常由各種問題的不同需要決定。 語義網 ?RDF和 RDF Schema層 RDF采用三元組又稱為陳述( Statement),表示互聯(lián)網的資源、屬性和值。 語義網 ?邏輯( Logic)層 該層用來產生規(guī)則,主要提供公理和推理規(guī)則,為智能推理提供基礎。 SPARQL語句的解析,轉化為 SQL以及基于規(guī)則的推理引擎。其主要的數(shù)據(jù)結構是圖,但是用戶操作主要還是在模型上進行。 ?信任( Trust)層 主要提供信任機制,以保證用戶代理( Agent)在 Web上進行個性化服務和交互更安全可靠。 RDF提供了一套標準的數(shù)據(jù)語義描述規(guī)范,但它還需要定義描述中使用的詞匯。 知識管理 ?框架 框架通常由描述事物的各個方面的槽組成,每個槽可以有若干個側面,而每個側面又可以有若干個值。 知識表示 ?語義網絡 語義網絡是對對象及其屬性分類知識編碼的圖形結構。 知識分類 ? 顯性知識 可以通過正常的語言方式傳播的知識,典型的顯性知識主要是指以專利、科學發(fā)明和特殊技術等形式存在的知識,存儲在書本、計算機數(shù)據(jù)庫、 CD ROM中。 ? 數(shù)據(jù) 指一個有關事實 F的集合(如學生檔案數(shù)據(jù)庫中有關學生基本情況的各條記錄),用來描述事物有關方面的信息。 Web聚類 主要困難 ? 一個 Web文檔可能包含多個主題,允許屬于不同主題的文檔歸入多個不同的簇。 優(yōu)點:只掃描數(shù)據(jù)庫二次,并且不用產生候選項集,提高了效率。 Han等提出的一種新的算法理論,用一種壓縮的數(shù)據(jù)結構 (FPtree)存儲關聯(lián)規(guī)則挖掘所需的全部數(shù)據(jù)信息,通過對源數(shù)據(jù)的兩次掃描,將數(shù)據(jù)信息存到這種結構里,避開了產生候選項集的步驟,極大地減少了數(shù)據(jù)交換和頻繁匹配的開銷。 ? 構建模型:預設分類類別 – 對每個樣本進行類別標記 – 訓練集構成分類模型 – 分類模型可表示為:分類規(guī)則、決策樹或數(shù)學公式 ? 使用模型:識別未知對象的所屬類別 – 模型正確性的評價 ? 已標記分類的測試樣本與模型的實際分類結果進行比較 ? 模型的正確率是指測試集中被正確分類的樣本數(shù)與樣本總數(shù)的百分比。要構造盡可能小的決策樹,關鍵在于選擇恰當?shù)倪壿嬇袛嗷驅傩浴? 決策樹 ?
點擊復制文檔內容
環(huán)評公示相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1