freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

7-數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘-文庫(kù)吧在線文庫(kù)

  

【正文】 如: TID(2023)={A,B,C} ? 任務(wù)相關(guān)數(shù)據(jù) D是數(shù)據(jù)庫(kù)事務(wù)的集合 規(guī)則度量:支持度和置信度 T I D 購(gòu)買的 it e m2023 A , B , C1000 A , C4000 A , D5000 B , E , FCustomer buys diaper Customer buys both Customer buys beer ? 對(duì)所有滿足最小支持度和置信度的關(guān)聯(lián)規(guī)則 – 支持度 s是指事務(wù)集 D中包含 的百分比 – 置信度 c是指 D中同時(shí)包含 A和 B的事務(wù)數(shù)與只包含 A的事務(wù)數(shù)的比值 ? 假設(shè)最小支持度為 50%,最小置信度為 50%,則有如下關(guān)聯(lián)規(guī)則 – A ? C (50%, %) – C ? A (50%, 100%) BA?sup ( ) ( )po rt A B P A B? ? ? ( ) ( | ) ( ) / ( )c on fi de nc e A B P B A P A B P A? ? ? ?華中農(nóng)業(yè)大學(xué) 信息學(xué)院 86/101 2023/3/28 知識(shí)點(diǎn)回顧 何為企業(yè)倉(cāng)庫(kù)、數(shù)據(jù)集市?二者有何區(qū)別? 請(qǐng)分析數(shù)據(jù)倉(cāng)庫(kù)、 OLAP、數(shù)據(jù)挖掘的關(guān)系。 同時(shí)滿足最小支持度閾值 (min_sup)和最小置信度閾值 (min_conf)的規(guī)則稱作強(qiáng)規(guī)則。 因此,使用兩個(gè)閾值的作用可以限制數(shù)據(jù)挖掘系統(tǒng)輸出的關(guān)聯(lián)規(guī)則的數(shù)量,盡可能給用戶提供有意義的關(guān)聯(lián)規(guī)則。 ) ,( )48...42 ,( )39...30 ,( puterXbuyskkXin eXage ??華中農(nóng)業(yè)大學(xué) 信息學(xué)院 92/101 2023/3/28 關(guān)聯(lián)規(guī)則挖掘分類 (1) – 根據(jù)規(guī)則中涉及的數(shù)據(jù)維 ? 單維關(guān)聯(lián)規(guī)則: 如果關(guān)聯(lián)規(guī)則中的項(xiàng)或?qū)傩悦總€(gè)只涉及一個(gè)維,則它是單維關(guān)聯(lián)規(guī)則。 – Apriori算法由 連接和剪枝 兩個(gè)步驟組成。 簡(jiǎn)單了解關(guān)聯(lián)規(guī)則的相關(guān)概念及其代表性算法。 ,剪枝后得到 C3={{B,C,E}} ??1st scan C1 L1 最小支持計(jì)數(shù): 2 C2 2st scan C2 最小支持計(jì)數(shù): 2 L2 C3 C3 L3 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 100/101 2023/3/28 總結(jié) 本章簡(jiǎn)單介紹了數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖據(jù)的概念及其相關(guān)技術(shù),重點(diǎn)掌握以下問(wèn)題。由Agrawal等人于 1993年提出。這兩步中,第二步最容易。 最小支持度表示了項(xiàng)集在統(tǒng)計(jì)意義上須滿足的最低程度。 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 88/101 2023/3/28 大型數(shù)據(jù)庫(kù)關(guān)聯(lián)規(guī)則挖掘 (1) 項(xiàng)的集合稱為項(xiàng)集。一個(gè)事務(wù)就是事實(shí)表中的一條記錄。 項(xiàng)。在美國(guó),一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,超市也因此發(fā)現(xiàn)了一個(gè)規(guī)律,在購(gòu)買嬰兒尿布的年輕父親們中,有 30%~40%的人同時(shí)要買一些啤酒。 OLAP 工具的目標(biāo)是簡(jiǎn)化和支持交互數(shù)據(jù)分析;而數(shù)據(jù)挖掘的目標(biāo)是盡可能自動(dòng)處理。 – 特殊的 SQL服務(wù)器 ?在星型和雪花模型上支持 SQL查詢 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 69/101 2023/3/28 元數(shù)據(jù)存儲(chǔ) ? 在數(shù)據(jù)倉(cāng)庫(kù)中, 元數(shù)據(jù)就是定義數(shù)據(jù)倉(cāng)庫(kù)對(duì)象的數(shù)據(jù)。 數(shù)據(jù)和聚合表都存在關(guān)系數(shù)據(jù)庫(kù)。 – 選取將安放在事實(shí)表中的度量 ? 常用的數(shù)字度量包括:售價(jià)、貨物數(shù)量等 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 62/101 2023/3/28 三層數(shù)據(jù)倉(cāng)庫(kù)架構(gòu) (1) 數(shù)據(jù)倉(cāng)庫(kù) 提取 清理 轉(zhuǎn)換 裝入 刷新 OLAP服務(wù)器 查詢報(bào)告 分析 數(shù)據(jù)挖掘 監(jiān)控、 整合 元數(shù)據(jù) 存儲(chǔ) 數(shù)據(jù)源 前端工具 輸出 數(shù)據(jù)集市 操作數(shù)據(jù)庫(kù) 其他外部信息源 數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器 OLAP服務(wù)器 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 63/101 2023/3/28 三層數(shù)據(jù)倉(cāng)庫(kù)架構(gòu) (2) ? 底層:數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)庫(kù)服務(wù)器 – 關(guān)注的問(wèn)題:如何從這一層提取數(shù)據(jù)來(lái)構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)(通過(guò) Gateway( ODBC,JDBC,OLE/DB等)來(lái)提取) ? 中間層: OLAP服務(wù)器 – 關(guān)注的問(wèn)題: OLAP服務(wù)器如何實(shí)施(關(guān)系型OLAP( ROLAP),多維 MOLAP( MOLAP)等) ? 前端客戶工具層 – 關(guān)注的問(wèn)題:查詢工具、報(bào)表工具、分析工具、挖掘工具等 三種數(shù)據(jù)倉(cāng)庫(kù)模型 ? 從體系結(jié)構(gòu)的角度去看,數(shù)據(jù)倉(cāng)庫(kù)模型可以有以下兩種: – 企業(yè)倉(cāng)庫(kù) ?搜集了關(guān)于主題的所有信息,跨越整個(gè)組織 – 數(shù)據(jù)集市 ?企業(yè)范圍數(shù)據(jù)的一個(gè)子集,對(duì)于特定的客戶是有用的。這樣可以以相當(dāng)?shù)偷拇鷥r(jià)前進(jìn),在作出重要承諾之前評(píng)估技術(shù)的利益。 數(shù)據(jù)倉(cāng)庫(kù)的概念模型有哪些?各有什么特點(diǎn)? 多維數(shù)據(jù)模型上的 OLAP操作有哪些? 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 55/101 2023/3/28 數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu) ? 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)級(jí)別(粒度) 高度綜合級(jí)輕度綜合級(jí)當(dāng)前細(xì)節(jié)級(jí)早期細(xì)節(jié)級(jí)元數(shù)據(jù)1995 ~20 04年月銷售表2023 ~20 04年周銷售表2023 ~20 04年銷售情況表1995 ~20 00年 銷售明細(xì)表實(shí)例?早期細(xì)節(jié)數(shù)據(jù) 存儲(chǔ)過(guò)去的詳細(xì)數(shù)據(jù),反映真實(shí)的歷史情況, 這類數(shù)據(jù)隨著時(shí)間增加,數(shù)據(jù)量很大,使用頻率低,一般存儲(chǔ)在轉(zhuǎn)換介質(zhì)中。結(jié)果,模式圖形成類似于雪花的形狀。如增加客戶類別維。 OLAP與 OLTP對(duì)比總結(jié) 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 39/101 2023/3/28 OLAP的幾個(gè)基本概念 維: 維是關(guān)于一個(gè)組織想要記錄的視角或觀點(diǎn)。 例如,如果分析企業(yè)近幾年的銷售情況,那快照 可以每隔一個(gè)月生成一次;如果分析一個(gè)月的暢銷產(chǎn)品,那快照生成間隔就需要每天一次。 – 關(guān)系數(shù)據(jù)庫(kù),一般文件, 聯(lián)機(jī)事務(wù)處理記錄( OLTP) ? 使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù)。 ? 根據(jù)所挖掘的數(shù)據(jù)庫(kù)分類 – 關(guān)系數(shù)據(jù)庫(kù),事務(wù)數(shù)據(jù)庫(kù),流式數(shù)據(jù),面向?qū)ο髷?shù)據(jù)庫(kù),對(duì)象關(guān)系數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù),空間數(shù)據(jù)庫(kù),時(shí)序數(shù)據(jù)庫(kù),文本數(shù)據(jù)庫(kù),多媒體數(shù)據(jù)庫(kù),異構(gòu)數(shù)據(jù)庫(kù),歷史數(shù)據(jù)庫(kù) 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 21/101 2023/3/28 數(shù)據(jù)挖掘系統(tǒng)的分類 (2) – 根據(jù)挖掘的知識(shí)類型 ?特征分析 , 區(qū)分 , 關(guān)聯(lián)分析 , 分類聚類 , 孤立點(diǎn)分析 /演變分析 , 偏差分析等等 . ?多種方法的集成和多層機(jī)挖掘 – 根據(jù)挖掘所用的技術(shù) ?面向數(shù)據(jù)庫(kù)的挖掘、數(shù)據(jù)倉(cāng)庫(kù) 、 OLAP、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、可視化等等 . – 根據(jù)挖掘所用的應(yīng)用 ?金融 ,電信 ,銀行 , 欺詐分析 , DNA分析 ,股票市場(chǎng) , Web挖掘等等 . 第二節(jié):數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的 OLAP技術(shù) 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 23/101 2023/3/28 數(shù)據(jù)倉(cāng)庫(kù)-數(shù)據(jù)挖掘的有效平臺(tái) ? 數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)清理和數(shù)據(jù)集成,是數(shù)據(jù)挖掘的重要數(shù)據(jù)預(yù)處理步驟 ? 數(shù)據(jù)倉(cāng)庫(kù)提供 OLAP工具,可用于不同粒度的數(shù)據(jù)分析 ? 很多數(shù)據(jù)挖掘功能都可以和 OLAP操作集成,以提供不同概念層上的知識(shí)發(fā)現(xiàn) – 分類 – 預(yù)測(cè) – 關(guān)聯(lián) – 聚集 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 24/101 2023/3/28 數(shù)據(jù)倉(cāng)庫(kù)的定義與基本特性 ? 1. 數(shù)據(jù)倉(cāng)庫(kù)的定義 William 1993年所寫(xiě)的論著《 Building the DataWarehouse》 首先系統(tǒng)地闡述了關(guān)于數(shù)據(jù)倉(cāng)庫(kù)的思想、理論,為數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展奠定了歷史基石。 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 13/101 2023/3/28 分類和預(yù)測(cè) 例: 通過(guò)訓(xùn)練數(shù)據(jù)獲得了如下規(guī)則: IF 年齡 =“31..40” AND 收入 =“較高 ” THEN 信用程度 =“優(yōu)秀 ” 規(guī)則的含義:年齡在 31到 40之間,收入較高的情況下,這類顧客 群的信用程度被認(rèn)為是 “ 優(yōu)秀 ” – IF age = “=30” AND student = “no” THEN buys_puter = “no” – IF age = “=30” AND student = “yes” THEN buys_puter = “yes” – IF age = “31… 40” THEN buys_puter = “yes” – IF age = “40” AND credit_rating = “excellent” THEN buys_puter = “yes” – IF age = “40” AND credit_rating = “fair” THEN buys_puter = “no” 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 14/101 2023/3/28 聚類分析 ? 聚類分析: – 將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的過(guò)程。 ? 相比于上述系統(tǒng),數(shù)據(jù)挖掘系統(tǒng)關(guān)注更廣的范圍,是一個(gè)多學(xué)科的融合 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 8/101 2023/3/28 在何種數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 9/101 2023/3/28 數(shù)據(jù)挖掘的主要功能 ——可以挖掘哪些模式? ? 一般功能 – 描述性的數(shù)據(jù)挖掘 – 預(yù)測(cè)性的數(shù)據(jù)挖掘 ? 通常,用戶并不知道在數(shù)據(jù)中能挖掘出什么東西,對(duì)此我們會(huì)在數(shù)據(jù)挖掘中應(yīng)用一些常用的數(shù)據(jù)挖掘功能,挖掘出一些常用的模式,包括: – 概念 /類描述 : 特性化和區(qū)分 – 關(guān)聯(lián)分析 – 分類和預(yù)測(cè) – 聚類分析 – 孤立點(diǎn)分析 – 趨勢(shì)和演變分析 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 10/101 2023/3/28 概念 /類描述 : 特性化和區(qū)分 ? 概念描述: 為數(shù)據(jù)的特征化和比較產(chǎn)生描述(當(dāng)所描述的概念所指的是一類對(duì)象時(shí),也稱為類描述) – 特征化:提供給定數(shù)據(jù)集的簡(jiǎn)潔匯總。 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 4/101 2023/3/28 數(shù)據(jù)挖掘 : 數(shù)據(jù)庫(kù)中的知識(shí)挖掘 (KDD) – 數(shù)據(jù)挖掘 ——知識(shí)挖掘的核心 數(shù)據(jù)清理 數(shù)據(jù)集成 數(shù)據(jù)庫(kù) 數(shù)據(jù)倉(cāng)庫(kù) 任務(wù)相關(guān)數(shù)據(jù) 選擇 數(shù)據(jù)挖掘 模式評(píng)估 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 5/101 2023/3/28 KDD的步驟 ? 從 KDD對(duì)數(shù)據(jù)挖掘的定義中可以看到當(dāng)前研究領(lǐng)域?qū)?shù)據(jù)挖掘的 狹義和廣義 認(rèn)識(shí) 1. 數(shù)據(jù)清理 : (這個(gè)可能要占全過(guò)程 60%的工作量 ) 2. 數(shù)據(jù)集成 3. 數(shù)據(jù)選擇 4. 數(shù)據(jù)變換 5. 數(shù)據(jù)挖掘(選擇適當(dāng)?shù)乃惴▉?lái)找到感興趣的模式 —狹義) (如圖形等表示方法 ) 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 6/101 2023/3/28 典型數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu) 數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù)清洗 過(guò)濾 數(shù)據(jù)庫(kù) 數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器 數(shù)據(jù)挖掘引擎 模式評(píng)估 圖形用戶界面 知識(shí)庫(kù) 數(shù)據(jù)集成 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 7/101 2023/3/28 并非所有的東西都是
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1