freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘(文件)

2025-03-21 12:41 上一頁面

下一頁面
 

【正文】 據(jù) : 決策支持需要?dú)v史數(shù)據(jù),而這些數(shù)據(jù)在操作數(shù)據(jù)庫中一般不會(huì)去維護(hù) – 數(shù)據(jù)匯總: 決策支持需要將來自異種源的數(shù)據(jù)統(tǒng)一(如聚集和匯總) – 數(shù)據(jù)質(zhì)量 : 不同的源使用不一致的數(shù)據(jù)表示、編碼和格式,對(duì)這些數(shù)據(jù)進(jìn)行有效的分析需要將他們轉(zhuǎn)化后進(jìn)行集成 ? 由于兩個(gè)系統(tǒng)提供很不相同的功能,需要不同類型的數(shù)據(jù),因此需要維護(hù)分離的數(shù)據(jù)庫。每 個(gè)維都有一個(gè)表與之相關(guān)聯(lián),稱為維表。 維的層次:在同一維度上存在多個(gè)程度不同的細(xì) 節(jié)。 OLAP的幾個(gè)基本概念 超三維數(shù)據(jù)的表格表示 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 42/101 2023/3/28 多維數(shù)據(jù)模型 (1) ? 數(shù)據(jù)倉庫和 OLAP工具基于多維數(shù)據(jù)模型 ( OLTP基于什么?) ? 在多維數(shù)據(jù)模型中,數(shù)據(jù)以數(shù)據(jù)立方體 (data cube)的形式存在 – 數(shù)據(jù)立方體允許以多維數(shù)據(jù)建模和觀察。這種模型可以以 星型模式、雪花模式、或事實(shí)星座模式的形式存在。 – 事實(shí)星座( Fact constellations) : 多個(gè)事實(shí)表共享維表 , 這種模式可以看作星型模式集,因此稱為星系模式( galaxy schema),或者事實(shí)星座( fact constellation) 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 45/101 2023/3/28 time_key day day_of_the_week month quarter year time 維表 location_key street city state_or_province country location 維表 Sales 事實(shí)表 time_key item_key branch_key location_key units_sold dollars_sold avg_sales 度量 item_key item_name brand type supplier_type item 維表 branch_key branch_name branch_type branch 維表 星型模式實(shí)例 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 46/101 2023/3/28 雪花模式實(shí)例 time_key day day_of_the_week month quarter year time location_key street city_key location Sales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_sales Measures item_key item_name brand type supplier_key item branch_key branch_name branch_type branch supplier_key supplier_type supplier city_key city state_or_province country city 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 47/101 2023/3/28 ? 雪花模型是在星形模型的基礎(chǔ)上發(fā)展起來的, 它在事實(shí)表和維度表的基礎(chǔ)上,增加了一類新的表 ——詳細(xì)類別表。例如,維 time 基于屬性 day, week, month, quarter 和 year 就是一個(gè)偏序 “ day {month quarter。(例如磁帶中) ?當(dāng)前細(xì)節(jié)數(shù)據(jù) 存儲(chǔ)最近時(shí)期的業(yè)務(wù)數(shù)據(jù),反映當(dāng)前業(yè)務(wù)的情況,數(shù)據(jù)量大,是數(shù)據(jù)倉庫用戶最感興趣的部分。 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 57/101 2023/3/28 數(shù)據(jù)倉庫設(shè)計(jì):一個(gè)商務(wù)分析框架 (1) ? 數(shù)據(jù)倉庫給商業(yè)分析專家提供了什么? – 通過提供相關(guān)數(shù)據(jù)與信息, 獲得競(jìng)爭(zhēng)優(yōu)勢(shì) – 通過有效的收集精確的描述組織的數(shù)據(jù),獲得生產(chǎn)力的提高 – 通過提供不同級(jí)別(部門、市場(chǎng)、商業(yè))的客戶視圖, 協(xié)助客戶關(guān)系管理 – 通過追蹤長期趨勢(shì)、異常等,降低成本 ? 有效構(gòu)建數(shù)據(jù)倉庫的關(guān)鍵:理解和分析商業(yè)需求 – 通過提供一個(gè)商業(yè)分析框架,綜合各種不同的數(shù)據(jù)使用者的視圖 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 58/101 2023/3/28 數(shù)據(jù)倉庫設(shè)計(jì):一個(gè)商務(wù)分析框架 (2) ? 數(shù)據(jù)倉庫設(shè)計(jì)的四種視圖 – 自頂向下視圖 ? 使得我們可以選擇數(shù)據(jù)倉庫所需的相關(guān)信息。 – 混合方法:上述兩者的結(jié)合 ? 從軟件過程的觀點(diǎn) – 瀑布式方法:在進(jìn)行下一步前,每一步都進(jìn)行結(jié)構(gòu)化和系統(tǒng)的分析 – 螺旋式方法:功能漸增的系統(tǒng)的快速產(chǎn)生,相繼版本之間間隔很短。例如,單個(gè)事務(wù)、一天的快照等。 其范圍限于選定的主題,比如一個(gè)商場(chǎng)的數(shù)據(jù)集市 – 獨(dú)立的數(shù)據(jù)集市 VS. 非獨(dú)立的數(shù)據(jù)集市(數(shù)據(jù)來自于企業(yè)數(shù)據(jù)倉庫) – 與企業(yè)倉庫的差異在于數(shù)據(jù)集市應(yīng)采用星形模式,而企業(yè)倉庫應(yīng)采用事實(shí)星座模式 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 65/101 2023/3/28 數(shù)據(jù)倉庫開發(fā):困難與方法 ? 數(shù)據(jù)倉庫開發(fā)上的困難 – 自頂向下開發(fā)企業(yè)倉庫是一種系統(tǒng)的解決方法,并能最大限度地減少集成問題。 ? 解決方法: – 使用遞增性、演化性的開發(fā)方法(見后圖) – 高層數(shù)據(jù)模型 ?企業(yè)倉庫和數(shù)據(jù)集市并行開發(fā) ?通過分布式模型集成各數(shù)據(jù)集市 ?多層數(shù)據(jù)倉庫 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 66/101 2023/3/28 數(shù)據(jù)倉庫開發(fā) ——一個(gè)推薦的方法 定義高層數(shù)據(jù)模型 數(shù)據(jù)集市 數(shù)據(jù)集市 分布式數(shù)據(jù)集市 多層數(shù)據(jù)倉庫 企業(yè)數(shù)據(jù)倉庫 模型提煉 模型提煉 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 67/101 2023/3/28 OLAP服務(wù)器類型 (1) ? OLAP 服務(wù)器為商務(wù)用戶提供來自數(shù)據(jù)倉庫或數(shù) 據(jù)集市的多維數(shù)據(jù),而不必關(guān)心數(shù)據(jù)如何存放和存放在何處。 ?包括每個(gè) DBMS后端優(yōu)化,聚集導(dǎo)航邏輯的實(shí)現(xiàn),附加的工具和服務(wù) ?Microstrategy 的 DSS 和 Informix 的Metacube 都采用 ROLAP 方法 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 68/101 2023/3/28 OLAP服務(wù)器類型 (2) – 多維 OLAP服務(wù)器 (MOLAP) ? 通過基于 數(shù)組的多維存儲(chǔ)引擎 ,支持?jǐn)?shù)據(jù)的多維視圖。 例如, HOLAP 服務(wù)器允許將大量詳細(xì)數(shù)據(jù)存放在關(guān)系數(shù)據(jù)庫中,而 聚集保持在分離的MOLAP 存儲(chǔ)中。有以下幾種: – 數(shù)據(jù)倉庫結(jié)構(gòu)的描述 ?倉庫模式、視圖、維、層次結(jié)構(gòu)、導(dǎo)出數(shù)據(jù)的定義,以及數(shù)據(jù)集市的位置和內(nèi)容 – 操作元數(shù)據(jù) ?包括數(shù)據(jù)血統(tǒng) (data lineage)、數(shù)據(jù)類別(currency of data),以及監(jiān)視信息 – 匯總用的算法 – 由操作環(huán)境到數(shù)據(jù)倉庫的映射 – 關(guān)于系統(tǒng)性能的數(shù)據(jù) ?索引, profiles,數(shù)據(jù)刷新、更新或復(fù)制事件的調(diào)度和定時(shí) – 商務(wù)元數(shù)據(jù) ?商務(wù)術(shù)語和定義、數(shù)據(jù)擁有者信息、收費(fèi)政策等 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 70/101 2023/3/28 元數(shù)據(jù)的使用 ? 元數(shù)據(jù)與數(shù)據(jù)一起,構(gòu)成了數(shù)據(jù)倉庫中的數(shù)據(jù)模型,元數(shù)據(jù)所描述的更多的是這個(gè)模型的結(jié)構(gòu)方面的信息。它不反映復(fù)雜的模式,或隱藏在數(shù)據(jù)庫中的規(guī)律。 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 74/101 2023/3/28 數(shù)據(jù)倉庫的應(yīng)用 ? 數(shù)據(jù)挖掘的涵蓋面要比簡單的 OLAP 操作寬得多, 因?yàn)樗粌H執(zhí)行數(shù)據(jù)匯總和比較,而且執(zhí)行關(guān)聯(lián)、分類、預(yù)測(cè) 、聚類、時(shí)間序列分析和其它數(shù)據(jù)分析任務(wù)。 在這種意義下,數(shù)據(jù)挖掘涵蓋的數(shù)據(jù)挖掘功能和處理的數(shù)據(jù)復(fù)雜性要比 OLAP 大得多。超市隨后調(diào)整了貨架的擺放,把尿布和啤酒放在一起,明顯增加了銷售額。 置信度 60%意味購買計(jì)算機(jī)的顧客 60%也購買財(cái)務(wù)管理軟件。 對(duì)于一個(gè)數(shù)據(jù)表而言,表的每個(gè)字段都具有一個(gè)或多個(gè)不同的值,字段的每種取值都是一個(gè)項(xiàng)。 由所有的項(xiàng)所構(gòu)成的集合是最大的項(xiàng)集,一般用符號(hào) I表示。 事務(wù)的集合稱為事務(wù)集,也就是事務(wù)數(shù)據(jù)庫,一般用 D表示。 請(qǐng)解釋如下關(guān)聯(lián)規(guī)則: sup ( ) ( )po rt A B P A B? ? ? ( ) ( | ) ( ) / ( )c on fi de nc e A B P B A P A B P A? ? ? ?華中農(nóng)業(yè)大學(xué) 信息學(xué)院 87/101 2023/3/28 知識(shí)點(diǎn)回顧 請(qǐng)分析數(shù)據(jù)倉庫、 OLAP、數(shù)據(jù)挖掘的關(guān)系 ?聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘是數(shù)據(jù)倉庫之上的增值技術(shù)。包含 k個(gè)項(xiàng)的項(xiàng)集稱為 k項(xiàng)集。 支持度大于等于支持度閾值的項(xiàng)集稱為 頻繁項(xiàng)集。最小可信度反應(yīng)了關(guān)聯(lián)規(guī)則需滿足的最低程度。 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 90/101 2023/3/28 大型數(shù)據(jù)庫關(guān)聯(lián)規(guī)則挖掘 (2) “如何由大型數(shù)據(jù)庫挖掘關(guān)聯(lián)規(guī)則? ” 關(guān)聯(lián)規(guī)則的挖掘是一個(gè)兩步的過程: 1. 找出所有頻繁項(xiàng)集: 根據(jù)定義,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持計(jì)數(shù)一樣。挖掘關(guān)聯(lián)規(guī)則的總體性能由第一步?jīng)Q定。 ? (僅涉及 buys這個(gè)維) ? 多維關(guān)聯(lián)規(guī)則: 如果規(guī)則涉及兩個(gè)或多個(gè)維,如維buys,time_of_transaction 和 customer_category,則它是多維關(guān)聯(lián)規(guī)則。 ? Apriori算法利用了一個(gè)層次順序搜索的循環(huán)方法來完成頻繁項(xiàng)集的挖掘工作。 – 最后,從大數(shù)據(jù)項(xiàng)集中導(dǎo)出規(guī)則。 數(shù)據(jù)挖掘的常用模式有哪些? 什么是數(shù)據(jù)倉庫?請(qǐng)?jiān)敿?xì)闡述其特征。 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 101/101 2023/3/28 本章結(jié)束 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 演講完畢,謝謝觀看! 。 數(shù)據(jù)倉庫的概念模型有哪些?各有什么特點(diǎn)? 多維數(shù)據(jù)模型上的 OLAP操作有哪些? 何為企業(yè)倉庫、數(shù)據(jù)集市?二者有何區(qū)別? 請(qǐng)分析數(shù)據(jù)倉庫、 OLAP、數(shù)據(jù)挖掘的關(guān)系。 Apriori算法 ——示例 Database TDB 1st scan C1 L1 L2 C2 C2 2nd scan C3 L3 3rd scan Tid Items 10 A, C, D 20 B, C, E 30 A, B, C, E 40 B, E Itemset sup {A} 2 {B} 3 {C} 3 {D} 1 {E} 3 Itemset sup {A} 2 {B} 3 {C} 3 {E} 3 Itemset {A, B} {A, C} {A, E} {B, C} {B, E} {C, E} Itemset sup {A, B} 1 {A, C} 2 {A, E} 1 {B, C
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1