freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

7-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘(專業(yè)版)

2025-04-06 12:41上一頁面

下一頁面
  

【正文】 每挖掘一層,就需要掃描整個數(shù)據(jù)庫一遍。 (最小支持度 ) 2. 由頻繁項集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則: 根據(jù)定義,這些規(guī)則必須滿足 最小支持度和最小置信度。 ?OLAP側(cè)重于與用戶的交互、快速的響應(yīng)速度及提供數(shù)據(jù)的多維視圖,而 數(shù)據(jù)挖掘則注重自動發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式和有用信息。 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 82/101 2023/3/28 關(guān)聯(lián)規(guī)則:基本概念 關(guān)聯(lián)規(guī)則挖掘?qū)ο笾饕鞘聞?wù)型數(shù)據(jù)庫,也可以是其它領(lǐng)域內(nèi)的關(guān)系型數(shù)據(jù)庫。因此,信息處理不是數(shù)據(jù)挖掘。 然而, OLAP 服務(wù)器的物理結(jié)構(gòu)和實現(xiàn)必須考慮數(shù)據(jù)存放問題。 – 數(shù)據(jù)源視圖 ? 揭示被操作數(shù)據(jù)庫系統(tǒng)所捕獲、存儲和管理的信息 – 數(shù)據(jù)倉庫視圖 ? 由事實表和維表所組成 – 商務(wù)查詢視圖 ? 從最終用戶的角度透視數(shù)據(jù)倉庫中的數(shù)據(jù) 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 59/101 2023/3/28 數(shù)據(jù)倉庫設(shè)計:一個商務(wù)分析框架 (3) ? 數(shù)據(jù)倉庫的構(gòu)建與使用涉及多種技能 – 商業(yè)技能 ? 理解系統(tǒng)如何存儲和管理數(shù)據(jù) ? 數(shù)據(jù)如何提取 ? 數(shù)據(jù)如何刷新 – 技術(shù)方面的技能 ? 如何通過使用各種數(shù)據(jù)或量化的信息,導(dǎo)出可以提供決策支持的模式、趨勢、判斷等 ? 如何通過審查歷史數(shù)據(jù),分析發(fā)展趨勢等 – 計劃管理技能 ? 如何通過與不同的技術(shù)、廠商、用戶交互,來及時、有效、經(jīng)濟(jì)的提交結(jié)果 數(shù)據(jù)倉庫的設(shè)計過程 (1) ? 自頂向下法、自底向上法或者兩者的混合方法 – 自頂向下法:由總體設(shè)計和規(guī)劃開始 ? 當(dāng)技術(shù)成熟并已掌握,對必須解決的商務(wù)問題清楚并已很好理解時,這種方法是有用的。 – 星型模式( Star schema) : 事實表在中心,周圍圍繞地連接著維表(每維一個),事實表含有大量數(shù)據(jù),沒有冗余。 然而,許多關(guān)系數(shù)據(jù)庫管理系統(tǒng)賣主正開始優(yōu)化這種系統(tǒng),使之支持 OLAP 查詢。 從數(shù)據(jù)組織的角度看,主題是一些數(shù)據(jù)集合,這些數(shù)據(jù)集合對分析對象作了比較完整的、一致的描述,這種描述不僅涉及到數(shù)據(jù)自身,而且涉及到數(shù)據(jù)之間的關(guān)系。 分類的目標(biāo) 首先是對訓(xùn)練數(shù)據(jù)進(jìn)行分析,使用數(shù) 據(jù)的某些特征屬性,給出每個類的準(zhǔn)確描述,然后 使用這些描述,對數(shù)據(jù)庫中的其他數(shù)據(jù)進(jìn)行分類。 ? 信息系統(tǒng) – 專注于數(shù)據(jù)的查詢處理。比如:出乎意料的、新穎的、可行動的等等 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 18/101 2023/3/28 能夠產(chǎn)生所有有趣模式并且僅產(chǎn)生有趣模式嗎? ? 找出所有有趣的模式 : 數(shù)據(jù)挖掘算法的完全性問題 – 數(shù)據(jù)挖掘系統(tǒng)能夠產(chǎn)生所有有趣的模式嗎 ? – 試探搜索 – 關(guān)聯(lián) vs. 分類 vs. 聚類 ? 只搜索有趣的模式 : 數(shù)據(jù)挖掘算法的最優(yōu)化問題 – 數(shù)據(jù)挖掘系統(tǒng)可以僅僅發(fā)現(xiàn)有趣的模式嗎? – 方法 ?首先生成所有模式然后過濾那些無趣的 . ?僅僅生成有趣的模式 —挖掘查詢優(yōu)化 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 19/101 2023/3/28 數(shù)據(jù)挖掘 :多個學(xué)科的融合 數(shù)據(jù)挖掘 數(shù)據(jù)庫系統(tǒng) 統(tǒng)計學(xué) 其他學(xué)科 算法 機(jī)器學(xué)習(xí) 可視化 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 20/101 2023/3/28 數(shù)據(jù)挖掘系統(tǒng)的分類 (1) ? 數(shù)據(jù)挖掘的多學(xué)科融合的特性,決定了數(shù)據(jù)挖掘的研究將產(chǎn)生種類繁多的數(shù)據(jù)挖掘系統(tǒng)。數(shù)據(jù)新快照生成的間隔,可以根據(jù)快照的生成速度和決策分析的需要而定。 多維數(shù)組:如果一個數(shù)據(jù)集合可以從多個角度進(jìn)行 觀察,則根據(jù)這些維度將數(shù)據(jù)組織所構(gòu)成的數(shù)組,就是 多維數(shù)組 .多維數(shù)組可以用圖形化來表示,也可以用表 格表示 OLAP的幾個基本概念 當(dāng)維度的數(shù)量不超過 3時,采用圖形的方法可以很直觀的表達(dá)出該數(shù)組的內(nèi)涵,但超三維的結(jié)構(gòu),圖形方式無能為力。 ? 多維數(shù)據(jù)模型(數(shù)據(jù)立方體)使得從不同的角度對數(shù)據(jù)進(jìn)行觀察成為可能, 而概念分層則提供了從不同層次對數(shù)據(jù)進(jìn)行觀察的能力; 結(jié)合這兩者的特征,我們可以在多維數(shù)據(jù)模型上定義各種 OLAP操作,為用戶從不同角度不同層次觀察數(shù)據(jù)提供了靈活性: 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 52/101 2023/3/28 多維數(shù)據(jù)模型上的 OLAP操作 (1) ? 上卷 (rollup):匯總數(shù)據(jù)(實例圖) – 通過一個維的概念分層向上攀升或者通過維規(guī)約 – 當(dāng)用維歸約進(jìn)行上卷時,一個或多個維由給定的數(shù)據(jù)立方體刪除 ? 下鉆 (drilldown):上卷的逆操作 – 由不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù)據(jù), 可以通過沿維的概念分層向下或引入新的維來實現(xiàn) (為給定數(shù)據(jù)添加更多細(xì)節(jié) ) ? 切片和切塊 (slice and dice) – 切片操作在給定的數(shù)據(jù)立方體的一個維上進(jìn)行選擇,導(dǎo)致一個子方 – 切塊操作通過對兩個或多個維進(jìn)行選擇,定義子方 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 53/101 2023/3/28 多維數(shù)據(jù)模型上的 OLAP操作 (2) ? 轉(zhuǎn)軸 (pivot) – 立方體的重定位,可視化,或?qū)⒁粋€ 3維立方體轉(zhuǎn)化為一個 2維平面序列 – 轉(zhuǎn)軸是一種 可視化 操作,通過轉(zhuǎn)動當(dāng)前數(shù)據(jù)的視圖來提供一個數(shù)據(jù)的替代表示 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 54/101 2023/3/28 知識點回顧 試比較 OLAP與 OLTP的區(qū)別。 典型的維是時間、商品、顧客、供應(yīng)商、倉庫、事務(wù)類型和狀態(tài)。 數(shù)據(jù)保存在關(guān)系數(shù)據(jù)庫,聚合存在多維結(jié)構(gòu)中。 ? 應(yīng)用: – 購物籃分析、分類設(shè)計、捆綁銷售等 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 79/101 2023/3/28 “尿布與啤酒” ——典型關(guān)聯(lián)分析案例 ? 采用關(guān)聯(lián)模型比較典型的案例是 “ 尿布與啤酒 ”的故事。事務(wù)是項的集合。 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 89/101 2023/3/28 最小支持度和最小可信度 為了發(fā)現(xiàn)有意義的關(guān)聯(lián)規(guī)則, 通過由用戶或數(shù)據(jù)挖掘系統(tǒng)給定兩個閾值:最小支持度和最小可信度。 T r a n s a ct i o n I D I t e m s B o u g h t2023 A , B , C1000 A , C4000 A , D5000 B , E , FF r e q u e n t I te m s e t S u p p o r t{ A } 75%{ B } 50%{ C} 50%{ A ,C} 50%最小支持度 50% 最小置信度 50% ? 對規(guī)則 A ? C, 其支持度 =50% ? 置信度 %)(sup/)(sup)(/)()|( )( ??????? AportCAportAPCAPACPCAconfidence)( )(sup CAPCAport ???? Apriori算法是挖掘產(chǎn)生布爾關(guān)聯(lián)規(guī)則所需頻繁項集的基本算法, 它也是一個很有影響的關(guān)聯(lián)規(guī)則挖掘算法。 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 101/101 2023/3/28 本章結(jié)束 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 演講完畢,謝謝觀看! 。 ? (僅涉及 buys這個維) ? 多維關(guān)聯(lián)規(guī)則: 如果規(guī)則涉及兩個或多個維,如維buys,time_of_transaction 和 customer_category,則它是多維關(guān)聯(lián)規(guī)則。 支持度大于等于支持度閾值的項集稱為 頻繁項集。 由所有的項所構(gòu)成的集合是最大的項集,一般用符號 I表示。 在這種意義下,數(shù)據(jù)挖掘涵蓋的數(shù)據(jù)挖掘功能和處理的數(shù)據(jù)復(fù)雜性要比 OLAP 大得多。 例如, HOLAP 服務(wù)器允許將大量詳細(xì)數(shù)據(jù)存放在關(guān)系數(shù)據(jù)庫中,而 聚集保持在分離的MOLAP 存儲中。例如,單個事務(wù)、一天的快照等。例如,維 time 基于屬性 day, week, month, quarter 和 year 就是一個偏序 “ day {month quarter。 維的層次:在同一維度上存在多個程度不同的細(xì) 節(jié)。 ?數(shù)據(jù)倉庫 :從歷史的角度提供信息(比如過去 510 年) – 數(shù)據(jù)倉庫中的每一個關(guān)鍵結(jié)構(gòu)都隱式或顯式地包含時間元素,而操作數(shù)據(jù)庫中的關(guān)鍵結(jié)構(gòu)可能就不包括時間元素 – 盡管數(shù)據(jù)倉庫中的數(shù)據(jù)并不像業(yè)務(wù)數(shù)據(jù)庫那樣反映業(yè) 務(wù)處理的實際狀況,但是數(shù)據(jù)也不能長期不變,如果依 據(jù) 10年前的數(shù)據(jù)進(jìn)行決策分析,那決策所帶來的后果將 是十分可怕的。 – 趨勢和偏差 : 回歸分析 – 序列模式匹配:周期性分析 – 基于類似性的分析 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 17/101 2023/3/28 所有模式都是有趣的嗎? ? 數(shù)據(jù)挖掘可能產(chǎn)生數(shù)以千計的模式或規(guī)則,但并不是所有的模式或規(guī)則都是令人感興趣的。 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 4/101 2023/3/28 數(shù)據(jù)挖掘 : 數(shù)據(jù)庫中的知識挖掘 (KDD) – 數(shù)據(jù)挖掘 ——知識挖掘的核心 數(shù)據(jù)清理 數(shù)據(jù)集成 數(shù)據(jù)庫 數(shù)據(jù)倉庫 任務(wù)相關(guān)數(shù)據(jù) 選擇 數(shù)據(jù)挖掘 模式評估 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 5/101 2023/3/28 KDD的步驟 ? 從 KDD對數(shù)據(jù)挖掘的定義中可以看到當(dāng)前研究領(lǐng)域?qū)?shù)據(jù)挖掘的 狹義和廣義 認(rèn)識 1. 數(shù)據(jù)清理 : (這個可能要占全過程 60%的工作量 ) 2. 數(shù)據(jù)集成 3. 數(shù)據(jù)選擇 4. 數(shù)據(jù)變換 5. 數(shù)據(jù)挖掘(選擇適當(dāng)?shù)乃惴▉碚业礁信d趣的模式 —狹義) (如圖形等表示方法 ) 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 6/101 2023/3/28 典型數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu) 數(shù)據(jù)倉庫 數(shù)據(jù)清洗 過濾 數(shù)據(jù)庫 數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器 數(shù)據(jù)挖掘引擎 模式評估 圖形用戶界面 知識庫 數(shù)據(jù)集成 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 7/101 2023/3/28 并非所有的東西都是數(shù)據(jù)挖掘 ? 基于數(shù)據(jù)倉庫的 OLAP系統(tǒng) – OLAP系統(tǒng)專注于數(shù)據(jù)的匯總,而數(shù)據(jù)挖掘系統(tǒng)可以對數(shù)據(jù)進(jìn)行多種復(fù)雜的處理。 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 13/101 2023/3/28 分類和預(yù)測 例: 通過訓(xùn)練數(shù)據(jù)獲得了如下規(guī)則: IF 年齡 =“31..40” AND 收入 =“較高 ” THEN 信用程度 =“優(yōu)秀 ” 規(guī)則的含義:年齡在 31到 40之間,收入較高的情況下,這類顧客 群的信用程度被認(rèn)為是 “ 優(yōu)秀 ” – IF age = “=30” AND student = “no” THEN buys_puter = “no” – IF age = “=30” AND student = “yes” THEN buys_puter = “yes” – IF age = “31… 40” THEN buys_puter = “yes” – IF age = “40” AND credit_rating = “excellent” THEN buys_puter = “yes” – IF age = “40” AND credit_rating = “fair” THEN buys_puter = “no” 華中農(nóng)業(yè)大學(xué) 信息學(xué)院 14/101 2023/3/28 聚類分析
點擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1