freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

ch14數(shù)據(jù)倉庫與數(shù)據(jù)挖掘-文庫吧資料

2025-05-19 16:42本頁面
  

【正文】 物研究(用于動物植物聚類,對基因聚類,獲得對種群固有結(jié)構(gòu)的認識),城市規(guī)劃(根據(jù)房屋的類型、價值、地理位置對城市房屋分組), Web文檔分類( Web文檔數(shù)據(jù)是海量的,獲得有關(guān)文檔的特性,聚類后加以逐類分析)等等。而 聚類 也是要對數(shù)據(jù)集合進行分析加以劃分,但要劃分的類別是未知的,是一種無指導的學習。分類算法除了決策樹方法外,常用的方法還有很多,例如:基于統(tǒng)計學的貝葉斯分類方法、神經(jīng)網(wǎng)絡(luò)分類方法、 k最近鄰方法、遺傳算法、粗糙集方法、模糊集方法等等。也就是一開始給出的決策樹示例將 Age作為分支節(jié)點的原因。 RID 年齡 收入 是否學生 信用評估 是否購買電腦 1 =30 高 No 中 No 2 =30 高 No 好 No 3 31..40 高 No 中 Yes 4 40 中 No 中 Yes 5 40 低 Yes 中 Yes 6 40 低 Yes 好 No 7 31..40 低 Yes 好 Yes 8 =30 中 No 中 No 9 =30 低 Yes 中 Yes 10 40 中 Yes 中 Yes 11 =30 中 Yes 好 Yes 12 31..40 中 No 好 Yes 13 31..40 高 Yes 中 Yes 14 40 中 No 好 No 2021年 6月 14日星期一 數(shù)據(jù)庫教程(沈 ) 44 .(3)數(shù)據(jù)挖掘的基本方法 對于表給出的訓練數(shù)據(jù)集合,分類的標記為 2類,類 C1對應(yīng)于買電南 yes,類C2對應(yīng)于 no,類 yes有 9個樣本,類 no有 5個樣本,計算得到: 現(xiàn)計算有關(guān)屬性的信息增益,從屬性年齡開始, 對年齡 =30 s11=2 s12=3 I(s11,s21)= 對年齡 31..40 s12=4 s22=0 I(s11,s21)=0 對年齡 40 s13=3 s23=2 I(s11,s21)= 樣本按年齡劃分,期望信息為: 229 9 5 5( 1 , 2 ) ( 9 , 5 ) l o g l o g 0 . 9 4 01 4 1 4 1 4 1 4I s s I? ? ? ? ? ?1 1 2 1 1 2 2 2 1 3 2 35 4 5( ) ( , ) ( , ) ( , ) 0 . 6 9 41 4 1 4 1 4E I s s I s s I s s? ? ? ?年齡2021年 6月 14日星期一 數(shù)據(jù)庫教程(沈 ) 45 .(3)數(shù)據(jù)挖掘的基本方法 故這種劃分的信息增益是: Gain(年齡 )= I(s1,s2)E(age)=。在 A上分支將獲得的編碼信息是:Gain(A)=I(S1,…,Sm) E(A)定義為利用屬性 A對當前分支節(jié)點進行劃分的信息增益。若屬性 A被選為測試屬性,設(shè) sij為子集 sj中屬于 Ci類的樣本數(shù),那么,利用屬性 A劃分當前樣本集所需的期望信息是: 其中當作第 j個子集的權(quán)值,而是對于給定子集 Sj的期望信息。設(shè) S識包含 s個數(shù)據(jù)樣本的集合,假定類標號屬性具有 m個不同值,即定義 m個不同的類別 Ci(i=1,2,…,m) ,設(shè) si是類 Ci中的樣本數(shù),對一個給定的樣本分類可給出所需的期望信息: 其中 pi是任一樣本屬于類別 Ci的概率,可按 si/s估計,對數(shù)函數(shù)以 2為底,是因為信息以二進制位編碼。 年 齡 ?學 生 ? 信 用 等 級 ?Y e sY e sN o Y e sN o否 是優(yōu) 良 中 等3 0 4 0 4 0 3 02021年 6月 14日星期一 數(shù)據(jù)庫教程(沈 ) 41 .(3)數(shù)據(jù)挖掘的基本方法 算法 141: Generate_Decision_Tree(由給定的訓練數(shù)據(jù)生成決策樹) 輸入:訓練樣本 Samples,由離散值屬性表示,候選屬性的集合是 Attribute_List 輸出:決策樹 算法描述: ⒈) 創(chuàng)建節(jié)點 N; ⒉) if Samples 都在同一類 C then 返回 N作為葉節(jié)點,以類 C標記; ⒊) if Attribute_List 為空 then 返回 N作為葉節(jié)點,標記為 Samples中類別個數(shù)最多的類別; //多數(shù)表決 ⒋) 從 Attribute_List中選擇一個信息增益最大的屬性 test_attribute; //屬性選擇方法的信息增益概念,需要解釋 并將此節(jié)點 N標記為 test_attribute; ⒌) for each test_attribute 中的已知取值 ai 由節(jié)點 N長出一個條件為 test_attribute=ai的分支; //劃分 Samples 設(shè) Si是 Samples中 test_attribute = ai的樣本的集合; //其中的一個劃分 ⒍) if Si為空 then 加上一個葉節(jié)點,標記為 Samples中類別最多的類; ⒎ ) else 加上一個由 Generate_Decision_Tree (Si, Attribute_List, test_attribute)返回的節(jié)點; 2021年 6月 14日星期一 數(shù)據(jù)庫教程(沈 ) 42 .(3)數(shù)據(jù)挖掘的基本方法 信息增益方法:這是上面決策樹算法中屬性選擇的基本方法。 訓 練 數(shù) 據(jù)分 類 算 法分 類 規(guī) 則( 模 型 )i f 年 齡 = “ 3 1 4 0 ” a n d 收 入 = “ 高 ”t h e n 信 用 評 估 = “ 優(yōu) 良 ”姓 名 年 齡 收 入 信 用 評 估李 明 = 3 0 低 中 等徐 林 = 3 0 低 優(yōu) 良馮 勇 3 1 4 0 高 優(yōu) 良鄭 敏 4 0 中 中 等. . . . . . . . . . . .測 試 數(shù) 據(jù)分 類 規(guī) 則( 模 型 )新 數(shù) 據(jù) : 李 紅 , 3 1 4 0 , 高 , 信 用 評 估 ?姓 名 年 齡 收 入 信 用 評 估張 偉 4 0 高 中 等李 勇 = 3 0 低 中 等王 明 3 1 4 0 高 優(yōu) 良. . . . . . . . . . . .優(yōu) 良2021年 6月 14日星期一 數(shù)據(jù)庫教程(沈 ) 40 .(3)數(shù)據(jù)挖掘的基本方法 ② 分類算法 以決策樹算法為例,說明分類算法的思路。 1)分類 ①概述 分類是對數(shù)據(jù)的一個重要抽象,從機器學習的觀點看,分類是一種監(jiān)督學習,即根據(jù)應(yīng)用的需要確定分類的類別,通過對訓練數(shù)據(jù)的分類學習歸納出分類規(guī)則,利用測試數(shù)據(jù)對模型的準確率進行測試,再對數(shù)據(jù)進行分類操作。如何識別真正有趣的模式,過濾掉一些不感興趣的模式,采用興趣度度量來知道數(shù)據(jù)挖掘過程,是數(shù)據(jù)挖掘中最后一步重要的工作。只能說,對于某些數(shù)據(jù)挖掘任務(wù),根據(jù)用戶提出的限制和興趣度量,在一定條件下保證算法的完全性。另一種是主觀度量,實際上是用戶的一種主觀預(yù)感,認為合理的或認為出乎意料的,給出模式是否有趣的結(jié)論。對于度量再引入閾值,由用戶來控制,用戶可以認為置信度閾值不超過 50%的模式是無趣的。 2021年 6月 14日星期一 數(shù)據(jù)庫教程(沈 ) 37 . (2)數(shù)據(jù)挖掘的過程 有關(guān)解釋評估,需要討論以下一些問題: ① 模式興趣度的度量:一是客觀度量,例如對于形如 X→Y 的關(guān)聯(lián)規(guī)則,客觀度量通常采用支持度和置信度來定義,支持度 Support(X→Y) = P(X ∪ Y),其中 P(X∪ Y)是項集 X和 Y并的概率。對于給定的用戶,是否對所有模式都感興趣,答案是否定的。蘊涵在數(shù)據(jù)中的規(guī)律、規(guī)則或特征,也就是通常所說的知識,表現(xiàn)在數(shù)據(jù)的某種模式上,發(fā)現(xiàn)數(shù)據(jù)模式關(guān)鍵是人機交互地選擇算法,這一步是數(shù)據(jù)挖掘中的核心內(nèi)容,下面我們將單列一節(jié)介紹數(shù)據(jù)挖掘的基本內(nèi)容與方法。數(shù)據(jù)預(yù)處理技術(shù)主要包括:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約。 ② 數(shù)據(jù)預(yù)處理 :對于選擇好的數(shù)據(jù),必須經(jīng)過預(yù)處理提高數(shù)據(jù)質(zhì)量,才能使得數(shù)據(jù)挖掘更加有效。 數(shù) 據(jù) 源數(shù) 據(jù) 選 擇 預(yù) 處 理 模 式 發(fā) 現(xiàn) 解 釋 評 估提 出 目 標 提 示 方 法 選 擇 模 式 選 擇決 策 樹2021年 6月 14日星期一 數(shù)據(jù)庫教程(沈 ) 36 . (2)數(shù)據(jù)挖掘的過程 ① 數(shù)據(jù)選擇 :數(shù)據(jù)挖掘正像采礦一樣,先要通過地質(zhì)普查找到礦藏所在源,這里就是提出挖掘的目標,也就是選擇好限定的主題,來選擇相關(guān)的數(shù)據(jù)。 數(shù)據(jù)挖掘過程,可用下圖來表示。 2021年 6月 14日星期一 數(shù)據(jù)庫教程(沈 ) 34 . (2)數(shù)據(jù)挖掘的過程 (2)數(shù)據(jù)挖掘的過程 :1)知識發(fā)現(xiàn) KDD的全過程 2)數(shù)據(jù)挖掘( Data Mining, DM)過程 1)知識發(fā)現(xiàn) KDD的全過程 數(shù) 據(jù) 庫 其 它 數(shù) 據(jù) 源. . .模 式特 定 數(shù) 據(jù) 集數(shù) 據(jù) 倉 庫知 識選擇與轉(zhuǎn)換清理與集成數(shù)據(jù)挖掘評估與表示2021年 6月 14日星期一 數(shù)據(jù)庫教程(沈 ) 35 . (2)數(shù)據(jù)挖掘的過程 2)數(shù)據(jù)挖掘( Data Mining, DM)過程 數(shù)據(jù)挖掘作為整個知識發(fā)現(xiàn)( KDD)的一個重要步驟,起著關(guān)鍵作用。而根據(jù)大量數(shù)據(jù),采用歸納方法,推斷出一般化的規(guī)則、規(guī)律,也就是形成信息或知識。數(shù)據(jù)挖掘,也有另外一種說法:數(shù)據(jù)庫中的知識發(fā)現(xiàn) KDD(Knowledge Discovery in Database)或知識提?。?Knowledge Extraction),數(shù)據(jù) /模式分析( Data/Pattern Analysis),也有人認為數(shù)據(jù)挖掘 DM是 KDD的一個步驟,特別在討論實現(xiàn)過程時,往往認為 KDD是較廣泛的過程,而 DM是其中的一個步驟。數(shù)據(jù)挖掘技術(shù),目前雖沒有數(shù)據(jù)庫技術(shù)這樣家喻戶曉,但經(jīng)過多年的發(fā)展,應(yīng)用領(lǐng)域也已是一個熱門領(lǐng)域,應(yīng)用面已相當廣泛。于是,連鎖店經(jīng)理當機立斷,重新布置貨架,將男士們需要的日常生活用品就近布置,取得了有關(guān)商品銷量大增的驕人業(yè)績。 數(shù)據(jù)管理用于決策分析的技術(shù)應(yīng)運而生:一方面數(shù)據(jù)倉庫技術(shù)的提出與發(fā)展,另一方面數(shù)據(jù)挖掘技術(shù)的產(chǎn)生。一個中等規(guī)模的企業(yè)每天要產(chǎn)生 100MB以上的業(yè)務(wù)數(shù)據(jù),據(jù)統(tǒng)計, 1993年全球的計算機數(shù)據(jù)存儲容量約為 2021TB,到 2021年增加到 300萬 TB。 2021年 6月 14日星期一 數(shù)據(jù)庫教程(沈 ) 31 Ch14. (1)概述 (2)數(shù)據(jù)挖掘的過程 (3)數(shù)據(jù)挖掘的基本方法 (4)復雜數(shù)據(jù)類型的挖掘 2021年 6月 14日星期一 數(shù)據(jù)庫教程(沈 ) 32 . (1)概述 (1)概述 :1)數(shù)據(jù)挖掘技術(shù)的產(chǎn)生 。 2021年 6月 14日星期一 數(shù)據(jù)庫教程(沈 ) 30 Ch14. 2. 數(shù)據(jù)倉庫 現(xiàn)以社會保險系統(tǒng)中的應(yīng)用為例加以說明。 MDX提供多維立方體操作的查詢語句,包含了與 SQL類似的 Select、 From、Where子句, MDX還提供了函數(shù)等,增強了操作能力。 MDX在語法的很多方面與 SQL相似,但不能算是 SQL語言的擴展。 2021年 6月 14日星期一 數(shù)據(jù)庫教程(沈 ) 29 Ch14. 2. 數(shù)據(jù)倉庫 3)OLAP操作語言 傳統(tǒng)關(guān)系數(shù)據(jù)庫系統(tǒng)的操作語言是 SQL,那么對多維數(shù)據(jù)立方體的 OLAP操作語言是什么呢?這方面的標準化還有待進一步工作,這里以微軟提供的MDX語言為例進行介紹。 2021年 6月 14日星期一 數(shù)據(jù)庫教程(沈 ) 28 Ch14. 2. 數(shù)據(jù)倉庫 旋轉(zhuǎn)( Rotate) /轉(zhuǎn)軸( Pivot) ——通過旋轉(zhuǎn)(也稱為轉(zhuǎn)軸),可以得到不同視角的數(shù)據(jù)。 圖 1411 社會保險數(shù)據(jù)立方體的切片、切塊示例: 2021年 6月 14日星期一 數(shù)據(jù)庫教程(沈 ) 27 Ch14. 2. 數(shù)據(jù)倉庫 鉆?。?Drill) ——鉆取包含向下鉆?。?Drilldown)和向上鉆?。?Drillup) /上卷( Rollup)操作,在操作中鉆取的深度與維所劃分的層次是相對的。 2021年 6月 14日星期一 數(shù)據(jù)庫教程(沈 ) 26 Ch14. 2. 數(shù)據(jù)倉庫 OLAP系統(tǒng)基本操作 : 切片和切塊( Slice, Dice) ——在多維數(shù)據(jù)立方體中,按二維進行切片,按三維進行切塊,可得到所需的某部分數(shù)據(jù)。如:社會保險系統(tǒng)中的基金收繳金額、養(yǎng)老金撥付金額,就是一種度量值。 維的成員 ——維的一個取值,是數(shù)據(jù)項在某維中位置的描述(如:“某年某月某日”是在時間維上某一位置的描述)。 2021年 6月 14日星期一 數(shù)據(jù)庫教程(沈 ) 25 Ch14. 2. 數(shù)據(jù)倉庫 2)多維分析技術(shù)
點擊復制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1