freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)教案ppt(6-10章)-展示頁

2025-03-15 12:39本頁面
  

【正文】 點 EMAIL: 分類規(guī)則挖掘 決策樹 ?1.決策樹的構(gòu)造過程 ID3算法應(yīng)用如下: )(log 21 pipmi i?? ),..,1(1 )/)..21(( smjjsImj ssm jjsjs?? ???)(log 21 pipi i?信息量計算公式: I(s1,s2,? sm)= ( ) 其中, pi為 si占整個類別的概率 利用屬性 A劃分當(dāng)前樣本集合所需要的信息(熵)的計算公式為: E( A) = () 信息增益公式: Gain( A) = I(s1,s2,? sm)E( A) ( ) 例如:一個銷售的顧客數(shù)據(jù)庫(訓(xùn)練樣本集合) ,對購買計算機的人員進行分類: 字段為:(年齡(取值: 30,30~40,40);收入 (高,中,低 );學(xué)生否( Y, N);信用(一般,很好);購買計算機否( Y, N)) 記錄為 14個,具體數(shù)據(jù)如下: X1=(30, 高 ,N, 一般 ,N); X2=(30, 高 ,N, 很好 ,N) X3=(30~40, 高 ,N, 一般 ,Y); X4=(40, 中 ,N, 一般 ,Y) X5=(40, 低 ,Y, 一般 ,Y); X6=(40, 低 ,Y, 很好 ,N) X7=(3040, 低 ,Y, 高 ,Y); X8=(30, 中 ,N, 一般 ,N) X9=(30, 低 ,Y, 一般 ,Y); X10=(40, 中 ,Y, 一般 ,Y) X11=(30,中 ,Y, 很好 ,Y); X12=(30~40,中 ,N, 很好 ,Y) X13=(30~40,高 ,Y, 一般 ,Y); X14=(40,中 ,N, 很好 ,N) EMAIL: 分類規(guī)則挖掘 決策樹 1.決策樹的構(gòu)造過程 決策樹的構(gòu)造算法: 決策樹的構(gòu)造算法可通過訓(xùn)練集 T完成,其中 T={x,cj},而x=(a1,a2,…, an)為一個訓(xùn)練實例,它有 n個屬性,分別列于屬性表(A1,A2,…, An)中,其中 ai表示屬性 Ai的取值。從屬性表中選擇屬性 Ai作為分類屬性;若屬性 Ai的取值有 ki個,則將 T劃分為 ki個子集, T1,…,T ki,其中 Tij={x,C|x,C}∈ T,且 x的屬性取值 A為第 i個值;接下來從屬性表中刪除屬性 Ai;對于每一個Tij(1≤j≤K1),令 T=Tij;如果屬性表非空,返回第 1步,否則輸出。 具體步驟 : 1)樹的建立。 EMAIL: 分類規(guī)則挖掘 決策樹 3.決策樹的可擴展性 4.基于決策樹方法的數(shù)據(jù)挖掘工具 KnowledgSEEKER EMAIL: 分類規(guī)則挖掘 貝葉斯分類 1.貝葉斯信任網(wǎng)絡(luò)如何工作 邊緣 主區(qū)域 手機呼叫 服務(wù)區(qū)域 no yes 外界 圖 簡單的貝葉斯網(wǎng)圖 EMAIL: 分類規(guī)則挖掘 貝葉斯分類 2.貝葉斯定理與樸素貝葉斯分類 ? 貝葉斯定理 : P(H|X)=P(X|H)P(H)/P(X) 其中, P(H|X)表示條件 X下 H的概率,也稱為條件概率或稱為后驗概率(posteriori probabilities)。 ? 預(yù)測的基本步驟: ? 確定預(yù)測目標(biāo),包括預(yù)測對象、目的、對象范圍; ? 收集分析內(nèi)部和外部資料; ? 數(shù)據(jù)的處理及模型的選擇; ? 預(yù)測模型的分析、修正; ? 確定預(yù)測值。關(guān)聯(lián)規(guī)則 X=Y在交易數(shù)據(jù)庫中成立 , 具有支持度 s和具有置信度 c 。通常稱滿足最小支持度和最小置信度的關(guān)聯(lián)規(guī)則為強關(guān)聯(lián)規(guī)則( strong)。 EMAIL: 數(shù)據(jù)挖掘的關(guān)聯(lián)算法 關(guān)聯(lián)規(guī)則的概念及分類 ? 2 關(guān)聯(lián)規(guī)則的分類 分類標(biāo)準 類別 規(guī)則中所處理的值 布爾關(guān)聯(lián)規(guī)則,量化關(guān)聯(lián)規(guī)則 規(guī)則中所涉及的數(shù)據(jù)維 單維關(guān)聯(lián)規(guī)則和多維關(guān)聯(lián)規(guī)則 規(guī)則中所涉及的抽象層 單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則 規(guī)則中的擴充 最大的模式和頻繁閉項集 關(guān)聯(lián)特性 分類分析與相關(guān)分析 EMAIL: 數(shù)據(jù)挖掘的關(guān)聯(lián)算法 簡單形式的關(guān)聯(lián)規(guī)則算法(單維、單層和布爾關(guān)聯(lián)規(guī)則) ? 1.簡單形式的關(guān)聯(lián)規(guī)則的核心算法 ? 找到所有支持度大于最小支持度的項集 ,即頻集 ,有 k個數(shù)據(jù)頻集稱為 k項頻集 .找出所有的頻集由 apriori算法實現(xiàn)。 ? 使用第 1步找到的頻集產(chǎn)生期望的規(guī)則 ? apriori算法的詳細介紹見課本。 ? 偽代碼 : Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}。 Lk !=?。 for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support end return ?k Lk。 ? 減少交易記錄 : 不包含任何頻繁 k項集的交易也不可能包含任何大于 k的頻繁集 ? 分割 : 一個項集要想在整個數(shù)據(jù)庫中是頻繁的,那么他至少在數(shù)據(jù)庫的一個分割上是頻繁的。 EMAIL: Apriori 夠快了嗎 ? — 性能瓶頸 ? Apriori算法的核心 : ? 用頻繁的 (k – 1)項集生成 候選 的頻繁 k項集 ? 用數(shù)據(jù)庫掃描和模式匹配計算候選集的支持度 ? Apriori 的瓶頸 : 候選集生成 ? 巨大的候選集 : ?104 個頻繁 1項集要生成 107 個候選 2項集 ?要找尺寸為 100的頻繁模式,如 {a1, a2, …, a 100}, 你必須先產(chǎn)生 2100 ? 1030 個候選集 ? 多次掃描數(shù)據(jù)庫: ?如果最長的模式是 n的話,則需要 (n +1 ) 次數(shù)據(jù)庫掃描 EMAIL: 聚類分析的概念與分類 ? 聚類分析概念 ? 聚類分析方法的分類 類別 算法 分裂(劃分)法 K
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1