freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘入門ppt課件-資料下載頁

2025-05-12 08:50本頁面
  

【正文】 簡單的離散化技術(shù)n 相同寬度 (距離)數(shù)據(jù)分割n 將數(shù)據(jù)分成 N等份,各個(gè)等份數(shù)據(jù)之間具有相同的距離n 如果 A 和 B 分別為屬性值中的最大值和最小值,那么各個(gè)數(shù)據(jù)等份之間的距離為: W = (BA)/N.n 異常點(diǎn)將會(huì)扮演很重要的角色n 傾斜的數(shù)據(jù)不能很好的解決n 相同深度 (頻率)數(shù)據(jù)分割n 將數(shù)據(jù)分成 N等份,各個(gè)等份具有相同的數(shù)據(jù)個(gè)數(shù)。n 具有較好的可伸縮性n 適合于數(shù)據(jù)分類的情況Date 68離散化:直方圖方法n 將數(shù)據(jù)分割到若干個(gè)桶之中,用桶中的平均值(或求和等)來表示各個(gè)桶。n 可以通過編程,動(dòng)態(tài)修改部分參數(shù),進(jìn)行合理構(gòu)造。count5 10 15 20 25 3012345678910110 1120 2130510152025132515Price PricecountDate 69離散化:聚類分析方法n 將數(shù)據(jù)按照 “類內(nèi)最大相似度,類間最小相似度的原則 ”對(duì)數(shù)據(jù)進(jìn)行有效聚類n 利用聚類的中心點(diǎn)來表示該類所包含的對(duì)象n 數(shù)據(jù)聚類將非常有效,但是必須保證數(shù)據(jù)中沒有噪音數(shù)據(jù)Date 70按照自然分類進(jìn)行數(shù)據(jù)分割n 利用 345 法則對(duì)數(shù)字型數(shù)據(jù)分類,將數(shù)據(jù)分成若干個(gè) “自然 ”的區(qū)間:n 如果在所有數(shù)字的最高位覆蓋 3, 6, 7或 9個(gè)不同的值,則將數(shù)據(jù)分成 3段。 3( 1, 1, 1) 6( 2, 2, 2) 7( 2, 3, 2) 9( 3, 3, 3)n 如果在所有數(shù)字的最高位覆蓋 2, 4, 8個(gè)不同的值,則將數(shù)據(jù)分成 4 段。n 如果在所有數(shù)字的最高位覆蓋 1, 5, 10個(gè)不同的值,則將數(shù)據(jù)分成 5 段。Date 71345 法則舉例n 例 1:包含數(shù)據(jù): 10 1 20 22 30 315n 方法:最高位包含 3個(gè)值( 3)n 分成 [100, 200), [200, 300), [300, 400)三段n 例 2:包含數(shù)據(jù): 10 1 10 42 40 415, 400n 方法:最高位包含 2個(gè)值( 4)n 分成 [100, 150), [150, 200) , [400, 450) , [450, 500)四段n 例 3:包含數(shù)據(jù): 10 2 20 32 30 415, 500n 方法:最高位包含 5個(gè)值( 5)n 分成 [100, 200), [200, 300) , [300, 400) , [400, 500), [500, 600)五段Date 72分類數(shù)據(jù)的概念分層n 概念分層是由用戶或?qū)<覍?duì)具有偏序關(guān)系的屬性的一種層次關(guān)系的顯式表示。也是一種數(shù)據(jù)分類的顯式表示。n 概念層次的獲得n 隱式存儲(chǔ)于數(shù)據(jù)庫中。如:地址。n 由專家顯式給出。n 借助數(shù)據(jù)分析自動(dòng)生成。n 概念層次的表示n 基于實(shí)例 。 如: {freshman, ..., senior}?undergraduate.;n 基于數(shù)據(jù)庫表模式 。 如: address(city, province, country)。n 基于規(guī)則 。 如: good(x) ? undergraduate(x) ∧ gpa(x) ? 。Date 73概念層次樹舉例概念層次樹將大大減少挖掘數(shù)據(jù)的數(shù)據(jù)量。countryprovince_or_ statecitystreet15 distinct values65 distinct values3567 distinct values674,339 distinct valuesDate 74主要內(nèi)容l 為什么需要數(shù)據(jù)預(yù)處理 ?l 數(shù)據(jù)清洗 l 數(shù)據(jù)集成與轉(zhuǎn)換l 數(shù)據(jù)歸約l 數(shù)據(jù)離散化與概念層次的構(gòu)建l 本章小結(jié)Date 75本章小結(jié)n 數(shù)據(jù)的預(yù)處理無論對(duì)于數(shù)據(jù)倉庫和數(shù)據(jù)挖掘都是非常重要的一個(gè)環(huán)節(jié)n 數(shù)據(jù)預(yù)處理包括n 數(shù)據(jù)清理n 數(shù)據(jù)集成n 數(shù)據(jù)歸約和特征選取n 數(shù)據(jù)的離散化n 數(shù)據(jù)預(yù)處理涉及面廣,現(xiàn)已建立了一系列的方法,但是目前仍然是一個(gè)非?;钴S的研究領(lǐng)域Date 76六,可視化數(shù)據(jù)挖掘n 可視化 : 使用計(jì)算機(jī)圖形學(xué)創(chuàng)建可視化圖像,幫助用戶理解復(fù)雜,大規(guī)模數(shù)據(jù)n 可視化數(shù)據(jù)挖掘 : 使用可視化技術(shù),從大規(guī)模數(shù)據(jù)集中發(fā)現(xiàn)隱含,有用知識(shí)的過程信息可視化數(shù)據(jù)挖掘可視化 數(shù)據(jù)挖掘Date 77信息可視化n 信息可視化:結(jié)合了科學(xué)可視化、人機(jī)交互、數(shù)據(jù)挖掘、圖像技術(shù)、圖形學(xué)、認(rèn)知科學(xué)等諸多學(xué)科的理論和方法,而逐步發(fā)展起來的。n 信息可視化參考模型Date 78可視化數(shù)據(jù)挖掘n 可視化的目的n 提供對(duì)大規(guī)模數(shù)據(jù)集定性的理解n 查看數(shù)據(jù)中的模式,趨勢,結(jié)構(gòu),不規(guī)則性,關(guān)系等n 幫助尋找感興趣的區(qū)域,為進(jìn)一步定量分析提供合適的參數(shù)n 為計(jì)算機(jī)得出的結(jié)果提供可視化的證明Date 79可視化數(shù)據(jù)挖掘n 可視化與數(shù)據(jù)挖掘的結(jié)合n 數(shù)據(jù)可視化n 數(shù)據(jù)挖掘結(jié)果可視化n 數(shù)據(jù)挖掘過程可視化n 交互式可視化數(shù)據(jù)挖掘Date 80數(shù)據(jù)可視化n 數(shù)據(jù)可視化n 以下面兩種方式觀察數(shù)據(jù)庫或數(shù)據(jù)倉庫的數(shù)據(jù): n在不同的粒度或抽象層面觀察n屬性或維度的不同結(jié)合n 數(shù)據(jù)可以被表示成不同的格式,柱狀圖、餅狀圖、散點(diǎn)圖、三維立方體、曲線、數(shù)據(jù)分布圖表等 Date 81MineSet -數(shù)據(jù)可視化n 數(shù)據(jù)的 直方圖 ,均值,中值,標(biāo)準(zhǔn)差, 四分位數(shù)Date 82數(shù)據(jù)挖掘結(jié)果可視化n 以視圖的形式給出由數(shù)據(jù)挖掘算法得出的結(jié)果或知識(shí)n 例如n 決策樹n 貝葉斯網(wǎng)絡(luò)n 關(guān)聯(lián)規(guī)則n 聚類n 孤立點(diǎn)Date 83SAS Enterprise Miner: scatter plots Date 84Visualization of association rules in MineSet Date 85Visualization of a decision tree in MineSet Date 86Visualization of cluster groupings in SASDate 87數(shù)據(jù)挖掘過程可視化n 將數(shù)據(jù)挖掘各種處理過程用可視化的方式呈現(xiàn)給用戶,可以看到:n 數(shù)據(jù)是如何被提取的n 是從哪個(gè)數(shù)據(jù)庫或數(shù)據(jù)倉庫提取的數(shù)據(jù)n 被選擇數(shù)據(jù)如何被清理,整合,處理和挖掘的n 在數(shù)據(jù)挖掘中采用什么方法n 數(shù)據(jù)被存儲(chǔ)在哪里Date 88Visualization of Data Mining Processes by Clementinen 可視化流程使得數(shù)據(jù)觀察和交互的變得簡單方便 Date 89交互式可視化數(shù)據(jù)挖掘n 使用可視化工具在數(shù)據(jù)挖掘過程中幫助用戶作出更加合理的挖掘決定n 更好的理解數(shù)據(jù)和樣本n 用戶可以根據(jù)理解作出決定n 用戶可以根據(jù)領(lǐng)域知識(shí)作出決定n 可視化結(jié)果使用戶能夠指導(dǎo)下次算法執(zhí)行Date 90 謝謝! Date 9
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1