freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘入門ppt課件(編輯修改稿)

2025-06-08 08:50 本頁面
 

【文章內(nèi)容簡介】 MIT噴氣推進(jìn)實(shí)驗(yàn)室與天文科學(xué)家合作開發(fā)的用于幫助天文學(xué)家發(fā)現(xiàn)遙遠(yuǎn)的類星體的工具 。216。 HealthKEFIR是用于健康狀況預(yù)警的知識(shí)發(fā)現(xiàn)系統(tǒng) 。216。 TASA是為預(yù)測通信網(wǎng)絡(luò)故障 而開發(fā)的 通信網(wǎng)絡(luò)預(yù)警分析系統(tǒng) 。會(huì)產(chǎn)生 “如果在某一時(shí)間段內(nèi)發(fā)生某些預(yù)警信息組合,那么其他類型的預(yù)警信息將在某個(gè)時(shí)間范圍內(nèi)發(fā)生 ”的規(guī)則。時(shí)間段大小由用戶定義。216。 RMINI運(yùn)用分類技術(shù)從噪聲中提取有價(jià)值的信息。由于是在微弱變化中獲取信息,該系統(tǒng)也可以應(yīng)用于 證券領(lǐng)域中的股市行情預(yù)測 。Date 29216。 KDW是大型商業(yè)數(shù)據(jù)庫中的交互分析系統(tǒng)。包括聚類、分類、總結(jié)、相關(guān)性分析等多種模式。216。 DBMiner是加拿大 Simon Fraser大學(xué)開發(fā)的一個(gè)多任務(wù)KDD系統(tǒng)。能夠完成多種知識(shí)發(fā)現(xiàn),綜合了多種數(shù)據(jù)挖掘技術(shù)。216。 Clementine可以把直觀的圖形用戶界面與多種分析技術(shù)結(jié)合在一起,包括神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則和規(guī)則歸納技術(shù)。216。 Darwin包含神經(jīng)網(wǎng)絡(luò)、決策書和 K鄰近三種數(shù)據(jù)挖掘方法,處理分類、預(yù)測和預(yù)報(bào)問題。216。 DMW是一個(gè)用在信用卡欺詐分析方面的數(shù)據(jù)挖掘工具,支持反向傳播神經(jīng)網(wǎng)絡(luò)算法,并能以自動(dòng)和人工模式操作216。 Intelligent Miner是 IBM開發(fā)的包括人工智能、機(jī)器學(xué)習(xí)、語言分析和知識(shí)發(fā)現(xiàn)領(lǐng)域成果在內(nèi)的復(fù)雜軟件解決方案。Date 30五,數(shù)據(jù)預(yù)處理n 為什么需要數(shù)據(jù)預(yù)處理 ?n 數(shù)據(jù)清洗 n 數(shù)據(jù)集成與轉(zhuǎn)換n 數(shù)據(jù)歸約n 數(shù)據(jù)離散化與概念層次的構(gòu)建n 本章小結(jié)Date 31為什么需要數(shù)據(jù)預(yù)處理 ?n 在現(xiàn)實(shí)社會(huì)中,存在著大量的 “臟 ”數(shù)據(jù)n 不完整性 (數(shù)據(jù)結(jié)構(gòu)的設(shè)計(jì)人員、數(shù)據(jù)采集設(shè)備和數(shù)據(jù)錄入人員) n 缺少感興趣的屬性n 感興趣的屬性缺少部分屬性值n 僅僅包含聚合數(shù)據(jù),沒有詳細(xì)數(shù)據(jù)n 噪音數(shù)據(jù)(采集數(shù)據(jù)的設(shè)備、數(shù)據(jù)錄入人員、數(shù)據(jù)傳輸)n 數(shù)據(jù)中包含錯(cuò)誤的信息n 存在著部分偏離期望值的孤立點(diǎn)n 不一致性(數(shù)據(jù)結(jié)構(gòu)的設(shè)計(jì)人員、數(shù)據(jù)錄入人員)n 數(shù)據(jù)結(jié)構(gòu)的不一致性n Label的不一致性n 數(shù)據(jù)值的不一致性Date 32為什么需要數(shù)據(jù)預(yù)處理 ?n 數(shù)據(jù)挖掘的數(shù)據(jù)源可能是多個(gè)互相獨(dú)立的數(shù)據(jù)源n 關(guān)系數(shù)據(jù)庫n 多維數(shù)據(jù)庫( Data Cube)n 文件、文檔數(shù)據(jù)庫n 數(shù)據(jù)轉(zhuǎn)換n 為了數(shù)據(jù)挖掘的方便n 海量數(shù)據(jù)的處理n 數(shù)據(jù)歸約(在獲得相同或者相似結(jié)果的前提下)Date 33為什么需要數(shù)據(jù)預(yù)處理?n 沒有高質(zhì)量的數(shù)據(jù),就沒有高質(zhì)量的挖掘結(jié)果n 高質(zhì)量的決策必須基于高質(zhì)量的數(shù)據(jù)基礎(chǔ)上n 數(shù)據(jù)倉庫是在高質(zhì)量數(shù)據(jù)上的集成Date 34數(shù)據(jù)預(yù)處理的主要任務(wù)n 數(shù)據(jù)清理n 填入缺失數(shù)據(jù)n 平滑噪音數(shù)據(jù)n 確認(rèn)和去除孤立點(diǎn)n 解決不一致性n 數(shù)據(jù)集成n 多個(gè)數(shù)據(jù)庫、 Data Cube和文件系統(tǒng)的集成n 數(shù)據(jù)轉(zhuǎn)換n 規(guī)范化、聚集等n 數(shù)據(jù)歸約n 在可能獲得相同或相似結(jié)果的前提下,對(duì)數(shù)據(jù)的容量進(jìn)行有效的縮減n 數(shù)據(jù)離散化n 對(duì)于一個(gè)特定的連續(xù)屬性,尤其是連續(xù)的數(shù)字屬性,可以把屬性值劃分成若干區(qū)間,以區(qū)間值來代替實(shí)際數(shù)據(jù)值,以減少屬性值的個(gè)數(shù) .Date 35數(shù)據(jù)預(yù)處理的形式數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)歸約Date 36主要內(nèi)容n 為什么需要數(shù)據(jù)預(yù)處理 ?n 數(shù)據(jù)清洗 n 數(shù)據(jù)集成與轉(zhuǎn)換n 數(shù)據(jù)歸約n 數(shù)據(jù)離散化與概念層次的構(gòu)建n 本章小結(jié)Date 37數(shù)據(jù)清洗n 主要任務(wù)n 補(bǔ)充缺失數(shù)據(jù)n 識(shí)別孤立點(diǎn),平滑噪音數(shù)據(jù)n 處理不一致的數(shù)據(jù)Date 38缺失數(shù)據(jù)的處理n 部分?jǐn)?shù)據(jù)通常是不可用的n 在許多元組中部分屬性值為空。如:在客戶表中的客戶收入為空。n 導(dǎo)致數(shù)據(jù)缺失的原因n 數(shù)據(jù)采集設(shè)備的故障n 由于與其它信息的數(shù)據(jù)存在不一致性,因此數(shù)據(jù)項(xiàng)被刪除n 由于不理解或者不知道而未能輸入n 在當(dāng)時(shí)數(shù)據(jù)輸入的時(shí)候,該數(shù)據(jù)項(xiàng)不重要而忽略n 數(shù)據(jù)傳輸過程中引入的錯(cuò)誤n 缺失數(shù)據(jù)通常需要經(jīng)過合理的推斷予以添加Date 39缺失數(shù)據(jù)的處理方法n 忽略該記錄(元組)n 通常在進(jìn)行分類、描述、聚類等挖掘,但是元組缺失類標(biāo)識(shí)時(shí)n 該種方法通常不是最佳的,尤其是缺失數(shù)據(jù)比例比較大的時(shí)候n 手工填入空缺的值n 枯燥、費(fèi)時(shí),可操作性差,不推薦使用n 使用一個(gè)全局的常量填充空缺數(shù)值n 給定一個(gè)固定的屬性值如:未知、不祥、 Unknown 、 Null等n 簡單,但是沒有意義Date 40n 使用屬性的平均值填充空缺數(shù)值n 簡單方便、挖掘結(jié)果容易產(chǎn)生不精確的結(jié)果n 使用與給定元組同一個(gè)類別的所有樣本的平均值n 分類非常重要,尤其是分類指標(biāo)的選擇n 使用最有可能的值予以填充n 利用回歸、基于推導(dǎo)的使用貝葉斯形式化的方法的工具或者判定樹歸納確定n 利用屬性之間的關(guān)系進(jìn)行推斷,保持了屬性之間的聯(lián)系缺失數(shù)據(jù)的處理方法(續(xù))Date 41噪音數(shù)據(jù)n 噪音數(shù)據(jù) :一個(gè)度量(指標(biāo))變量中的隨機(jī)錯(cuò)誤或者偏差n 主要原因n 數(shù)據(jù)采集設(shè)備的錯(cuò)誤n 數(shù)據(jù)錄入問題n 數(shù)據(jù)傳輸問題n 部分技術(shù)的限制n 數(shù)據(jù)轉(zhuǎn)換中的不一致 n 數(shù)據(jù)清理中所需要處理的其它問題n 重復(fù)的記錄n 不完整的數(shù)據(jù)n 不一致的數(shù)據(jù)Date 42噪音數(shù)據(jù)的處理n 分箱( Binning) 的方法n 聚類方法n 檢測并消除異常點(diǎn)n 線性回歸n 對(duì)不符合回歸的數(shù)據(jù)進(jìn)行平滑處理n 人機(jī)結(jié)合共同檢測n 由計(jì)算機(jī)檢測可疑的點(diǎn),然后由用戶確認(rèn)Date 43處理噪音數(shù)據(jù):分箱方法n 分箱( Binning) 方法 :n 基本思想:通過考察相鄰數(shù)據(jù)的值,來平滑存儲(chǔ)數(shù)據(jù)的值n 基本步驟:n 首先,對(duì)數(shù)據(jù)進(jìn)行排序,并分配到具有相同寬度 /深度的不同的 “箱子 ”中n 其次,通過箱子的平均值( Means)、 中值(Median)、 或者邊界值等來進(jìn)行平滑處理Date 44分箱( Binning) 方法舉例n 對(duì)數(shù)據(jù)進(jìn)行排序 : 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34n 對(duì)數(shù)據(jù)進(jìn)行分割 (相同深度 ) :n Bin 1: 4, 8, 9, 15n Bin 2: 21, 21, 24, 25n Bin 3: 26, 28, 29, 34n 根據(jù) bin中的平均值進(jìn)行離散化 :n Bin 1: 9, 9, 9, 9n Bin 2: 23, 23, 23, 23n Bin 3: 29, 29, 29, 29Date 45基于聚類分析的平滑處理Date 46通過線性回歸的平滑處理xyy = x + 1X1Y1Y1’Date 47主要內(nèi)容n 為什么需要數(shù)據(jù)預(yù)處理n 數(shù)據(jù)清洗 n 數(shù)據(jù)集成與轉(zhuǎn)換n 數(shù)據(jù)歸約n 數(shù)據(jù)離散化與概念層次的構(gòu)建n 本章小結(jié)Date 48數(shù)據(jù)集成n 數(shù)據(jù)集成的概念n 將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)中n 數(shù)據(jù)源包括:多個(gè)數(shù)據(jù)庫、多維數(shù)據(jù)庫和一般的文件n 數(shù)據(jù)集成也是數(shù)據(jù)倉庫建設(shè)中的一個(gè)重要問題n 數(shù)據(jù)集成的內(nèi)容n 模式集成n 利用數(shù)據(jù)庫和數(shù)據(jù)倉庫的元數(shù)據(jù)信息n 主要工作是識(shí)別現(xiàn)實(shí)世界中的實(shí)體定義n 冗余數(shù)據(jù)的處理n 檢
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1