freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

數(shù)據(jù)挖掘入門ppt課件(編輯修改稿)

2025-06-08 08:50 本頁面
 

【文章內容簡介】 MIT噴氣推進實驗室與天文科學家合作開發(fā)的用于幫助天文學家發(fā)現(xiàn)遙遠的類星體的工具 。216。 HealthKEFIR是用于健康狀況預警的知識發(fā)現(xiàn)系統(tǒng) 。216。 TASA是為預測通信網(wǎng)絡故障 而開發(fā)的 通信網(wǎng)絡預警分析系統(tǒng) 。會產生 “如果在某一時間段內發(fā)生某些預警信息組合,那么其他類型的預警信息將在某個時間范圍內發(fā)生 ”的規(guī)則。時間段大小由用戶定義。216。 RMINI運用分類技術從噪聲中提取有價值的信息。由于是在微弱變化中獲取信息,該系統(tǒng)也可以應用于 證券領域中的股市行情預測 。Date 29216。 KDW是大型商業(yè)數(shù)據(jù)庫中的交互分析系統(tǒng)。包括聚類、分類、總結、相關性分析等多種模式。216。 DBMiner是加拿大 Simon Fraser大學開發(fā)的一個多任務KDD系統(tǒng)。能夠完成多種知識發(fā)現(xiàn),綜合了多種數(shù)據(jù)挖掘技術。216。 Clementine可以把直觀的圖形用戶界面與多種分析技術結合在一起,包括神經(jīng)網(wǎng)絡、關聯(lián)規(guī)則和規(guī)則歸納技術。216。 Darwin包含神經(jīng)網(wǎng)絡、決策書和 K鄰近三種數(shù)據(jù)挖掘方法,處理分類、預測和預報問題。216。 DMW是一個用在信用卡欺詐分析方面的數(shù)據(jù)挖掘工具,支持反向傳播神經(jīng)網(wǎng)絡算法,并能以自動和人工模式操作216。 Intelligent Miner是 IBM開發(fā)的包括人工智能、機器學習、語言分析和知識發(fā)現(xiàn)領域成果在內的復雜軟件解決方案。Date 30五,數(shù)據(jù)預處理n 為什么需要數(shù)據(jù)預處理 ?n 數(shù)據(jù)清洗 n 數(shù)據(jù)集成與轉換n 數(shù)據(jù)歸約n 數(shù)據(jù)離散化與概念層次的構建n 本章小結Date 31為什么需要數(shù)據(jù)預處理 ?n 在現(xiàn)實社會中,存在著大量的 “臟 ”數(shù)據(jù)n 不完整性 (數(shù)據(jù)結構的設計人員、數(shù)據(jù)采集設備和數(shù)據(jù)錄入人員) n 缺少感興趣的屬性n 感興趣的屬性缺少部分屬性值n 僅僅包含聚合數(shù)據(jù),沒有詳細數(shù)據(jù)n 噪音數(shù)據(jù)(采集數(shù)據(jù)的設備、數(shù)據(jù)錄入人員、數(shù)據(jù)傳輸)n 數(shù)據(jù)中包含錯誤的信息n 存在著部分偏離期望值的孤立點n 不一致性(數(shù)據(jù)結構的設計人員、數(shù)據(jù)錄入人員)n 數(shù)據(jù)結構的不一致性n Label的不一致性n 數(shù)據(jù)值的不一致性Date 32為什么需要數(shù)據(jù)預處理 ?n 數(shù)據(jù)挖掘的數(shù)據(jù)源可能是多個互相獨立的數(shù)據(jù)源n 關系數(shù)據(jù)庫n 多維數(shù)據(jù)庫( Data Cube)n 文件、文檔數(shù)據(jù)庫n 數(shù)據(jù)轉換n 為了數(shù)據(jù)挖掘的方便n 海量數(shù)據(jù)的處理n 數(shù)據(jù)歸約(在獲得相同或者相似結果的前提下)Date 33為什么需要數(shù)據(jù)預處理?n 沒有高質量的數(shù)據(jù),就沒有高質量的挖掘結果n 高質量的決策必須基于高質量的數(shù)據(jù)基礎上n 數(shù)據(jù)倉庫是在高質量數(shù)據(jù)上的集成Date 34數(shù)據(jù)預處理的主要任務n 數(shù)據(jù)清理n 填入缺失數(shù)據(jù)n 平滑噪音數(shù)據(jù)n 確認和去除孤立點n 解決不一致性n 數(shù)據(jù)集成n 多個數(shù)據(jù)庫、 Data Cube和文件系統(tǒng)的集成n 數(shù)據(jù)轉換n 規(guī)范化、聚集等n 數(shù)據(jù)歸約n 在可能獲得相同或相似結果的前提下,對數(shù)據(jù)的容量進行有效的縮減n 數(shù)據(jù)離散化n 對于一個特定的連續(xù)屬性,尤其是連續(xù)的數(shù)字屬性,可以把屬性值劃分成若干區(qū)間,以區(qū)間值來代替實際數(shù)據(jù)值,以減少屬性值的個數(shù) .Date 35數(shù)據(jù)預處理的形式數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)轉換數(shù)據(jù)歸約Date 36主要內容n 為什么需要數(shù)據(jù)預處理 ?n 數(shù)據(jù)清洗 n 數(shù)據(jù)集成與轉換n 數(shù)據(jù)歸約n 數(shù)據(jù)離散化與概念層次的構建n 本章小結Date 37數(shù)據(jù)清洗n 主要任務n 補充缺失數(shù)據(jù)n 識別孤立點,平滑噪音數(shù)據(jù)n 處理不一致的數(shù)據(jù)Date 38缺失數(shù)據(jù)的處理n 部分數(shù)據(jù)通常是不可用的n 在許多元組中部分屬性值為空。如:在客戶表中的客戶收入為空。n 導致數(shù)據(jù)缺失的原因n 數(shù)據(jù)采集設備的故障n 由于與其它信息的數(shù)據(jù)存在不一致性,因此數(shù)據(jù)項被刪除n 由于不理解或者不知道而未能輸入n 在當時數(shù)據(jù)輸入的時候,該數(shù)據(jù)項不重要而忽略n 數(shù)據(jù)傳輸過程中引入的錯誤n 缺失數(shù)據(jù)通常需要經(jīng)過合理的推斷予以添加Date 39缺失數(shù)據(jù)的處理方法n 忽略該記錄(元組)n 通常在進行分類、描述、聚類等挖掘,但是元組缺失類標識時n 該種方法通常不是最佳的,尤其是缺失數(shù)據(jù)比例比較大的時候n 手工填入空缺的值n 枯燥、費時,可操作性差,不推薦使用n 使用一個全局的常量填充空缺數(shù)值n 給定一個固定的屬性值如:未知、不祥、 Unknown 、 Null等n 簡單,但是沒有意義Date 40n 使用屬性的平均值填充空缺數(shù)值n 簡單方便、挖掘結果容易產生不精確的結果n 使用與給定元組同一個類別的所有樣本的平均值n 分類非常重要,尤其是分類指標的選擇n 使用最有可能的值予以填充n 利用回歸、基于推導的使用貝葉斯形式化的方法的工具或者判定樹歸納確定n 利用屬性之間的關系進行推斷,保持了屬性之間的聯(lián)系缺失數(shù)據(jù)的處理方法(續(xù))Date 41噪音數(shù)據(jù)n 噪音數(shù)據(jù) :一個度量(指標)變量中的隨機錯誤或者偏差n 主要原因n 數(shù)據(jù)采集設備的錯誤n 數(shù)據(jù)錄入問題n 數(shù)據(jù)傳輸問題n 部分技術的限制n 數(shù)據(jù)轉換中的不一致 n 數(shù)據(jù)清理中所需要處理的其它問題n 重復的記錄n 不完整的數(shù)據(jù)n 不一致的數(shù)據(jù)Date 42噪音數(shù)據(jù)的處理n 分箱( Binning) 的方法n 聚類方法n 檢測并消除異常點n 線性回歸n 對不符合回歸的數(shù)據(jù)進行平滑處理n 人機結合共同檢測n 由計算機檢測可疑的點,然后由用戶確認Date 43處理噪音數(shù)據(jù):分箱方法n 分箱( Binning) 方法 :n 基本思想:通過考察相鄰數(shù)據(jù)的值,來平滑存儲數(shù)據(jù)的值n 基本步驟:n 首先,對數(shù)據(jù)進行排序,并分配到具有相同寬度 /深度的不同的 “箱子 ”中n 其次,通過箱子的平均值( Means)、 中值(Median)、 或者邊界值等來進行平滑處理Date 44分箱( Binning) 方法舉例n 對數(shù)據(jù)進行排序 : 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34n 對數(shù)據(jù)進行分割 (相同深度 ) :n Bin 1: 4, 8, 9, 15n Bin 2: 21, 21, 24, 25n Bin 3: 26, 28, 29, 34n 根據(jù) bin中的平均值進行離散化 :n Bin 1: 9, 9, 9, 9n Bin 2: 23, 23, 23, 23n Bin 3: 29, 29, 29, 29Date 45基于聚類分析的平滑處理Date 46通過線性回歸的平滑處理xyy = x + 1X1Y1Y1’Date 47主要內容n 為什么需要數(shù)據(jù)預處理n 數(shù)據(jù)清洗 n 數(shù)據(jù)集成與轉換n 數(shù)據(jù)歸約n 數(shù)據(jù)離散化與概念層次的構建n 本章小結Date 48數(shù)據(jù)集成n 數(shù)據(jù)集成的概念n 將多個數(shù)據(jù)源中的數(shù)據(jù)結合起來存放在一個一致的數(shù)據(jù)存儲中n 數(shù)據(jù)源包括:多個數(shù)據(jù)庫、多維數(shù)據(jù)庫和一般的文件n 數(shù)據(jù)集成也是數(shù)據(jù)倉庫建設中的一個重要問題n 數(shù)據(jù)集成的內容n 模式集成n 利用數(shù)據(jù)庫和數(shù)據(jù)倉庫的元數(shù)據(jù)信息n 主要工作是識別現(xiàn)實世界中的實體定義n 冗余數(shù)據(jù)的處理n 檢
點擊復制文檔內容
教學課件相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1