freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

《數據挖掘入門》ppt課件-全文預覽

2025-06-02 08:50 上一頁面

下一頁面
  

【正文】 Unknown 、 Null等n 簡單,但是沒有意義Date 40n 使用屬性的平均值填充空缺數值n 簡單方便、挖掘結果容易產生不精確的結果n 使用與給定元組同一個類別的所有樣本的平均值n 分類非常重要,尤其是分類指標的選擇n 使用最有可能的值予以填充n 利用回歸、基于推導的使用貝葉斯形式化的方法的工具或者判定樹歸納確定n 利用屬性之間的關系進行推斷,保持了屬性之間的聯系缺失數據的處理方法(續(xù))Date 41噪音數據n 噪音數據 :一個度量(指標)變量中的隨機錯誤或者偏差n 主要原因n 數據采集設備的錯誤n 數據錄入問題n 數據傳輸問題n 部分技術的限制n 數據轉換中的不一致 n 數據清理中所需要處理的其它問題n 重復的記錄n 不完整的數據n 不一致的數據Date 42噪音數據的處理n 分箱( Binning) 的方法n 聚類方法n 檢測并消除異常點n 線性回歸n 對不符合回歸的數據進行平滑處理n 人機結合共同檢測n 由計算機檢測可疑的點,然后由用戶確認Date 43處理噪音數據:分箱方法n 分箱( Binning) 方法 :n 基本思想:通過考察相鄰數據的值,來平滑存儲數據的值n 基本步驟:n 首先,對數據進行排序,并分配到具有相同寬度 /深度的不同的 “箱子 ”中n 其次,通過箱子的平均值( Means)、 中值(Median)、 或者邊界值等來進行平滑處理Date 44分箱( Binning) 方法舉例n 對數據進行排序 : 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34n 對數據進行分割 (相同深度 ) :n Bin 1: 4, 8, 9, 15n Bin 2: 21, 21, 24, 25n Bin 3: 26, 28, 29, 34n 根據 bin中的平均值進行離散化 :n Bin 1: 9, 9, 9, 9n Bin 2: 23, 23, 23, 23n Bin 3: 29, 29, 29, 29Date 45基于聚類分析的平滑處理Date 46通過線性回歸的平滑處理xyy = x + 1X1Y1Y1’Date 47主要內容n 為什么需要數據預處理n 數據清洗 n 數據集成與轉換n 數據歸約n 數據離散化與概念層次的構建n 本章小結Date 48數據集成n 數據集成的概念n 將多個數據源中的數據結合起來存放在一個一致的數據存儲中n 數據源包括:多個數據庫、多維數據庫和一般的文件n 數據集成也是數據倉庫建設中的一個重要問題n 數據集成的內容n 模式集成n 利用數據庫和數據倉庫的元數據信息n 主要工作是識別現實世界中的實體定義n 冗余數據的處理n 檢測和解決數值沖突n 對于現實世界中的同一實體,來自于不同數據源的屬性值可能不同n 主要原因:不同的數據表示、度量單位、編碼方式以及語義的不同Date 49模式集成n 數據類型沖突n 性別: string(Male、 Female)、 Char( M、 F)、 Interger( 0、 1)n 日期: Date、 DateTime、 Stringn 數據標簽沖突:解決同名異義、異名同義n 學生成績、分數n 度量單位沖突n 學生成績n 百分制: 100 ~ 0n 五分制: A 、 B、 C、 D、 En 字符表示:優(yōu)、良、及格、不及格n 概念不清n 最近交易額:前一個小時、昨天、本周、本月?n 聚集沖突:根源在于表結構的設計 Date 50冗余數據的處理n 從多個數據源中抽取不同的數據,容易導致數據的冗余n 不同的屬性在不同的數據源中是不同的命名方式n 有些屬性可以從其它屬性中導出, 例如:銷售額=單價 銷售量n 有些冗余可以通過相關分析檢測到 其中: n是元組的個數, 和 分別是 A和 B的平均值, 和 分別是 A和 B的標準差 n 元組級的 “重復 ”,也是數據冗余的一個重要方面n 減少冗余數據,可以大大提高數據挖掘的性能Date 51數據轉換n 平滑處理 : 從數據中消除噪音數據n 聚集操作 : 對數據進行綜合,類似于 Data Cube的構建n 數據概化:構建概念層次n 數據規(guī)范化 : 將數據集中到一個較小的范圍之中n 最大 最小規(guī)范化n zscore( 零-均值)規(guī)范化n 小數范圍規(guī)范化( 0–1規(guī)范化)n 屬性構造n 構造新的屬性并添加到屬性集中,以幫助數據挖掘Date 52數據轉換:規(guī)范化n 最大 最小規(guī)范化n 對原始數據進行線性變換n 保持了原始數據值之間的關系n 當有新的輸入,落在原數據區(qū)之外,該方法將面臨 “越界 ”錯誤n 受到孤立點的影響可能會比較大Date 53數據轉換:規(guī)范化(續(xù))n zscore( 零-均值 ) 規(guī)范化n 屬性基于平均值和標準差規(guī)范化n 當屬性的最大值和最小值未知,或者孤立點左右了最大-最小規(guī)范化時,該方法有效n 01規(guī)范化(小數定標規(guī)范化)n 通過移動屬性的小數點位置進行規(guī)范化n 例如 A的值為 125,那么 |A|=125,則 j=3,有v=。 DMW是一個用在信用卡欺詐分析方面的數據挖掘工具,支持反向傳播神經網絡算法,并能以自動和人工模式操作216。 Clementine可以把直觀的圖形用戶界面與多種分析技術結合在一起,包括神經網絡、關聯規(guī)則和規(guī)則歸納技術。216。由于是在微弱變化中獲取信息,該系統(tǒng)也可以應用于 證券領域中的股市行情預測 。會產生 “如果在某一時間段內發(fā)生某些預警信息組合,那么其他類型的預警信息將在某個時間范圍內發(fā)生 ”的規(guī)則。216。 另一種解決辦法是研究開發(fā)可以直接對多媒體數據進行挖掘的工具。 多媒體數據挖掘就是通過綜合分析多媒體數據的內容和語義,從大量多媒體數據中發(fā)現隱含的、有效的、有價值的、可理解的模式,得出事件的發(fā)展趨向和關聯關系,為用戶提供問題求解層次上的決策支持能力。分類也可以用來預測。預測的目的是從歷史數據中自動推導出對給定數據的推廣描述,從而能對未來數據進行預測。216。內部節(jié)點是屬性或屬性的集合,葉節(jié)點代表樣本所屬的類或類分布。第二步是用模型對數據對象進行分類。 分類的目的是提出一個分類函數或分類模型(即分類器)通過分類器將數據對象映射到某一個給定的類別中。將人工神經網絡應用于數據挖掘,希望借助其非線性處理能力和容噪能力,得到較好的數據挖掘結果。 ( 2)由頻繁項集生成滿足最小信任度閾值的規(guī)則。項集在事物數據庫中出現的次數占總事物的百分比叫做項集的支持度。商家關注高支持度的產品。用聚類生成的簇來表達數據集不可避免地會損失一些信息,但卻可以使問題得到必要的簡化。聚類生成的組為簇,簇是數據對象的集合。 ?A(x)的值接近 0,表示 x隸屬于 A的程度很低。美國加利福尼亞大學的扎德教授于 1965年提出了模糊集合論,用隸屬程度 來描述差異的中間過渡,是一種用精確的數
點擊復制文檔內容
教學課件相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1