正文內(nèi)容

數(shù)據(jù)挖掘數(shù)據(jù)預處理-預覽頁

2025-09-09 09:43 上一頁面

下一頁面

　

【正文】 00 藍色 0100 綠色 0010 褐色 0001 9 2020/9/15 2020/9/15 變量的分類：連續(xù)型變量和離散型變量。 10 2020/9/15 2020/9/15 與時間有關的數(shù)據(jù)分類： ?靜態(tài)數(shù)據(jù) —— 數(shù)據(jù)不隨時間變化而變化 ?動態(tài)數(shù)據(jù) （時間數(shù)據(jù)） —— 隨時間變化而變化的屬性。 ?如果我們不想扔掉這些有缺失值的樣本，就必須找到它們的缺失值，用什么方法來實現(xiàn)呢？ ? 填補缺失值。 ? 但它的缺點也比較突出：首先，由于同組中的缺失值由同一個值填補，填補結果歪曲了目標屬性的分布；其次，也導致在均值和總量估計中對方差的低估。但它卻增大了估計量的方差，并且穩(wěn)定性不夠。如果有多例相匹配，可取第一例或隨機取其一。 ?回歸填補法是指在現(xiàn)有觀察值基礎上，以含有缺失值的目標屬性為因變量，以與目標屬性相關性高的其它屬性為自變量，建立最小二乘回歸模型或判別模型，以估計缺失值。 ?例如：在檢測銀行交易中的信用卡欺詐行為時，異常點是可能揭示欺詐行為的典型例子。根據(jù)實際可以把區(qū)間縮減到 [0, ]，由這個標準發(fā)現(xiàn) 3個異常點： 156, 139, 67。 ? 其基本思想是：對總體的特征建立分類模型，形成正常行為的特征庫；然后針對新的數(shù)據(jù)判斷其是否屬于正常行為，從而認定其是否與總體偏離，發(fā)生偏離的即是異常值。因此可以認為，欺詐行為的發(fā)現(xiàn)過程就是一種異常數(shù)據(jù)的挖掘過程。 2020/9/15 27 2020/9/15 例如：對電信用戶的欺詐行為探測的具體做法是： ? 首先，將目標屬性定為無意欠費客戶和惡意欠費兩類； ? 其次，選擇屬性作為輸入屬性，通常包括服務合同屬性（如服務類型、服務時間、交費類型等）、客戶的基本狀態(tài)（如性別、年齡、收入、婚姻狀況、受教育年限 /學歷、職業(yè)、居住地區(qū)等）以及經(jīng)?；蚨ㄆ诟淖兊臄?shù)據(jù)（如每月消費金額、交費紀錄等）； ? 然后，將分類方法用于預先選定的包含客戶欠費狀態(tài)的訓練集中，從而挖掘歸納出規(guī)則集； ? 最后，利用所獲取的規(guī)則，對電信企業(yè)新用戶的繳費情況進行預測分類，從而達到預防欺詐的目的。 ? 對于基于距離的方法，規(guī)范化可以幫助防止具有較大初始值域的屬性與具有較小初始值域的屬性相比，權重過大。小數(shù)縮放 ?規(guī)范化是指通過將屬性數(shù)據(jù)按比例縮放，使之落入一個小的特定區(qū)間，如，對屬性規(guī)范化。 ? 標準差規(guī)范化的格式是其中：是均值；是標準差。因此，對變量的值進行平滑處理很重要。如果給定特征的值的集合是平滑后的集合是 }{}{?s m o ot h e dX2020/9/15 分箱 ?分箱方法是通過考察“鄰居”來平滑存儲數(shù)據(jù)的值。 2020/9/15 36 2020/9/15 ? 例如：某產(chǎn)品的價格排序后的數(shù)據(jù)為： 1 2 2 2 2 2 34。箱中每一個值被最近的邊界值替換。 2020/9/15 43 （三）數(shù)據(jù)概化 2020/9/15 ?數(shù)據(jù)概化：是一個過程，它將大的任務相關的數(shù)據(jù)集從較低的概念層抽象到較高的概念層。 ?離散化后可以達到歸約元祖的目的。 ? 有監(jiān)督算法是其輸入樣本集中除了待離散化的數(shù)值屬性外，還有一個或多個離散型的類別屬性。 ? 無監(jiān)督的方法的缺陷在于它對分布不均勻的數(shù)據(jù)不適用，對異常點比較敏感。 ?自底向上是開始于屬性的全部連續(xù)值作為分割點的完全列表，以通過“合并”區(qū)間來移除它們中的一部分作為離散化的過程。 ?（ 2）根據(jù)一定的規(guī)則產(chǎn)生候選斷點集，構造初始區(qū)間。 ? 這是對模型簡潔性的要求。 ? 離散化后的不一致性數(shù)目至少應該比在離散化前原始數(shù)據(jù)的不一致性數(shù)目少，且不一致性數(shù)目越少越好。 ?依據(jù)分組的方式該方法又可以分為等寬和等頻兩種。 ? Iris樣本集是對 3種鳶尾花：剛毛鳶 (yuan)尾花、變色鳶尾花、佛吉尼亞鳶尾花各抽取 50個樣本。 ?（ 2）根據(jù)一定的規(guī)則產(chǎn)生候選斷點集，構造初始區(qū)間。 ? 為防止過度擬合，應使得每個區(qū)間的頻數(shù)大于等于總體單位數(shù)的平方根。 2020/9/15 61 ?具體方法是： ? 首先，將元組劃分為群或簇，使得在每一個簇中的對象“類似”，但與其他簇中的對象“不類似”。有： 2020/9/15 分組頻數(shù) 賦值 ~ 46 1 ~ 37 2 ~ 32 3 ~ 35 4 63 2020/9/15 基于熵的離散化方法 ?信息熵的概念 ? 信息論中的熵：是信息的度量單位，是一種對屬性“不確定性的度量” 。 2020/9/15 65 1l o gNiiiH p p??? ?12, , , Np p p?貪心算法 ?所謂貪心算法是指，在對問題求解時，總是做出在當前看來是最好的選擇。 ? 這時，我們會不假思索地拿出 2個二角五分的硬幣， 1個一角的硬幣和 3個一分的硬幣交給顧客。顧名思義，貪心算法總是作出在當前看來是最好的選擇。然而 3個五分的硬幣顯然是最好的找法。 2020/9/15 68 ?基于熵的離散化方法是通過貪心算法搜尋給定數(shù)據(jù)區(qū)間內(nèi)的具有熵值最小的數(shù)據(jù)點作為斷點。 ) ( ) ( )1 1 1 14 9 49 49 50 50 50 50( l og 0 0) ( l og l og l og )15 0 1 1 15 0 14 9 14 9 14 9 14 9 14 9 14 90. 47 39 20 97SSE X T S En t S En t SSS??? ? ? ? ? ? ? ??72 2020/9/15 ? 以此類推，如把屬性值分為 [,)和 [,7,9]兩個區(qū)間時，產(chǎn)生的新的類別熵為： 2020/9/15 區(qū)間 d1 d2 d3 合計 [,) 47 11 1 59 [,] 3 39 49 91 1212( , 。現(xiàn)在以花萼長（ sepal length in cm ）屬性為例，來進行連續(xù)型值屬性的離散化。 85 2020/9/15 五、屬性的歸約 ? 屬性的歸約包括兩類方法：屬性的提取和屬性子集的選擇。但相應的問題是，這樣的線性組合的實際意義卻不明顯，有時難以解釋。 2020/9/15 87 2020/9/15 主成分分析（因子分析） ?主成分分析和因子分析都是多元統(tǒng)計分析中的一種常用方法，是數(shù)學上處理降維的一種方法。 2020/9/15 89 2020/9/15 ?主成分分析和因子分析的對比數(shù)據(jù)標準化建立指標之間的相關系數(shù)矩陣 R 求 R的特征值和特征向量計算累計貢獻率大于 85%的前n個特征值的特征向量根據(jù)特征向量建立 n個主成分（由變量的線性組合而成） 2020/9/15 根據(jù) n個特征向量建立因子載荷陣對因子載荷陣實行方差最大旋轉按照變量在每個因子上載荷陣的高低，分類。 ?因子的方差貢獻和方差貢獻率是衡量因子重要性的關鍵指標。在后續(xù)的分析中可以用因子變量代替原有變量進行建模，或者利用因子變量對樣本分類、評價或排序等研究。 2020/9/15 93 2020/9/15 ?屬性子集的選擇方法一般有兩個組成部分： ? 一是高效率的屬性子集搜索策略，即在允許的時間內(nèi)，用以找出最小的、最能描述類別的屬性組合的搜索方法； ? 二是確定評價函數(shù)，是衡量屬性組合是否最優(yōu)的標準。 ?啟發(fā)式搜索即貪心算法。 ?這種算法的不足是：在算法中雖然考慮了所選屬性與已入選屬性之間的相關性，但卻未考慮未入選屬性之間的統(tǒng)計相關性，并且一旦某個屬性已入選，即使由于后加入的屬性使它變?yōu)槎嘤?，也無法再剔除。 2020/9/15 99 2020/9/15 （ 4）廣義逐步向前選擇 ? 廣義逐步向前選擇方法是逐步向前選擇方法的推廣，針對逐步向前選擇方法“未能考慮未入選屬性之間的統(tǒng)計相關性”的缺點，該方法每次從未入選的屬性中挑選的不止是一個屬性而是多個屬性。 ?這種評價標準以函數(shù)的形式表示出來就是評價函數(shù)。 ?基于一致性的評價函數(shù)、分類錯誤率以及基于信息熵的評價函數(shù)等 (有監(jiān)督屬性子集選擇方法 )。 ? 選用 2020年各地區(qū)城鎮(zhèn)居民家庭人均全年消費性支出樣本集對逐步向前的屬性子集選擇方法進行模擬。 2020/9/15 106 2020/9/15 107 2020/9/15 108 因子初始解第二列說明提取公因子后，變量可以被因子解釋的信息有多少 2020/9/15 2020/9/15 109 對樣本集進行因子分析，因子分析中前 2個因子的貢獻率分別是%和%，累計貢獻率為%。 2020/9/15 2020/9/15 122 ?速度：指產(chǎn)生和使用模型的計算花費。 ? 貪心算法：在每一步選擇中都采取在當前狀態(tài)下最好 /優(yōu)的選擇。二、決策樹 (Decision Tree) （一）決策樹的結構 124 根部節(jié)點 (root node) 中間節(jié)點 (nonleaf node) (代表測試的條件 ) 分支 (branches) (代表測試的結果 ) 葉節(jié)點 (leaf node) (代表分類后所獲得的分類標記 ) 2020/9/15 2020/9/15 125 （二）決策樹的形成例： 126 ? 根部節(jié)點 ? 中間節(jié)點 ? 停止分支？ 2020/9/15 （三） ID3算法 (,) 127 2020/9/15 ?Quinlan(1979)提出，以 Shannon(1949)的信息論為依據(jù)。 ?如果有以下情況發(fā)生，決策樹將停止分割： ?該群數(shù)據(jù)的每一筆數(shù)據(jù)都已經(jīng)歸類到同一類別。 ?如何處理過度擬合呢？對決策樹進行修剪。 ?確定閥值法：在構造樹時，可將信息增益用于評估岔的優(yōu)良性。通過刪除節(jié)點的分枝，剪掉葉節(jié)點。 2020/9/15 應用案例：在農(nóng)業(yè)中的應用 2020/9/15 137 第一步：屬性離散化 2020/9/15 138 第二步：概化（泛化） 2020/9/15 139 第三步：計算各屬性的期望信息 2020/9/15 140 =(17/30)*LOG((17/30),2)+(10/30)*LOG((10/30),2)+(3/30)*LOG((3/30),2) 計算各屬性的信息增益 2020/9/15 141 第四步：決策樹 2020/9/15 142 案例 2：銀行違約率 2020/9/15 143 2020/9/15 144 案例 3 對電信客戶的流失率分析 2020/9/15 145 數(shù)據(jù)倉庫條件屬性類別屬性客戶是否流失案例 4：在銀行中的應用 2020/9/15 146 案例 5：個人信用評級 2020/9/15 147 個人信用評級決策樹（五）其他算法 148 ? ? Gini Index算法 ? CART算法 ? PRISM算法 ? CHAID算法 2020/9/15 149 ? ，適用在處理大數(shù)據(jù)集，采用 Boosting（提升）方式提高模型準確率，又稱為 Boosting Trees，在軟件上的計算速度比較快，占用的內(nèi)存資源較少。 2020/9/15 ? 集合 T包含 N個類別的記錄，那么其 Gini指標就是 ? 如果集合 T分成兩部分 N1 和 N2。 2020/9/15 2020/9/15 156 構建樹的步驟： 2020/9/15 157 2020/9/15 158

點擊復制文檔內(nèi)容

環(huán)評公示相關推薦

數(shù)據(jù)挖掘入門ppt課件-資料下載頁

【摘要】數(shù)據(jù)挖掘入門Date1

2025-05-12 08:50

序論數(shù)據(jù)挖掘ppt課件-資料下載頁

【摘要】數(shù)據(jù)挖掘與知識發(fā)現(xiàn)主講教師：王玲教科書和參考書n教科書q數(shù)據(jù)挖掘：概念與技術，JiaweiHan和MichelineKamber著，機械工業(yè)出版社(2022)n參考書q數(shù)據(jù)挖掘原理,DavidHand,HeikkiMannila和PadhraicSmyth著，機械工業(yè)出版社(2022)qDataMining

2025-05-12 08:29

數(shù)據(jù)挖掘綜述ppt課件-資料下載頁

【摘要】數(shù)據(jù)挖掘綜述北京師范大學數(shù)學學院1數(shù)據(jù)挖掘技術的由來n網(wǎng)絡技術的高度發(fā)展n數(shù)據(jù)爆炸但知識貧乏n支持數(shù)據(jù)挖掘技術的基礎n從商業(yè)數(shù)據(jù)到商業(yè)信息的進化數(shù)據(jù)爆炸但知識貧乏激增的數(shù)據(jù)背后隱藏著許多重要的信息，人們希望能夠對其進行更高層次的分析，

2025-04-30 18:14

數(shù)據(jù)挖掘方法ppt課件-資料下載頁

【摘要】第二章：管理與決策支持的數(shù)據(jù)挖掘方法教師：廖芹第二章管理與決策支持的數(shù)據(jù)挖掘方法概述主要方法：１、神經(jīng)網(wǎng)絡（感知機模型、BP、RBF、自組織模型）

2025-10-25 22:17

數(shù)據(jù)挖掘應用ppt課件-資料下載頁

【摘要】數(shù)據(jù)挖掘應用CRM顧客生命周期壽命盈利獲取消費者保持消費者消費者分析和恢復收入支出壽命數(shù)據(jù)挖掘在CRM中的應用Customeridentification?CRMbeginswithcustomeridentification.Thisphaseinvolvestarge

2025-10-25 22:17

數(shù)據(jù)挖掘原理ppt課件-資料下載頁

【摘要】數(shù)據(jù)挖掘原理WhatisDataMining??AccordingtotheGartnerGroup,Dataminingistheprocessofdiscoveringmeaningful

2025-10-25 22:15

數(shù)據(jù)挖掘技術ppt課件-資料下載頁

【摘要】于金霞計算機科學與技術學院信息管理與信息系統(tǒng)專業(yè)課程第三講數(shù)據(jù)挖掘技術主要內(nèi)容?一、數(shù)據(jù)挖掘概述?二、數(shù)據(jù)預處理?三、數(shù)據(jù)挖掘算法－分類與預測?四、數(shù)據(jù)挖掘算法－聚類?五、數(shù)據(jù)挖掘算法－關聯(lián)分析?六、序列模式挖掘?七、數(shù)據(jù)挖掘軟件?八、數(shù)據(jù)挖掘應用一、數(shù)據(jù)

2025-01-17 17:45

數(shù)據(jù)挖掘chappt課件-資料下載頁

【摘要】第2章從商務角度看數(shù)據(jù)挖掘程春明《數(shù)據(jù)挖掘》課件內(nèi)容提要引言從數(shù)據(jù)挖掘工具到解決方案數(shù)據(jù)挖掘系統(tǒng)的演變Crisp-DM模型數(shù)據(jù)挖掘支撐技術概述數(shù)據(jù)挖掘技術引言?商業(yè)數(shù)據(jù)是如何進化為有用商業(yè)信息的？?信息技術發(fā)展一個新的重要趨勢是識別信

2025-05-12 03:17

數(shù)據(jù)挖掘概述ppt課件-資料下載頁

【摘要】講授：吳雄華第一章數(shù)據(jù)挖掘概述電話：13752460206Email：一、引例網(wǎng)站這種推薦并非漫無邊際，而是有一定技術依據(jù)的，這種技術就是數(shù)據(jù)挖掘技術（DM）。網(wǎng)站怎么知道讀者可能會對這些物品干興趣？這是因為網(wǎng)站采用了新的技術來了解顧客的潛在需求，比如：網(wǎng)站從顧客的購買清單中發(fā)現(xiàn)你買的書與張三買過的書有幾本是相同的，但是還有些書張三已經(jīng)

2025-05-12 08:33

數(shù)據(jù)挖掘ppt課件(2)-資料下載頁

【摘要】第第13章章數(shù)據(jù)挖掘數(shù)據(jù)挖掘數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘的基本類型和算法智能決策與物聯(lián)網(wǎng)本章內(nèi)容數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘ü從大量數(shù)據(jù)中獲取潛在有用的并且可以被人們理解的模式的過程ü反復迭代的人機交互和處理過程，歷經(jīng)多個步驟，并且在一些步驟中需要由用戶提供決策數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘過程?數(shù)據(jù)預處理階段

2025-04-30 18:24

數(shù)據(jù)挖掘可挖掘的知識類型-資料下載頁

【摘要】1數(shù)據(jù)挖掘原理與SPSSClementine應用寶典元昌安主編鄧松李文敬劉海濤編著電子工業(yè)出版社2?概念/類描述?關聯(lián)模式?分類?聚類分析?預測?時間序列?偏差檢測

2025-05-15 11:38

智能交通數(shù)據(jù)預處理算法研究及應用-資料下載頁

【摘要】青島科技大學本科畢業(yè)設計（論文）1緒論交通可以將人和物之間互相聯(lián)系起來，在城市的建設、發(fā)展和日常運行中起到了重要的作用，我們出行使用的交通工具無不處于復雜的交通線路中，通過這些線路，我們可以到達我們想要前往的地點。在技術的不斷發(fā)展和進步中，交通也變得越來越安全、便利、不再昂貴的運輸成本，每次交通方面的進步都會影響到很多行業(yè)的發(fā)展，帶來新的就業(yè)機會，為城市的發(fā)展帶來利好。公路是城市的

2025-08-05 07:09

ch14數(shù)據(jù)倉庫與數(shù)據(jù)挖掘-資料下載頁

【摘要】2021年6月14日星期一數(shù)據(jù)庫教程（沈）1第四部分新技術篇1.概述2.數(shù)據(jù)倉庫

2025-05-11 16:42

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述(學時2)-資料下載頁

【摘要】數(shù)據(jù)倉庫與數(shù)據(jù)挖掘（DATAWAREHOUSINGANDDATAMINING）石家莊鐵道大學DW&DM2021/11/12-2-課程介紹21世紀是一個以計算機技術和知識經(jīng)濟為核心的信息化時代。隨著計算機技術、網(wǎng)絡技術的飛速發(fā)展和數(shù)據(jù)庫應用的不斷深化，數(shù)據(jù)倉庫（DataWareh

2025-10-10 19:41

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的決策支持-資料下載頁

【摘要】第5章數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的決策支持?基本原理?知識發(fā)現(xiàn)與?數(shù)據(jù)挖掘?數(shù)據(jù)倉庫系統(tǒng)?聯(lián)機分析處理?數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的決策支持數(shù)據(jù)倉庫的支持系統(tǒng)決策支持系統(tǒng)醫(yī)藥信息工程學院.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的決策支持數(shù)據(jù)倉庫的基本原理數(shù)據(jù)倉庫的興起

2025-05-13 01:59

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

數(shù)據(jù)挖掘數(shù)據(jù)預處理-預覽頁

數(shù)據(jù)挖掘入門ppt課件-資料下載頁

序論數(shù)據(jù)挖掘ppt課件-資料下載頁

數(shù)據(jù)挖掘綜述ppt課件-資料下載頁

數(shù)據(jù)挖掘方法ppt課件-資料下載頁

數(shù)據(jù)挖掘應用ppt課件-資料下載頁

數(shù)據(jù)挖掘原理ppt課件-資料下載頁

數(shù)據(jù)挖掘技術ppt課件-資料下載頁

數(shù)據(jù)挖掘chappt課件-資料下載頁

數(shù)據(jù)挖掘概述ppt課件-資料下載頁

數(shù)據(jù)挖掘ppt課件(2)-資料下載頁

數(shù)據(jù)挖掘可挖掘的知識類型-資料下載頁

智能交通數(shù)據(jù)預處理算法研究及應用-資料下載頁

ch14數(shù)據(jù)倉庫與數(shù)據(jù)挖掘-資料下載頁

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述(學時2)-資料下載頁

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的決策支持-資料下載頁

數(shù)據(jù)挖掘數(shù)據(jù)預處理(文件)

數(shù)據(jù)挖掘數(shù)據(jù)預處理-全文預覽

數(shù)據(jù)挖掘數(shù)據(jù)預處理-預覽頁

數(shù)據(jù)挖掘數(shù)據(jù)預處理-免費閱讀

數(shù)據(jù)挖掘數(shù)據(jù)預處理(存儲版)