freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘數(shù)據(jù)預處理-預覽頁

2025-09-09 09:43 上一頁面

下一頁面
 

【正文】 00 藍色 0100 綠色 0010 褐色 0001 9 2020/9/15 2020/9/15 變量 的分類: 連續(xù)型變量和離散型變量 。 10 2020/9/15 2020/9/15 與時間有關的數(shù)據(jù)分類: ?靜態(tài)數(shù)據(jù) —— 數(shù)據(jù)不隨時間變化而變化 ?動態(tài)數(shù)據(jù) (時間數(shù)據(jù)) —— 隨時間變化而變化的屬性。 ?如果我們不想扔掉這些有缺失值的樣本,就必須找到它們的缺失值,用什么方法來實現(xiàn)呢? ? 填補缺失值。 ? 但它的缺點也比較突出:首先,由于同組中的缺失值由同一個值填補,填補結果歪曲了目標屬性的分布;其次,也導致在均值和總量估計中對方差的低估。但它卻增大了估計量的方差,并且穩(wěn)定性不夠。如果有多例相匹配,可取第一例或隨機取其一。 ?回歸填補法是指在現(xiàn)有觀察值基礎上,以含有缺失值的目標屬性為因變量,以與目標屬性相關性高的其它屬性為自變量,建立最小二乘回歸模型或判別模型,以估計缺失值。 ?例如 :在檢測銀行交易中的信用卡欺詐行為時,異常點是可能揭示欺詐行為的典型 例子。根據(jù)實際可以把區(qū)間縮減到 [0, ],由這個標準發(fā)現(xiàn) 3個異常點: 156, 139, 67。 ? 其基本思想是:對總體的特征建立分類模型,形成正常行為的特征庫;然后針對新的數(shù)據(jù)判斷其是否屬于正常行為,從而認定其是否與總體偏離,發(fā)生偏離的即是異常值。因此可以認為,欺詐行為的發(fā)現(xiàn)過程就是一種異常數(shù)據(jù)的挖掘過程。 2020/9/15 27 2020/9/15 例如:對電信用戶的欺詐行為探測的具體做法是: ? 首先,將目標屬性定為無意欠費客戶和惡意欠費兩類; ? 其次,選擇屬性作為輸入屬性,通常包括服務合同屬性(如服務類型、服務時間、交費類型等)、客戶的基本狀態(tài)(如性別、年齡、收入、婚姻狀況、受教育年限 /學歷、職業(yè)、居住地區(qū)等)以及經(jīng)?;蚨ㄆ诟淖兊臄?shù)據(jù)(如每月消費金額、交費紀錄等); ? 然后,將分類方法用于預先選定的包含客戶欠費狀態(tài)的訓練集中,從而挖掘歸納出規(guī)則集; ? 最后,利用所獲取的規(guī)則,對電信企業(yè)新用戶的繳費情況進行預測分類,從而達到預防欺詐的目的。 ? 對于基于距離的方法,規(guī)范化可以幫助防止具有較大初始值域的屬性與具有較小初始值域的屬性相比,權重過大。小數(shù)縮放 ?規(guī)范化是指通過將屬性數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間,如 ,對屬性規(guī)范化。 ? 標準差規(guī)范化的格式是 其中: 是均值; 是標準差。 因此,對變量的值進行平滑處理很重要。如果給定特征的值的集合是 平滑后的集合是 }{}{?s m o ot h e dX2020/9/15 分箱 ?分箱方法是通過考察“鄰居”來平滑存儲數(shù)據(jù)的值。 2020/9/15 36 2020/9/15 ? 例如:某產(chǎn)品的價格排序后的數(shù)據(jù)為: 1 2 2 2 2 2 34。箱中每一個值被最近的邊界值替換。 2020/9/15 43 (三)數(shù)據(jù)概化 2020/9/15 ?數(shù)據(jù)概化:是一個過程,它將大的任務相關的數(shù)據(jù)集從較低的概念層抽象到較高的概念層。 ?離散化后可以達到歸約元祖的目的。 ? 有監(jiān)督算法是其輸入樣本集中除了待離散化的數(shù)值屬性外,還有一個或多個離散型的 類別屬性 。 ? 無監(jiān)督的方法的缺陷在于它對分布不均勻的數(shù)據(jù)不適用,對異常點比較敏感。 ?自底向上是開始于屬性的全部連續(xù)值作為分割點的完全列表,以通過“合并”區(qū)間來移除它們中的一部分作為離散化的過程。 ?( 2)根據(jù)一定的規(guī)則產(chǎn)生候選斷點集,構造初始區(qū)間。 ? 這是對模型簡潔性的要求。 ? 離散化后的不一致性數(shù)目至少應該比在離散化前原始數(shù)據(jù)的不一致性數(shù)目少,且不一致性數(shù)目越少越好。 ?依據(jù)分組的方式該方法又可以分為等寬和等頻兩種。 ? Iris樣本集是對 3種鳶尾花:剛毛鳶 (yuan)尾花、變色鳶尾花、佛吉尼亞鳶尾花各抽取 50個樣本。 ?( 2)根據(jù)一定的規(guī)則產(chǎn)生候選斷點集,構造初始區(qū)間。 ? 為防止過度擬合,應使得每個區(qū)間的頻數(shù)大于等于總體單位數(shù)的平方根。 2020/9/15 61 ?具體方法是: ? 首先,將元組劃分為群或簇,使得在每一個簇中的對象“類似”,但與其他簇中的對象“不類似”。有: 2020/9/15 分組 頻數(shù) 賦值 ~ 46 1 ~ 37 2 ~ 32 3 ~ 35 4 63 2020/9/15 基于熵的離散化方法 ?信息熵的概念 ? 信息論中的熵:是信息的度量單位,是一種 對屬性“不確定性的度量” 。 2020/9/15 65 1l o gNiiiH p p??? ?12, , , Np p p?貪心算法 ?所謂貪心算法是指,在對問題求解時,總是做出在當前看來是最好的選擇。 ? 這時,我們會不假思索地拿出 2個二角五分的硬幣, 1個一角的硬幣和 3個一分的硬幣交給顧客。顧名思義,貪心算法總是作出在當前看來是最好的選擇。然而 3個五分的硬幣顯然是最好的找法。 2020/9/15 68 ?基于熵的離散化方法是通過貪心算法搜尋給定數(shù)據(jù)區(qū)間內(nèi)的具有熵值最小的數(shù)據(jù)點作為斷點。 ) ( ) ( )1 1 1 14 9 49 49 50 50 50 50( l og 0 0) ( l og l og l og )15 0 1 1 15 0 14 9 14 9 14 9 14 9 14 9 14 90. 47 39 20 97SSE X T S En t S En t SSS??? ? ? ? ? ? ? ??72 2020/9/15 ? 以此類推,如把屬性值分為 [,)和 [,7,9]兩個區(qū)間時,產(chǎn)生的新的類別熵為: 2020/9/15 區(qū)間 d1 d2 d3 合計 [,) 47 11 1 59 [,] 3 39 49 91 1212( , 。現(xiàn)在以花萼長( sepal length in cm )屬性為例,來進行連續(xù)型值屬性的離散化。 85 2020/9/15 五、屬性的歸約 ? 屬性的歸約包括兩類方法:屬性的提取和屬性子集的選擇。 但相應的問題是,這樣的線性組合的實際意義卻不明顯,有時難以解釋。 2020/9/15 87 2020/9/15 主成分分析(因子分析) ?主成分分析和因子分析都是多元統(tǒng)計分析中的一種常用方法,是數(shù)學上處理降維的一種方法。 2020/9/15 89 2020/9/15 ?主成分分析和因子分析的對比 數(shù)據(jù)標準化 建立指標之間的相關系數(shù)矩陣 R 求 R的特征值和特征向量 計算累計貢獻率大于 85%的前n個特征值的特征向量 根據(jù)特征向量建立 n個主成分(由變量的線性組合而成) 2020/9/15 根據(jù) n個特征向量建立因子載荷陣 對因子載荷陣實行方差最大旋轉 按照變量在每個因子上載荷陣的高低,分類。 ?因子的方差貢獻和方差貢獻率是衡量因子重要性的關鍵指標。在后續(xù)的分析中可以用因子變量代替原有變量進行建模,或者利用因子變量對樣本分類、評價或排序等研究。 2020/9/15 93 2020/9/15 ?屬性子集的選擇方法一般有兩個組成部分: ? 一是高效率的屬性子集搜索策略,即在允許的時間內(nèi),用以找出最小的、最能描述類別的屬性組合的搜索方法; ? 二是確定評價函數(shù),是衡量屬性組合是否最優(yōu)的標準。 ?啟發(fā)式搜索即貪心算法。 ?這種算法的不足是:在算法中雖然考慮了所選屬性與已入選屬性之間的相關性,但卻未考慮未入選屬性之間的統(tǒng)計相關性,并且一旦某個屬性已入選,即使由于后加入的屬性使它變?yōu)槎嘤?,也無法再剔除。 2020/9/15 99 2020/9/15 ( 4)廣義逐步向前選擇 ? 廣義逐步向前選擇方法是逐步向前選擇方法的推廣,針對逐步向前選擇方法“未能考慮未入選屬性之間的統(tǒng)計相關性”的缺點,該方法每次從未入選的屬性中挑選的不止是一個屬性而是多個屬性。 ?這種評價標準以函數(shù)的形式表示出來就是評價函數(shù)。 ?基于一致性的評價函數(shù)、分類錯誤率以及基于信息熵的評價函數(shù)等 (有監(jiān)督屬性子集選擇方法 )。 ? 選用 2020年各地區(qū)城鎮(zhèn)居民家庭人均全年消費性支出樣本集對逐步向前的屬性子集選擇方法進行模擬。 2020/9/15 106 2020/9/15 107 2020/9/15 108 因子初始解 第二列說明提取公因子后,變量可以被因子解釋的信息有多少 2020/9/15 2020/9/15 109 對樣本集進行因子分析,因子分析中前 2個因子的貢獻率分別是%和%,累計貢獻率為%。 2020/9/15 2020/9/15 122 ?速度 :指產(chǎn)生和使用模型的計算花費。 ? 貪心算法:在每一步選擇中都采取在當前狀態(tài)下最好 /優(yōu)的選擇。 二、決策 樹 (Decision Tree) (一) 決策樹的結構 124 根部節(jié)點 (root node) 中間節(jié)點 (nonleaf node) (代表測試的條件 ) 分支 (branches) (代表測試的結果 ) 葉節(jié)點 (leaf node) (代表分類后所獲得 的分類標記 ) 2020/9/15 2020/9/15 125 (二)決策樹的形成 例: 126 ? 根部節(jié)點 ? 中間節(jié)點 ? 停止分支 ? 2020/9/15 (三) ID3算法 (,) 127 2020/9/15 ?Quinlan(1979)提出,以 Shannon(1949)的信息論為依據(jù)。 ?如果有以下情況發(fā)生,決策樹將 停止分割: ?該群數(shù)據(jù)的每一筆數(shù)據(jù)都已經(jīng)歸類到同一類別。 ?如何處理過度擬合呢?對決策樹進行修剪。 ?確定閥值法:在構造樹時,可將信息增益用于評估岔的優(yōu)良性。通過刪除節(jié)點的分枝,剪掉葉節(jié)點。 2020/9/15 應用案例:在農(nóng)業(yè)中的應用 2020/9/15 137 第一步:屬性離散化 2020/9/15 138 第二步:概化(泛化) 2020/9/15 139 第三步:計算各屬性的期望信息 2020/9/15 140 =(17/30)*LOG((17/30),2)+(10/30)*LOG((10/30),2)+(3/30)*LOG((3/30),2) 計算各屬性的信息增益 2020/9/15 141 第四步:決策樹 2020/9/15 142 案例 2:銀行違約率 2020/9/15 143 2020/9/15 144 案例 3 對電信客戶的流失率分析 2020/9/15 145 數(shù)據(jù)倉庫 條件屬性 類別屬性 客戶是否流失 案例 4:在銀行中的應用 2020/9/15 146 案例 5:個人信用評級 2020/9/15 147 個人信用評級決策樹 (五) 其他算法 148 ? ? Gini Index算法 ? CART算法 ? PRISM算法 ? CHAID算法 2020/9/15 149 ? ,適用在處理大數(shù)據(jù)集,采用 Boosting(提升)方式提高模型準確率,又稱為 Boosting Trees,在軟件上的計算速度比較快,占用的內(nèi)存資源較少。 2020/9/15 ? 集合 T包含 N個類別的記錄,那么其 Gini指標就是 ? 如果集合 T分成兩部分 N1 和 N2。 2020/9/15 2020/9/15 156 構建樹的步驟: 2020/9/15 157 2020/9/15 158
點擊復制文檔內(nèi)容
環(huán)評公示相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1