freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘數(shù)據(jù)預(yù)處理-預(yù)覽頁

2025-09-09 09:43 上一頁面

下一頁面
 

【正文】 00 藍(lán)色 0100 綠色 0010 褐色 0001 9 2020/9/15 2020/9/15 變量 的分類: 連續(xù)型變量和離散型變量 。 10 2020/9/15 2020/9/15 與時(shí)間有關(guān)的數(shù)據(jù)分類: ?靜態(tài)數(shù)據(jù) —— 數(shù)據(jù)不隨時(shí)間變化而變化 ?動(dòng)態(tài)數(shù)據(jù) (時(shí)間數(shù)據(jù)) —— 隨時(shí)間變化而變化的屬性。 ?如果我們不想扔掉這些有缺失值的樣本,就必須找到它們的缺失值,用什么方法來實(shí)現(xiàn)呢? ? 填補(bǔ)缺失值。 ? 但它的缺點(diǎn)也比較突出:首先,由于同組中的缺失值由同一個(gè)值填補(bǔ),填補(bǔ)結(jié)果歪曲了目標(biāo)屬性的分布;其次,也導(dǎo)致在均值和總量估計(jì)中對方差的低估。但它卻增大了估計(jì)量的方差,并且穩(wěn)定性不夠。如果有多例相匹配,可取第一例或隨機(jī)取其一。 ?回歸填補(bǔ)法是指在現(xiàn)有觀察值基礎(chǔ)上,以含有缺失值的目標(biāo)屬性為因變量,以與目標(biāo)屬性相關(guān)性高的其它屬性為自變量,建立最小二乘回歸模型或判別模型,以估計(jì)缺失值。 ?例如 :在檢測銀行交易中的信用卡欺詐行為時(shí),異常點(diǎn)是可能揭示欺詐行為的典型 例子。根據(jù)實(shí)際可以把區(qū)間縮減到 [0, ],由這個(gè)標(biāo)準(zhǔn)發(fā)現(xiàn) 3個(gè)異常點(diǎn): 156, 139, 67。 ? 其基本思想是:對總體的特征建立分類模型,形成正常行為的特征庫;然后針對新的數(shù)據(jù)判斷其是否屬于正常行為,從而認(rèn)定其是否與總體偏離,發(fā)生偏離的即是異常值。因此可以認(rèn)為,欺詐行為的發(fā)現(xiàn)過程就是一種異常數(shù)據(jù)的挖掘過程。 2020/9/15 27 2020/9/15 例如:對電信用戶的欺詐行為探測的具體做法是: ? 首先,將目標(biāo)屬性定為無意欠費(fèi)客戶和惡意欠費(fèi)兩類; ? 其次,選擇屬性作為輸入屬性,通常包括服務(wù)合同屬性(如服務(wù)類型、服務(wù)時(shí)間、交費(fèi)類型等)、客戶的基本狀態(tài)(如性別、年齡、收入、婚姻狀況、受教育年限 /學(xué)歷、職業(yè)、居住地區(qū)等)以及經(jīng)常或定期改變的數(shù)據(jù)(如每月消費(fèi)金額、交費(fèi)紀(jì)錄等); ? 然后,將分類方法用于預(yù)先選定的包含客戶欠費(fèi)狀態(tài)的訓(xùn)練集中,從而挖掘歸納出規(guī)則集; ? 最后,利用所獲取的規(guī)則,對電信企業(yè)新用戶的繳費(fèi)情況進(jìn)行預(yù)測分類,從而達(dá)到預(yù)防欺詐的目的。 ? 對于基于距離的方法,規(guī)范化可以幫助防止具有較大初始值域的屬性與具有較小初始值域的屬性相比,權(quán)重過大。小數(shù)縮放 ?規(guī)范化是指通過將屬性數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間,如 ,對屬性規(guī)范化。 ? 標(biāo)準(zhǔn)差規(guī)范化的格式是 其中: 是均值; 是標(biāo)準(zhǔn)差。 因此,對變量的值進(jìn)行平滑處理很重要。如果給定特征的值的集合是 平滑后的集合是 }{}{?s m o ot h e dX2020/9/15 分箱 ?分箱方法是通過考察“鄰居”來平滑存儲(chǔ)數(shù)據(jù)的值。 2020/9/15 36 2020/9/15 ? 例如:某產(chǎn)品的價(jià)格排序后的數(shù)據(jù)為: 1 2 2 2 2 2 34。箱中每一個(gè)值被最近的邊界值替換。 2020/9/15 43 (三)數(shù)據(jù)概化 2020/9/15 ?數(shù)據(jù)概化:是一個(gè)過程,它將大的任務(wù)相關(guān)的數(shù)據(jù)集從較低的概念層抽象到較高的概念層。 ?離散化后可以達(dá)到歸約元祖的目的。 ? 有監(jiān)督算法是其輸入樣本集中除了待離散化的數(shù)值屬性外,還有一個(gè)或多個(gè)離散型的 類別屬性 。 ? 無監(jiān)督的方法的缺陷在于它對分布不均勻的數(shù)據(jù)不適用,對異常點(diǎn)比較敏感。 ?自底向上是開始于屬性的全部連續(xù)值作為分割點(diǎn)的完全列表,以通過“合并”區(qū)間來移除它們中的一部分作為離散化的過程。 ?( 2)根據(jù)一定的規(guī)則產(chǎn)生候選斷點(diǎn)集,構(gòu)造初始區(qū)間。 ? 這是對模型簡潔性的要求。 ? 離散化后的不一致性數(shù)目至少應(yīng)該比在離散化前原始數(shù)據(jù)的不一致性數(shù)目少,且不一致性數(shù)目越少越好。 ?依據(jù)分組的方式該方法又可以分為等寬和等頻兩種。 ? Iris樣本集是對 3種鳶尾花:剛毛鳶 (yuan)尾花、變色鳶尾花、佛吉尼亞鳶尾花各抽取 50個(gè)樣本。 ?( 2)根據(jù)一定的規(guī)則產(chǎn)生候選斷點(diǎn)集,構(gòu)造初始區(qū)間。 ? 為防止過度擬合,應(yīng)使得每個(gè)區(qū)間的頻數(shù)大于等于總體單位數(shù)的平方根。 2020/9/15 61 ?具體方法是: ? 首先,將元組劃分為群或簇,使得在每一個(gè)簇中的對象“類似”,但與其他簇中的對象“不類似”。有: 2020/9/15 分組 頻數(shù) 賦值 ~ 46 1 ~ 37 2 ~ 32 3 ~ 35 4 63 2020/9/15 基于熵的離散化方法 ?信息熵的概念 ? 信息論中的熵:是信息的度量單位,是一種 對屬性“不確定性的度量” 。 2020/9/15 65 1l o gNiiiH p p??? ?12, , , Np p p?貪心算法 ?所謂貪心算法是指,在對問題求解時(shí),總是做出在當(dāng)前看來是最好的選擇。 ? 這時(shí),我們會(huì)不假思索地拿出 2個(gè)二角五分的硬幣, 1個(gè)一角的硬幣和 3個(gè)一分的硬幣交給顧客。顧名思義,貪心算法總是作出在當(dāng)前看來是最好的選擇。然而 3個(gè)五分的硬幣顯然是最好的找法。 2020/9/15 68 ?基于熵的離散化方法是通過貪心算法搜尋給定數(shù)據(jù)區(qū)間內(nèi)的具有熵值最小的數(shù)據(jù)點(diǎn)作為斷點(diǎn)。 ) ( ) ( )1 1 1 14 9 49 49 50 50 50 50( l og 0 0) ( l og l og l og )15 0 1 1 15 0 14 9 14 9 14 9 14 9 14 9 14 90. 47 39 20 97SSE X T S En t S En t SSS??? ? ? ? ? ? ? ??72 2020/9/15 ? 以此類推,如把屬性值分為 [,)和 [,7,9]兩個(gè)區(qū)間時(shí),產(chǎn)生的新的類別熵為: 2020/9/15 區(qū)間 d1 d2 d3 合計(jì) [,) 47 11 1 59 [,] 3 39 49 91 1212( , 。現(xiàn)在以花萼長( sepal length in cm )屬性為例,來進(jìn)行連續(xù)型值屬性的離散化。 85 2020/9/15 五、屬性的歸約 ? 屬性的歸約包括兩類方法:屬性的提取和屬性子集的選擇。 但相應(yīng)的問題是,這樣的線性組合的實(shí)際意義卻不明顯,有時(shí)難以解釋。 2020/9/15 87 2020/9/15 主成分分析(因子分析) ?主成分分析和因子分析都是多元統(tǒng)計(jì)分析中的一種常用方法,是數(shù)學(xué)上處理降維的一種方法。 2020/9/15 89 2020/9/15 ?主成分分析和因子分析的對比 數(shù)據(jù)標(biāo)準(zhǔn)化 建立指標(biāo)之間的相關(guān)系數(shù)矩陣 R 求 R的特征值和特征向量 計(jì)算累計(jì)貢獻(xiàn)率大于 85%的前n個(gè)特征值的特征向量 根據(jù)特征向量建立 n個(gè)主成分(由變量的線性組合而成) 2020/9/15 根據(jù) n個(gè)特征向量建立因子載荷陣 對因子載荷陣實(shí)行方差最大旋轉(zhuǎn) 按照變量在每個(gè)因子上載荷陣的高低,分類。 ?因子的方差貢獻(xiàn)和方差貢獻(xiàn)率是衡量因子重要性的關(guān)鍵指標(biāo)。在后續(xù)的分析中可以用因子變量代替原有變量進(jìn)行建模,或者利用因子變量對樣本分類、評價(jià)或排序等研究。 2020/9/15 93 2020/9/15 ?屬性子集的選擇方法一般有兩個(gè)組成部分: ? 一是高效率的屬性子集搜索策略,即在允許的時(shí)間內(nèi),用以找出最小的、最能描述類別的屬性組合的搜索方法; ? 二是確定評價(jià)函數(shù),是衡量屬性組合是否最優(yōu)的標(biāo)準(zhǔn)。 ?啟發(fā)式搜索即貪心算法。 ?這種算法的不足是:在算法中雖然考慮了所選屬性與已入選屬性之間的相關(guān)性,但卻未考慮未入選屬性之間的統(tǒng)計(jì)相關(guān)性,并且一旦某個(gè)屬性已入選,即使由于后加入的屬性使它變?yōu)槎嘤?,也無法再剔除。 2020/9/15 99 2020/9/15 ( 4)廣義逐步向前選擇 ? 廣義逐步向前選擇方法是逐步向前選擇方法的推廣,針對逐步向前選擇方法“未能考慮未入選屬性之間的統(tǒng)計(jì)相關(guān)性”的缺點(diǎn),該方法每次從未入選的屬性中挑選的不止是一個(gè)屬性而是多個(gè)屬性。 ?這種評價(jià)標(biāo)準(zhǔn)以函數(shù)的形式表示出來就是評價(jià)函數(shù)。 ?基于一致性的評價(jià)函數(shù)、分類錯(cuò)誤率以及基于信息熵的評價(jià)函數(shù)等 (有監(jiān)督屬性子集選擇方法 )。 ? 選用 2020年各地區(qū)城鎮(zhèn)居民家庭人均全年消費(fèi)性支出樣本集對逐步向前的屬性子集選擇方法進(jìn)行模擬。 2020/9/15 106 2020/9/15 107 2020/9/15 108 因子初始解 第二列說明提取公因子后,變量可以被因子解釋的信息有多少 2020/9/15 2020/9/15 109 對樣本集進(jìn)行因子分析,因子分析中前 2個(gè)因子的貢獻(xiàn)率分別是%和%,累計(jì)貢獻(xiàn)率為%。 2020/9/15 2020/9/15 122 ?速度 :指產(chǎn)生和使用模型的計(jì)算花費(fèi)。 ? 貪心算法:在每一步選擇中都采取在當(dāng)前狀態(tài)下最好 /優(yōu)的選擇。 二、決策 樹 (Decision Tree) (一) 決策樹的結(jié)構(gòu) 124 根部節(jié)點(diǎn) (root node) 中間節(jié)點(diǎn) (nonleaf node) (代表測試的條件 ) 分支 (branches) (代表測試的結(jié)果 ) 葉節(jié)點(diǎn) (leaf node) (代表分類后所獲得 的分類標(biāo)記 ) 2020/9/15 2020/9/15 125 (二)決策樹的形成 例: 126 ? 根部節(jié)點(diǎn) ? 中間節(jié)點(diǎn) ? 停止分支 ? 2020/9/15 (三) ID3算法 (,) 127 2020/9/15 ?Quinlan(1979)提出,以 Shannon(1949)的信息論為依據(jù)。 ?如果有以下情況發(fā)生,決策樹將 停止分割: ?該群數(shù)據(jù)的每一筆數(shù)據(jù)都已經(jīng)歸類到同一類別。 ?如何處理過度擬合呢?對決策樹進(jìn)行修剪。 ?確定閥值法:在構(gòu)造樹時(shí),可將信息增益用于評估岔的優(yōu)良性。通過刪除節(jié)點(diǎn)的分枝,剪掉葉節(jié)點(diǎn)。 2020/9/15 應(yīng)用案例:在農(nóng)業(yè)中的應(yīng)用 2020/9/15 137 第一步:屬性離散化 2020/9/15 138 第二步:概化(泛化) 2020/9/15 139 第三步:計(jì)算各屬性的期望信息 2020/9/15 140 =(17/30)*LOG((17/30),2)+(10/30)*LOG((10/30),2)+(3/30)*LOG((3/30),2) 計(jì)算各屬性的信息增益 2020/9/15 141 第四步:決策樹 2020/9/15 142 案例 2:銀行違約率 2020/9/15 143 2020/9/15 144 案例 3 對電信客戶的流失率分析 2020/9/15 145 數(shù)據(jù)倉庫 條件屬性 類別屬性 客戶是否流失 案例 4:在銀行中的應(yīng)用 2020/9/15 146 案例 5:個(gè)人信用評級 2020/9/15 147 個(gè)人信用評級決策樹 (五) 其他算法 148 ? ? Gini Index算法 ? CART算法 ? PRISM算法 ? CHAID算法 2020/9/15 149 ? ,適用在處理大數(shù)據(jù)集,采用 Boosting(提升)方式提高模型準(zhǔn)確率,又稱為 Boosting Trees,在軟件上的計(jì)算速度比較快,占用的內(nèi)存資源較少。 2020/9/15 ? 集合 T包含 N個(gè)類別的記錄,那么其 Gini指標(biāo)就是 ? 如果集合 T分成兩部分 N1 和 N2。 2020/9/15 2020/9/15 156 構(gòu)建樹的步驟: 2020/9/15 157 2020/9/15 158
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1