freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘數(shù)據(jù)預(yù)處理-資料下載頁

2025-07-31 09:43本頁面

【導(dǎo)讀】為什么要進(jìn)行數(shù)據(jù)挖掘?現(xiàn)實(shí)世界的數(shù)據(jù)是臟的。.,Age=“42”Birthday=“03/07/1997”。為什么數(shù)據(jù)預(yù)處理重要?數(shù)據(jù)樣本是數(shù)據(jù)挖掘過程的基本組成部分。每個樣本都用幾個特征來描述,每個特征有不。數(shù)值型包括實(shí)型變量和整型變量。分類型變量的兩個值可以平等或不平等。原則上可以轉(zhuǎn)化成一個二進(jìn)制的數(shù)值型變量,這種數(shù)值型變量有兩個值:0或1;連續(xù)型變量也認(rèn)為是定量型或是量度型,是指在一定區(qū)間內(nèi)可以任意取值的變量。量,例如:星期、月和年中的日期。其次,也導(dǎo)致在均值和總量估計(jì)中對方差的低估。隨機(jī)填補(bǔ)法是采用某種概率抽樣的方式,從。補(bǔ)值的分布與真值分布更為接近。入選順序依次進(jìn)行。排序?qū)傩灾低耆嗤挠^察單位稱為匹配,缺失值。多例相匹配,可取第一例或隨機(jī)取其一。

  

【正文】 主要思路:通過因子分析和相關(guān)分析為逐步向前選擇算法找到每一次選用子集的最優(yōu)屬性。 ? 選用 2020年各地區(qū)城鎮(zhèn)居民家庭人均全年消費(fèi)性支出樣本集對逐步向前的屬性子集選擇方法進(jìn)行模擬。 具體步驟如下: ? 首先,對這個樣本集作 KMO (KaiserMeyerOlkin)檢驗(yàn), KMO值為 ,表明該數(shù)據(jù)集適合作因子分析。 ? KMO值是用于比較變量間簡單相關(guān)系數(shù)和偏相關(guān)系數(shù)的指標(biāo)。 KMO值在 ,在~ ,在 ~ ,在 ~ , 。 2020/9/15 106 2020/9/15 107 2020/9/15 108 因子初始解 第二列說明提取公因子后,變量可以被因子解釋的信息有多少 2020/9/15 2020/9/15 109 對樣本集進(jìn)行因子分析,因子分析中前 2個因子的貢獻(xiàn)率分別是%和%,累計(jì)貢獻(xiàn)率為%。 2020/9/15 2020/9/15 110 2020/9/15 2020/9/15 111 2020/9/15 2020/9/15 112 2020/9/15 2020/9/15 113 114 決策 樹 (Decision Tree) 2020/9/15 115 ? 分類的意義 數(shù)據(jù)庫 了解類別屬性與特征 預(yù)測 分類模型 — 決策樹 分類模型 — 聚類 一、 分類 (Classification) 2020/9/15 116 數(shù)據(jù)庫 分類標(biāo)記 性別 年齡 婚姻 否 是 否 是 Female Male 35 ≧ 35 未婚 已婚 2020/9/15 分類 的技術(shù) ( 1)決策 樹 117 ( 2)聚類 2020/9/15 分類的程序 118 ?模型建立 (Model Building) ?模型評估 (Model Evaluation) ?使用模型 (Use Model) 2020/9/15 決策樹分類的步驟 119 數(shù)據(jù)庫 2020/9/15 訓(xùn)練樣本 (training samples) 建立模型 測試樣本 (testing samples) 評估模型 例: 120 資料 訓(xùn)練樣本 婚姻 年齡 家庭 所得 否 是 否 是 未婚 已婚 35 ≧ 35 低 高 否 小康 測試樣本 錯誤率為 % 修改模型 型 2020/9/15 分類算法的評估 121 ?預(yù)測的 準(zhǔn)確度 :指模型正確地預(yù)測新的或先前未見過的數(shù)據(jù)的類標(biāo)號的能力。 ? 訓(xùn)練測試法 (trainingandtesting) ? 交 叉 驗(yàn)證法 (crossvalidation) ? 例如,十折交叉驗(yàn)證。即是將數(shù)據(jù)集分成十分,輪流將其中 9份做訓(xùn)練 1份做測試, 10次的結(jié)果的均值作為對算法精度的估計(jì),一般還需要進(jìn)行多次 10倍交叉驗(yàn)證求均值,例如 10次 10倍交叉驗(yàn)證,更精確一點(diǎn)。 2020/9/15 2020/9/15 122 ?速度 :指產(chǎn)生和使用模型的計(jì)算花費(fèi)。 ?建模的速度、預(yù)測的速度 ?強(qiáng)壯性:指給定噪聲數(shù)據(jù)或具有缺失值的數(shù)據(jù),模型正確預(yù)測的能力。 ?可詮釋性 :指模型的解釋能力。 123 2020/9/15 ?決策樹歸納的基本算法是貪心算法,它以自頂向下遞歸各個擊破的方式構(gòu)造決策樹。 ? 貪心算法:在每一步選擇中都采取在當(dāng)前狀態(tài)下最好 /優(yōu)的選擇。 ?在其生成過程中,分割方法即屬性選擇度量是關(guān)鍵。通過屬性選擇度量,選擇出最好的將樣本分類的屬性。 ?根據(jù)分割方法的不同,決策樹可以分為兩類:基于信息論的方法(較有代表性的是 ID )和最小 GINI指標(biāo)方法(常用的有 CART、 SLIQ及 SPRINT算法等)。 二、決策 樹 (Decision Tree) (一) 決策樹的結(jié)構(gòu) 124 根部節(jié)點(diǎn) (root node) 中間節(jié)點(diǎn) (nonleaf node) (代表測試的條件 ) 分支 (branches) (代表測試的結(jié)果 ) 葉節(jié)點(diǎn) (leaf node) (代表分類后所獲得 的分類標(biāo)記 ) 2020/9/15 2020/9/15 125 (二)決策樹的形成 例: 126 ? 根部節(jié)點(diǎn) ? 中間節(jié)點(diǎn) ? 停止分支 ? 2020/9/15 (三) ID3算法 (,) 127 2020/9/15 ?Quinlan(1979)提出,以 Shannon(1949)的信息論為依據(jù)。 ?ID3算法的屬性選擇度量就是使用信息增益,選擇最高信息增益的屬性作為當(dāng)前節(jié)點(diǎn)的測試屬性。 ?信息論 : 若一事件有 k種結(jié)果 ,對應(yīng)的概率為 Pi。則此事件發(fā)生后所得到 的信息量 I(視為 Entropy)為: I=(p1*log2(p1)+ p2*log2(p2)+…+ pk*log2(pk)) Example 1: ?設(shè) k=4?p1=,p2=,p3=,p4= I=(.25*log2(.25)*4)=2 Example 2: ?設(shè) k=4?p1=0,p2=,p3=0,p4= I=(.5*log2(.5)*2)=1 Example 3: ?設(shè) k=4?p1=1,p2=0,p3=0,p4=0 I=(1*log2(1))=0 2020/9/15 128 2020/9/15 129 信息增益 130 Example(Gain) n=16 n1=4 I(16,4)=- ((4/16)*log2(4/16)+(12/16)*log2(12/16))= E(年齡 )=(6/16)*I(6,1)+(10/16)*I(10,3)= Gain(年齡 )=I(16,4)E(年齡 )= ? Gain(年齡 )= ? Max:作為第一個分類依據(jù) 2020/9/15 ? Gain(性別 )= ? Gain(家庭所得 )= Example(續(xù) ) 131 ? Gain(家庭所得 )= I(7,3)=((3/7)*log2(3/7)+(4/7)*log2(4/7))= ? Gain(年齡 )= ? Gain(年齡 )= I(9,1)=((1/9)*log2(1/9)+(8/9)*log2(8/9))= ? Gain(家庭所得 )= 2020/9/15 Example(end)ID3算法 132 分類規(guī)則 : IF性別 =Female AND家庭所得 = 低所得 THEN購買 RV房車 =否 IF性別 =Female AND家庭所得 = 小康 THEN購買 RV房車 =否 IF性別 =Female AND家庭所得 = 高所得 THEN購買 RV房車 =是 IF性別 =Male AND年齡 35 THEN購買 RV房車 =否 IF性別 =Male AND年齡 ≧ 35 THEN購買 RV房車 =是 ? 資料 ? Decision Tree 2020/9/15 (四) Decision Tree的建立過程 133 決策樹的停止 ?決策樹是通過 遞歸分割 (recursive partitioning)建立而成,遞歸分割是一種把數(shù)據(jù)分割成不同小的部分 的迭代過程 。 ?如果有以下情況發(fā)生,決策樹將 停止分割: ?該群數(shù)據(jù)的每一筆數(shù)據(jù)都已經(jīng)歸類到同一類別。 ?該群數(shù)據(jù)已經(jīng)沒有辦法再找到新的屬性來進(jìn)行節(jié)點(diǎn)分割。 ?該群數(shù)據(jù)已經(jīng)沒有任何尚未處理的數(shù)據(jù)。 2020/9/15 決策樹的剪枝 (pruning) 134 ?決策樹學(xué)習(xí)可能遭遇 模型過度 擬合 ( over fitting) 的問題,過度擬合是指模型過度訓(xùn)練,導(dǎo)致模型記住的不是訓(xùn)練集的一般性,反而是訓(xùn)練集的局部特性。 ?如何處理過度擬合呢?對決策樹進(jìn)行修剪。 ?樹的修剪有幾種解決的方法,主要為先剪枝和后剪枝方法。 2020/9/15 ( 1)先剪枝方法 135 ?在先剪枝方法中,通過提前停止樹的構(gòu)造(例如,通過決定在給定的節(jié)點(diǎn)上不再分裂或劃分訓(xùn)練樣本的子集)而對樹“剪枝”。一旦停止,節(jié)點(diǎn)成為樹葉。 ?確定閥值法:在構(gòu)造樹時,可將信息增益用于評估岔的優(yōu)良性。如果在一個節(jié)點(diǎn)劃分樣本將導(dǎo)致低于預(yù)定義閥值的分裂,則給定子集的進(jìn)一步劃分將停止。 ?測試組修剪法:在使用訓(xùn)練組樣本產(chǎn)生新的分岔時,就立刻使用測試組樣本去測試這個分岔規(guī)則是否能夠再現(xiàn),如果不能,就被視作過度擬合而被修剪掉,如果能夠再現(xiàn),則該分岔予以保留而繼續(xù)向下分岔。 2020/9/15 ( 2)后剪枝方法 136 ?后剪枝方法是由“完全生長”的樹剪去分枝。通過刪除節(jié)點(diǎn)的分枝,剪掉葉節(jié)點(diǎn)。 ?案例數(shù)修剪是在產(chǎn)生完全生長的樹后,根據(jù)最小案例數(shù)閥值,將案例數(shù)小于閥值的樹節(jié)點(diǎn)剪掉。 ?成本復(fù)雜性修剪法是當(dāng)決策樹成長完成后,演算法計(jì)算所有葉節(jié)點(diǎn)的總和錯誤率,然后計(jì)算去除某一葉節(jié)點(diǎn)后的總和錯誤率,當(dāng)去除該葉節(jié)點(diǎn)的錯誤率降低或者不變時,則剪掉該節(jié)點(diǎn)。反之,保留。 2020/9/15 應(yīng)用案例:在農(nóng)業(yè)中的應(yīng)用 2020/9/15 137 第一步:屬性離散化 2020/9/15 138 第二步:概化(泛化) 2020/9/15 139 第三步:計(jì)算各屬性的期望信息 2020/9/15 140 =(17/30)*LOG((17/30),2)+(10/30)*LOG((10/30),2)+(3/30)*LOG((3/30),2) 計(jì)算各屬性的信息增益 2020/9/15 141 第四步:決策樹 2020/9/15 142 案例 2:銀行違約率 2020/9/15 143 2020/9/15 144 案例 3 對電信客戶的流失率分析 2020/9/15 145 數(shù)據(jù)倉庫 條件屬性 類別屬性 客戶是否流失 案例 4:在銀行中的應(yīng)用 2020/9/15 146 案例 5:個人信用評級 2020/9/15 147 個人信用評級決策樹 (五) 其他算法 148 ? ? Gini Index算法 ? CART算法 ? PRISM算法 ? CHAID算法 2020/9/15 149 ? ,適用在處理大數(shù)據(jù)集,采用 Boosting(提升)方式提高模型準(zhǔn)確率,又稱為 Boosting Trees,在軟件上的計(jì)算速度比較快,占用的內(nèi)存資源較少。 2020/9/15 類別屬性的信息熵 Gini Index算法 150 ? ID3 and PRISM適用于類別屬性的分類方法。 ? Gini Index能數(shù)值型屬性的變量來做分類。著重解決當(dāng)訓(xùn)練集數(shù)據(jù)量巨大,無法全部放人內(nèi)存時,如何高速準(zhǔn)確地生成更快的,更小的決策樹。 2020/9/15 ? 集合 T包含 N個類別的記錄,那么其 Gini指標(biāo)就是 ? 如果集合 T分成兩部分 N1 和 N2。則此分割的Gini就是 ? 提供最小 Gini split就被選擇作為分割的標(biāo)準(zhǔn) (對于每個屬性都要經(jīng)過所有可以的分割方法 )。 Gini Index算法 151 2( ) 11jNg ini T p jp jj?? ??為 類 別出 現(xiàn) 的 頻 率)()()( 2211 Tg i n iNNTg i n iNNTg i n is p l i t ??2020/9/15 案例:在汽車銷售中的應(yīng)用 2020/9/15 152 2020/9/15 153 2020/9/15 154 N N Y Y Y N Y Y Y N N N CART算法 155 ?由 Friedman等人提出, 1980年以來就開始發(fā)展,是基于樹結(jié)構(gòu)產(chǎn)生分類和回歸模型的過程,是一種產(chǎn)生二元樹的技術(shù)。 ?CART與 :其在每一個節(jié)點(diǎn)上都是采用二分法,也就是一次只能夠有兩個子節(jié)點(diǎn), 不同數(shù)量的分枝。 2020/9/15 2020/9/15 156 構(gòu)建樹的步驟: 2020/9/15 157 2020/9/15 158
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1