freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

數據挖掘數據預處理-資料下載頁

2025-07-31 09:43本頁面

【導讀】為什么要進行數據挖掘?現實世界的數據是臟的。.,Age=“42”Birthday=“03/07/1997”。為什么數據預處理重要?數據樣本是數據挖掘過程的基本組成部分。每個樣本都用幾個特征來描述,每個特征有不。數值型包括實型變量和整型變量。分類型變量的兩個值可以平等或不平等。原則上可以轉化成一個二進制的數值型變量,這種數值型變量有兩個值:0或1;連續(xù)型變量也認為是定量型或是量度型,是指在一定區(qū)間內可以任意取值的變量。量,例如:星期、月和年中的日期。其次,也導致在均值和總量估計中對方差的低估。隨機填補法是采用某種概率抽樣的方式,從。補值的分布與真值分布更為接近。入選順序依次進行。排序屬性值完全相同的觀察單位稱為匹配,缺失值。多例相匹配,可取第一例或隨機取其一。

  

【正文】 主要思路:通過因子分析和相關分析為逐步向前選擇算法找到每一次選用子集的最優(yōu)屬性。 ? 選用 2020年各地區(qū)城鎮(zhèn)居民家庭人均全年消費性支出樣本集對逐步向前的屬性子集選擇方法進行模擬。 具體步驟如下: ? 首先,對這個樣本集作 KMO (KaiserMeyerOlkin)檢驗, KMO值為 ,表明該數據集適合作因子分析。 ? KMO值是用于比較變量間簡單相關系數和偏相關系數的指標。 KMO值在 ,在~ ,在 ~ ,在 ~ , 。 2020/9/15 106 2020/9/15 107 2020/9/15 108 因子初始解 第二列說明提取公因子后,變量可以被因子解釋的信息有多少 2020/9/15 2020/9/15 109 對樣本集進行因子分析,因子分析中前 2個因子的貢獻率分別是%和%,累計貢獻率為%。 2020/9/15 2020/9/15 110 2020/9/15 2020/9/15 111 2020/9/15 2020/9/15 112 2020/9/15 2020/9/15 113 114 決策 樹 (Decision Tree) 2020/9/15 115 ? 分類的意義 數據庫 了解類別屬性與特征 預測 分類模型 — 決策樹 分類模型 — 聚類 一、 分類 (Classification) 2020/9/15 116 數據庫 分類標記 性別 年齡 婚姻 否 是 否 是 Female Male 35 ≧ 35 未婚 已婚 2020/9/15 分類 的技術 ( 1)決策 樹 117 ( 2)聚類 2020/9/15 分類的程序 118 ?模型建立 (Model Building) ?模型評估 (Model Evaluation) ?使用模型 (Use Model) 2020/9/15 決策樹分類的步驟 119 數據庫 2020/9/15 訓練樣本 (training samples) 建立模型 測試樣本 (testing samples) 評估模型 例: 120 資料 訓練樣本 婚姻 年齡 家庭 所得 否 是 否 是 未婚 已婚 35 ≧ 35 低 高 否 小康 測試樣本 錯誤率為 % 修改模型 型 2020/9/15 分類算法的評估 121 ?預測的 準確度 :指模型正確地預測新的或先前未見過的數據的類標號的能力。 ? 訓練測試法 (trainingandtesting) ? 交 叉 驗證法 (crossvalidation) ? 例如,十折交叉驗證。即是將數據集分成十分,輪流將其中 9份做訓練 1份做測試, 10次的結果的均值作為對算法精度的估計,一般還需要進行多次 10倍交叉驗證求均值,例如 10次 10倍交叉驗證,更精確一點。 2020/9/15 2020/9/15 122 ?速度 :指產生和使用模型的計算花費。 ?建模的速度、預測的速度 ?強壯性:指給定噪聲數據或具有缺失值的數據,模型正確預測的能力。 ?可詮釋性 :指模型的解釋能力。 123 2020/9/15 ?決策樹歸納的基本算法是貪心算法,它以自頂向下遞歸各個擊破的方式構造決策樹。 ? 貪心算法:在每一步選擇中都采取在當前狀態(tài)下最好 /優(yōu)的選擇。 ?在其生成過程中,分割方法即屬性選擇度量是關鍵。通過屬性選擇度量,選擇出最好的將樣本分類的屬性。 ?根據分割方法的不同,決策樹可以分為兩類:基于信息論的方法(較有代表性的是 ID )和最小 GINI指標方法(常用的有 CART、 SLIQ及 SPRINT算法等)。 二、決策 樹 (Decision Tree) (一) 決策樹的結構 124 根部節(jié)點 (root node) 中間節(jié)點 (nonleaf node) (代表測試的條件 ) 分支 (branches) (代表測試的結果 ) 葉節(jié)點 (leaf node) (代表分類后所獲得 的分類標記 ) 2020/9/15 2020/9/15 125 (二)決策樹的形成 例: 126 ? 根部節(jié)點 ? 中間節(jié)點 ? 停止分支 ? 2020/9/15 (三) ID3算法 (,) 127 2020/9/15 ?Quinlan(1979)提出,以 Shannon(1949)的信息論為依據。 ?ID3算法的屬性選擇度量就是使用信息增益,選擇最高信息增益的屬性作為當前節(jié)點的測試屬性。 ?信息論 : 若一事件有 k種結果 ,對應的概率為 Pi。則此事件發(fā)生后所得到 的信息量 I(視為 Entropy)為: I=(p1*log2(p1)+ p2*log2(p2)+…+ pk*log2(pk)) Example 1: ?設 k=4?p1=,p2=,p3=,p4= I=(.25*log2(.25)*4)=2 Example 2: ?設 k=4?p1=0,p2=,p3=0,p4= I=(.5*log2(.5)*2)=1 Example 3: ?設 k=4?p1=1,p2=0,p3=0,p4=0 I=(1*log2(1))=0 2020/9/15 128 2020/9/15 129 信息增益 130 Example(Gain) n=16 n1=4 I(16,4)=- ((4/16)*log2(4/16)+(12/16)*log2(12/16))= E(年齡 )=(6/16)*I(6,1)+(10/16)*I(10,3)= Gain(年齡 )=I(16,4)E(年齡 )= ? Gain(年齡 )= ? Max:作為第一個分類依據 2020/9/15 ? Gain(性別 )= ? Gain(家庭所得 )= Example(續(xù) ) 131 ? Gain(家庭所得 )= I(7,3)=((3/7)*log2(3/7)+(4/7)*log2(4/7))= ? Gain(年齡 )= ? Gain(年齡 )= I(9,1)=((1/9)*log2(1/9)+(8/9)*log2(8/9))= ? Gain(家庭所得 )= 2020/9/15 Example(end)ID3算法 132 分類規(guī)則 : IF性別 =Female AND家庭所得 = 低所得 THEN購買 RV房車 =否 IF性別 =Female AND家庭所得 = 小康 THEN購買 RV房車 =否 IF性別 =Female AND家庭所得 = 高所得 THEN購買 RV房車 =是 IF性別 =Male AND年齡 35 THEN購買 RV房車 =否 IF性別 =Male AND年齡 ≧ 35 THEN購買 RV房車 =是 ? 資料 ? Decision Tree 2020/9/15 (四) Decision Tree的建立過程 133 決策樹的停止 ?決策樹是通過 遞歸分割 (recursive partitioning)建立而成,遞歸分割是一種把數據分割成不同小的部分 的迭代過程 。 ?如果有以下情況發(fā)生,決策樹將 停止分割: ?該群數據的每一筆數據都已經歸類到同一類別。 ?該群數據已經沒有辦法再找到新的屬性來進行節(jié)點分割。 ?該群數據已經沒有任何尚未處理的數據。 2020/9/15 決策樹的剪枝 (pruning) 134 ?決策樹學習可能遭遇 模型過度 擬合 ( over fitting) 的問題,過度擬合是指模型過度訓練,導致模型記住的不是訓練集的一般性,反而是訓練集的局部特性。 ?如何處理過度擬合呢?對決策樹進行修剪。 ?樹的修剪有幾種解決的方法,主要為先剪枝和后剪枝方法。 2020/9/15 ( 1)先剪枝方法 135 ?在先剪枝方法中,通過提前停止樹的構造(例如,通過決定在給定的節(jié)點上不再分裂或劃分訓練樣本的子集)而對樹“剪枝”。一旦停止,節(jié)點成為樹葉。 ?確定閥值法:在構造樹時,可將信息增益用于評估岔的優(yōu)良性。如果在一個節(jié)點劃分樣本將導致低于預定義閥值的分裂,則給定子集的進一步劃分將停止。 ?測試組修剪法:在使用訓練組樣本產生新的分岔時,就立刻使用測試組樣本去測試這個分岔規(guī)則是否能夠再現,如果不能,就被視作過度擬合而被修剪掉,如果能夠再現,則該分岔予以保留而繼續(xù)向下分岔。 2020/9/15 ( 2)后剪枝方法 136 ?后剪枝方法是由“完全生長”的樹剪去分枝。通過刪除節(jié)點的分枝,剪掉葉節(jié)點。 ?案例數修剪是在產生完全生長的樹后,根據最小案例數閥值,將案例數小于閥值的樹節(jié)點剪掉。 ?成本復雜性修剪法是當決策樹成長完成后,演算法計算所有葉節(jié)點的總和錯誤率,然后計算去除某一葉節(jié)點后的總和錯誤率,當去除該葉節(jié)點的錯誤率降低或者不變時,則剪掉該節(jié)點。反之,保留。 2020/9/15 應用案例:在農業(yè)中的應用 2020/9/15 137 第一步:屬性離散化 2020/9/15 138 第二步:概化(泛化) 2020/9/15 139 第三步:計算各屬性的期望信息 2020/9/15 140 =(17/30)*LOG((17/30),2)+(10/30)*LOG((10/30),2)+(3/30)*LOG((3/30),2) 計算各屬性的信息增益 2020/9/15 141 第四步:決策樹 2020/9/15 142 案例 2:銀行違約率 2020/9/15 143 2020/9/15 144 案例 3 對電信客戶的流失率分析 2020/9/15 145 數據倉庫 條件屬性 類別屬性 客戶是否流失 案例 4:在銀行中的應用 2020/9/15 146 案例 5:個人信用評級 2020/9/15 147 個人信用評級決策樹 (五) 其他算法 148 ? ? Gini Index算法 ? CART算法 ? PRISM算法 ? CHAID算法 2020/9/15 149 ? ,適用在處理大數據集,采用 Boosting(提升)方式提高模型準確率,又稱為 Boosting Trees,在軟件上的計算速度比較快,占用的內存資源較少。 2020/9/15 類別屬性的信息熵 Gini Index算法 150 ? ID3 and PRISM適用于類別屬性的分類方法。 ? Gini Index能數值型屬性的變量來做分類。著重解決當訓練集數據量巨大,無法全部放人內存時,如何高速準確地生成更快的,更小的決策樹。 2020/9/15 ? 集合 T包含 N個類別的記錄,那么其 Gini指標就是 ? 如果集合 T分成兩部分 N1 和 N2。則此分割的Gini就是 ? 提供最小 Gini split就被選擇作為分割的標準 (對于每個屬性都要經過所有可以的分割方法 )。 Gini Index算法 151 2( ) 11jNg ini T p jp jj?? ??為 類 別出 現 的 頻 率)()()( 2211 Tg i n iNNTg i n iNNTg i n is p l i t ??2020/9/15 案例:在汽車銷售中的應用 2020/9/15 152 2020/9/15 153 2020/9/15 154 N N Y Y Y N Y Y Y N N N CART算法 155 ?由 Friedman等人提出, 1980年以來就開始發(fā)展,是基于樹結構產生分類和回歸模型的過程,是一種產生二元樹的技術。 ?CART與 :其在每一個節(jié)點上都是采用二分法,也就是一次只能夠有兩個子節(jié)點, 不同數量的分枝。 2020/9/15 2020/9/15 156 構建樹的步驟: 2020/9/15 157 2020/9/15 158
點擊復制文檔內容
環(huán)評公示相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1