freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

分類(lèi)預(yù)測(cè)-決策樹(shù)方法-資料下載頁(yè)

2025-01-26 11:58本頁(yè)面
  

【正文】 ? 后修剪法 ? 兩種方法的特點(diǎn) ? 第一種方法更直觀,但是 精確地估計(jì)何時(shí)停止樹(shù)增長(zhǎng)很困難 ? 第二種方法被證明在實(shí)踐中更成功 2023/2/14 數(shù)據(jù)庫(kù)新技術(shù) (數(shù)據(jù)挖掘 ) 38 / 34 避免過(guò)度擬合數(shù)據(jù)( 4) ? 避免過(guò)度擬合的關(guān)鍵 ? 使用什么樣的準(zhǔn)則來(lái)計(jì)算最終決策樹(shù)的尺寸 ? 解決方法 1. 使用 與訓(xùn)練樣例不同的一套分離的樣例 來(lái) 評(píng)估 通過(guò)后修剪方法從樹(shù)上修剪 節(jié)點(diǎn)的效用 。 2. 使用所有可用數(shù)據(jù)進(jìn)行訓(xùn)練,但進(jìn)行統(tǒng)計(jì)測(cè)試來(lái)估計(jì)擴(kuò)展(或修剪)一個(gè)特定的節(jié)點(diǎn)是否有可能改善在訓(xùn)練集合外的實(shí)例上的性能。 3. 使用一個(gè)顯式的標(biāo)準(zhǔn)來(lái)測(cè)度訓(xùn)練樣例和決策樹(shù)的編碼復(fù)雜度,當(dāng)這個(gè)測(cè)度最小時(shí)停止樹(shù)增長(zhǎng)。 2023/2/14 數(shù)據(jù)庫(kù)新技術(shù) (數(shù)據(jù)挖掘 ) 39 / 34 避免過(guò)度擬合數(shù)據(jù)( 5) ? 方法評(píng)述 ? 第一種方法是最普通的,常被稱(chēng)為訓(xùn)練和驗(yàn)證集法 ? 可用的數(shù)據(jù)分成兩個(gè)樣例集合: ? 訓(xùn)練集合,形成學(xué)習(xí)到的假設(shè) ? 驗(yàn)證集合,評(píng)估這個(gè)假設(shè)在后續(xù)數(shù)據(jù)上的精度 ? 方法的動(dòng)機(jī):即使學(xué)習(xí)器可能會(huì)被訓(xùn)練集合誤導(dǎo),但驗(yàn)證集合不大可能表現(xiàn)出同樣的隨機(jī)波動(dòng) ? 驗(yàn)證集合應(yīng)該足夠大,以便它本身可提供具有統(tǒng)計(jì)意義的實(shí)例樣本。 ? 常見(jiàn)的做法是,樣例的三分之二作訓(xùn)練集合, 三分之一作驗(yàn)證集合。 2023/2/14 數(shù)據(jù)庫(kù)新技術(shù) (數(shù)據(jù)挖掘 ) 40 / 34 1. 針對(duì)決策樹(shù)的每個(gè)節(jié)點(diǎn),以輸出變量的眾數(shù)類(lèi)別為預(yù)測(cè)類(lèi)別; 2. 設(shè)第 i個(gè)節(jié)點(diǎn)包含 Ni個(gè)觀測(cè)樣本值,有 Ei個(gè)預(yù)測(cè)錯(cuò)誤的觀測(cè),錯(cuò)誤率,即誤差 3. 在誤差近似正態(tài)分布的假設(shè)下,對(duì)第 i個(gè)節(jié)點(diǎn)的真實(shí)誤差 進(jìn)行區(qū)間估計(jì),置信度定位 1 ,有悲觀估計(jì): 2023/2/14 數(shù)據(jù)庫(kù)新技術(shù) (數(shù)據(jù)挖掘 ) 41 / 34 ? 在誤差估計(jì)的基礎(chǔ)上,依據(jù)“減少誤差”法判斷是否修剪節(jié)點(diǎn); 1. 計(jì)算待剪子樹(shù)中葉子節(jié)點(diǎn)的加權(quán)誤差 2. 與父節(jié)點(diǎn)的誤差進(jìn)行比較 1. 父節(jié)點(diǎn)的誤差較小,則剪掉該子樹(shù) 2. 父節(jié)點(diǎn)的誤差較大,保留該子樹(shù) 2023/2/14 數(shù)據(jù)庫(kù)新技術(shù) (數(shù)據(jù)挖掘 ) 42 / 34 修剪節(jié)點(diǎn)、降低錯(cuò)誤率 ? 將樹(shù)上的每一個(gè)節(jié)點(diǎn)作為修剪的候選對(duì)象 ? 修剪步驟 ? 刪除以此節(jié)點(diǎn)為根的子樹(shù),使它成為葉結(jié)點(diǎn) ? 把和該節(jié)點(diǎn)關(guān)聯(lián)的訓(xùn)練樣例的最常見(jiàn)分類(lèi)賦給它 ? 反復(fù)修剪節(jié)點(diǎn),每次總是選取 那些刪除后可以 最大程度提高決策樹(shù)在驗(yàn)證集合上的精度的 節(jié)點(diǎn) ? 繼續(xù)修剪,直到進(jìn)一步的修剪是有害的為止 ? 數(shù)據(jù)分成 3個(gè)子集 ? 訓(xùn)練樣例,形成決策樹(shù) ? 驗(yàn)證樣例,修剪決策樹(shù) ? 測(cè)試樣例,精度的無(wú)偏估計(jì) ? 如果有大量的數(shù)據(jù)可供使用,那么使用分離的數(shù)據(jù)集合來(lái)引導(dǎo)修剪 2023/2/14 數(shù)據(jù)庫(kù)新技術(shù) (數(shù)據(jù)挖掘 ) 43 / 34 ( )規(guī)則后修剪 ? 從訓(xùn)練集合生成決策樹(shù),盡可能好地?cái)M合訓(xùn)練數(shù)據(jù),允許過(guò)度擬合發(fā)生 ? 將決策樹(shù)轉(zhuǎn)化為等價(jià)的規(guī)則集合,對(duì)每一條從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的路徑創(chuàng)建一條規(guī)則 ? 通過(guò)刪除(泛化)前件來(lái)修剪每一條規(guī)則, 前提是該刪除(泛化)能提高規(guī)則的估計(jì)精度 ? 按照修剪后的規(guī)則的估計(jì)精度對(duì)規(guī)則排序,并按這樣的順序應(yīng)用這些規(guī)則來(lái)分類(lèi)新實(shí)例 2023/2/14 數(shù)據(jù)庫(kù)新技術(shù) (數(shù)據(jù)挖掘 ) 44 / 34 ()規(guī)則后修剪 ? 例子 ? 右圖的最左一條路徑 ? if (outlook=sunny)?(Humidity=High) then PlayTennis=No ? 考慮刪除前件 (outlook=sunny)和 (Humidity=High) ? 選擇使估計(jì)精度有最大提升的步驟 ? 考慮修剪第二個(gè)前件 2023/2/14 數(shù)據(jù)庫(kù)新技術(shù) (數(shù)據(jù)挖掘 ) 45 / 34 規(guī)則后修剪 ? 規(guī)則精度估計(jì)方法 ? 使用與訓(xùn)練集不相交的驗(yàn)證集 ? 基于訓(xùn)練集合本身 ? 被 ,使用一種保守估計(jì)來(lái)彌補(bǔ)訓(xùn)練數(shù)據(jù)有利于當(dāng)前規(guī)則的估計(jì)偏置 ? 過(guò)程 ? 先計(jì)算規(guī)則在它應(yīng)用的訓(xùn)練樣例上的精度 ? 然后假定此估計(jì)精度為二項(xiàng)式分布,并計(jì)算它的標(biāo)準(zhǔn)差 ? 對(duì)于一個(gè)給定的置信區(qū)間,采用下界估計(jì)作為規(guī)則性能的度量 ? 評(píng)論 ? 對(duì)于大的數(shù)據(jù)集,保守預(yù)測(cè)非常接近觀察精度,隨著數(shù)據(jù)集合的減小,離觀察精度越來(lái)越遠(yuǎn) ? 不是統(tǒng)計(jì)有效,但是實(shí)踐中發(fā)現(xiàn)有效 2023/2/14 數(shù)據(jù)庫(kù)新技術(shù) (數(shù)據(jù)挖掘 ) 46 / 34 規(guī)則后修剪 ? 把決策樹(shù)轉(zhuǎn)化成規(guī)則集的好處 ? 可以區(qū)分決策節(jié)點(diǎn)使用的不同上下文 ? 消除了根節(jié)點(diǎn)附近的屬性測(cè)試和葉節(jié)點(diǎn)附近的屬性測(cè)試的區(qū)別 ? 提高了可讀性
點(diǎn)擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計(jì)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1