freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘08分類和預(yù)測(cè)-展示頁(yè)

2025-05-21 03:06本頁(yè)面
  

【正文】 領(lǐng)域也被廣為研究的問(wèn)題,并提出了很多算法,但是這些算法都是內(nèi)存駐留的 ? 可伸縮性問(wèn)題: 要求以合理的速度對(duì)數(shù)以百萬(wàn)計(jì)的樣本和數(shù)以百計(jì)的屬性的進(jìn)行分類挖掘 ? 由大型數(shù)據(jù)庫(kù)構(gòu)造決策樹(shù) ? 首先將樣本劃分為子集,每個(gè)子集可以放在內(nèi)存中 ? 然后由每個(gè)自己構(gòu)造一顆決策樹(shù) ? 輸出的分類法將每個(gè)子集的分類法組合在一起 ? (其他方法包括 SLIQ, SPRINT,RainForest等等) 貝葉斯分類 ? 貝葉斯分類利用統(tǒng)計(jì)學(xué)中的貝葉斯定理,來(lái)預(yù)測(cè)類成員的概率,即給定一個(gè)樣本,計(jì)算該樣本屬于一個(gè)特定的類的概率。根據(jù) A的這種劃分的期望信息稱為 A的 熵 ? A上該劃分的獲得的信息增益定義為: ? 具有高信息增益的屬性,是給定集合中具有高區(qū)分度的屬性。有個(gè)屬性用來(lái)判定某個(gè)訓(xùn)練樣本的類編號(hào) ? 假設(shè) S中有 m個(gè)類,總共 s個(gè)訓(xùn)練樣本,每個(gè)類Ci有 si個(gè)樣本 (i= 1,2,3...m),那么任意一個(gè)樣本屬于類 Ci的概率是 si / s,那么用來(lái)分類一個(gè)給定樣本的 期望信息 是: sssssssInf o imiim 2121 l og),...,( ????信息增益 (2) ? 一個(gè)有 v個(gè)值的屬性 A{a1,a2,...,av}可以將 S分成 v個(gè)子集 {S1,S2,...,Sv},其中 Sj包含 S中屬性 A上的值為 aj的樣本。一旦一個(gè)屬性出現(xiàn)在一個(gè)節(jié)點(diǎn)上,就不在該節(jié)點(diǎn)的任何子節(jié)點(diǎn)上出現(xiàn) 6. 遞歸劃分步驟停止的條件 劃分 D(在 N節(jié)點(diǎn)提供)的所有元組屬于同一類 沒(méi)有剩余屬性可以用來(lái)進(jìn)一步劃分元組 ——使用多數(shù)表決 沒(méi)有剩余的樣本 給定分支沒(méi)有元組,則以 D中多數(shù)類創(chuàng)建一個(gè)樹(shù)葉 屬性選擇度量 ? 屬性選擇度量是一種選擇分裂準(zhǔn)則,將給定類標(biāo)號(hào)的訓(xùn)練元組最好的進(jìn)行劃分的方法 ? 理想情況,每個(gè)劃分都是“純”的,即落在給定劃分內(nèi)的元組都屬于相同的類 ? 屬性選擇度量又稱為分裂準(zhǔn)則 ? 常用的屬性選擇度量 ? 信息增益 ? 增益率 ? Gini指標(biāo) 信息增益 (1) ? S是一個(gè) 訓(xùn)練樣本 的集合,該樣本中每個(gè)集合的 類編號(hào) 已知。 ? 決策樹(shù)容易轉(zhuǎn)換為分類規(guī)則 ? 決策樹(shù)的生成由兩個(gè)階段組成 ? 決策樹(shù)構(gòu)建 ? 使用屬性選擇度量來(lái)選擇將元組最好的劃分為不同的類的屬性 ? 遞歸的通過(guò)選定的屬性,來(lái)劃分樣本 (必須是離散值) ? 樹(shù)剪枝 ? 決策樹(shù)建立時(shí),許多分枝反映的是訓(xùn)練數(shù)據(jù)中的噪聲和離群點(diǎn)點(diǎn),樹(shù)剪枝試圖識(shí)別并剪去這種分枝,以提高對(duì)未知數(shù)據(jù)分類的準(zhǔn)確性 決策樹(shù)歸納策略 (1) ? 輸入 ? 數(shù)據(jù)劃分 D是訓(xùn)練元組和對(duì)應(yīng)類標(biāo)號(hào)的集合 ? attribute_list,候選屬性的集合 ? Attribute_selection_method,指定選擇屬性的啟發(fā)性過(guò)程 算法步驟 1. 樹(shù)以代表訓(xùn)練樣本的單個(gè)節(jié)點(diǎn)( N)開(kāi)始 2. 如果樣本都在同一個(gè)類,則該節(jié)點(diǎn)成為樹(shù)葉,并用該類標(biāo)記 3. 否則,算法調(diào)用 Attribute_selection_method,選擇能夠最好的將樣本分類的屬性;確定“分裂準(zhǔn)則”,指出“分裂點(diǎn)”或“分裂子集”。分類和預(yù)測(cè) 分類 VS. 預(yù)測(cè) ? 分類和預(yù)測(cè)是兩種數(shù)據(jù)分析形式,用于提取描述重要數(shù)據(jù)類或預(yù)測(cè)未來(lái)的數(shù)據(jù)趨勢(shì) 的模型 ? 分類: ? 預(yù)測(cè)類對(duì)象的分類標(biāo)號(hào)(或離散值) ? 根據(jù)訓(xùn)練數(shù)據(jù)集和類標(biāo)號(hào)屬性,構(gòu)建模型來(lái)分類現(xiàn)有數(shù)據(jù),并用來(lái)分類新數(shù)據(jù) ? 預(yù)測(cè): ? 建立連續(xù)函數(shù)值模型 ? 比如預(yù)測(cè)空缺值,或者預(yù)測(cè)顧客在計(jì)算機(jī)設(shè)備上的花費(fèi) ? 典型應(yīng)用 ? 欺
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1