freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘08分類和預(yù)測(cè)-閱讀頁

2025-05-29 03:06本頁面
  

【正文】 類和預(yù)測(cè)過程的準(zhǔn)確性、有效性和可伸縮性 ? 數(shù)據(jù)清理 ? 消除或減少噪聲,處理空缺值,從而減少學(xué)習(xí)時(shí)的混亂 ? 相關(guān)分析 ? 數(shù)據(jù)中的有些屬性可能與當(dāng)前任務(wù)不相關(guān);也有些屬性可能是冗余的;刪除這些屬性可以加快學(xué)習(xí)步驟,使學(xué)習(xí)結(jié)果更精確 ? 數(shù)據(jù)變換與歸約 ? 數(shù)據(jù)可以通過規(guī)范化進(jìn)行變換,將所給屬性的所有值按比例進(jìn)行縮放,使其落入一個(gè)較小的指定區(qū)間,例 [, ]( ANN和設(shè)計(jì)距離的度量方法中常用) ? 可以將數(shù)據(jù)概化到較高層概念 比較分類方法 ? 使用下列標(biāo)準(zhǔn)比較分類和預(yù)測(cè)方法 ? 預(yù)測(cè)的準(zhǔn)確率:模型正確預(yù)測(cè)新數(shù)據(jù)的類編號(hào)的能力 ? 速度:產(chǎn)生和使用模型的計(jì)算花銷 ? 健壯性:給定噪聲數(shù)據(jù)或有空缺值的數(shù)據(jù),模型正確預(yù)測(cè)的能力 ? 可伸縮性:對(duì)大量數(shù)據(jù),有效的構(gòu)建分類器或預(yù)測(cè)器的能力 ? 可解釋性:學(xué)習(xí)模型提供的理解和洞察的層次 用決策樹歸納分類 (1) ? 什么是決策樹? ? 類似于流程圖的樹結(jié)構(gòu) ? 每個(gè)內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試 ? 每個(gè)分枝代表一個(gè)測(cè)試輸出 ? 每個(gè)樹葉節(jié)點(diǎn)存放一個(gè)類編號(hào) age? student? credit rating? no yes fair excellent youth senior no no yes yes yes Middle aged 決策樹:Buys_puter 用決策樹歸納分類 (2) ? 使用決策樹分類 ? 給定一個(gè)類標(biāo)號(hào)未知的元組 X,在決策樹上測(cè)試元組的屬性值,跟蹤一條由根到葉節(jié)點(diǎn)的路徑,葉節(jié)點(diǎn)存放該元組的類預(yù)測(cè)。 決策樹歸納策略 (2) 4. 對(duì)測(cè)試屬性每個(gè)已知的值,創(chuàng)建一個(gè)分支,并以此劃分元組 5. 算法使用同樣的過程,遞歸的形成每個(gè)劃分上的元組決策樹。每個(gè)樣本為一個(gè) 元組 。假設(shè) Sj包含類 Ci的 sij個(gè)樣本。所以可以通過計(jì)算 S中樣本的每個(gè)屬性的信息增益,來得到一個(gè)屬性的相關(guān)性的排序。 ? 樸素貝葉斯分類:假設(shè)每個(gè)屬性之間都是相互獨(dú)立的,并且每個(gè)屬性對(duì)非類問題產(chǎn)生的影響都是一樣的。在學(xué)習(xí)階段,通過調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán),使得能夠預(yù)測(cè)輸入樣本的正確標(biāo)號(hào)來學(xué)習(xí)。 ? 使用一個(gè)適當(dāng)?shù)膶?duì)足夠高維的非線性映射,兩類的數(shù)據(jù)總可以被超平面分開。 SVM特點(diǎn)和應(yīng)用 ? 特點(diǎn) : 訓(xùn)練時(shí)間非常長(zhǎng),但對(duì)復(fù)雜的非線性決策邊界的建模能力是高度準(zhǔn)確的(使用最大邊緣) ? 可以用來預(yù)測(cè)和分類 ? 應(yīng)用 : ? 手寫數(shù)字識(shí)別,對(duì)象識(shí)別,語音識(shí)別 , 以及基準(zhǔn)時(shí)間序列預(yù)測(cè)檢驗(yàn) SVM— 一般原理 支持向量 小邊緣 大邊緣 June 14, 2021 Data Mining: Concepts and Techniques 31 SVM— 當(dāng)數(shù)據(jù)是線性可分的時(shí)候 m 設(shè)給定的數(shù)據(jù)集 D 為 (X1, y1), …, ( X|D|, y|D|), 其中 Xi是訓(xùn)練元組,具有相關(guān)聯(lián)的類標(biāo)號(hào) yi。 SVM 要搜索具有最大邊緣的超平面,即 最大邊緣超平面 (MMH) 其他分類方法 ? k最臨近分類 ? 給定一個(gè)未知樣本, k最臨近分類法搜索模式空間,找出最接近未知樣本的 k個(gè)訓(xùn)練樣本;然后使用 k個(gè)最臨近者中最公共的類來預(yù)測(cè)當(dāng)前樣本的類標(biāo)號(hào) ? 基于案例的推理 ? 樣本或案例使用復(fù)雜的符號(hào)表示,對(duì)于新案例,先檢測(cè)是否存在同樣的訓(xùn)練案例;如果找不到,則搜索類似的訓(xùn)練案例 ? 遺傳算法 ? 結(jié)合生物進(jìn)化思想的算法 ? 粗糙集方法 ? 模糊集方法 ? 允許在分類規(guī)則中定義“模糊的”臨界值或邊界 什么是預(yù)測(cè)? ? 預(yù)測(cè)是構(gòu)造和使用模型評(píng)估無樣本類,或評(píng)估給定樣本可能具有的屬性或值
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1