freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

4分類和預測(1)決策樹-免費閱讀

2025-03-05 12:56 上一頁面

下一頁面
  

【正文】 ? (4) 根據(jù)最佳分割點,離散化屬性的連續(xù)值。 49 —— 離散化示例 ? 將 ―buy_puter‖中的屬性 age的取值由 {youth, middle_aged, senior}改為具體年齡 {32, 25, 46, 56, 60, 52, 42, 36, 23, 51, 38, 43, 41, 65}, 法離散化的具體過程。 ? 當處理離散型屬性時 , ID3算法相同; ? 當處理連續(xù)型屬性時 , 性轉(zhuǎn)換成離散型屬性 。 43 ID3算法 ? ID3算法的 缺點 : ? ID3算法在選擇根節(jié)點和內(nèi)部結點的屬性時,使用信息增益作為評價標準。由于屬性 age有三個不同取值( youth, middle_aged, senior),因此可將數(shù)據(jù)集劃分成三個子集: X1, X2和 X3。 ? xi (i=1, 2, ..., total)用 d維特征向量 xi = (xi1, xi2, ..., xid)來表示, xi1, xi2, ..., xid分別對應 d個屬性 A1, A2, ..., Ad的具體取值; ? yi (i=1, 2, ..., total)表示樣本 xi的類標號,假設要研究的分類問題有 m個類別,則 yi∈ {c1, c2, ..., cm}。 ? 結構上類似于程序流程圖; ? 每個內(nèi)部結點表示在一個屬性上的 測試 ; ? 每個分枝代表一個測試的 輸出 ; ? 每個葉結點存放一個 類標號 。 ? 常用的預處理操作包括: ? 數(shù)據(jù)清理 ? 相關分析 ? 數(shù)據(jù)變換 :數(shù)據(jù)可以通過規(guī)范化,將給定屬性的所有值按比例進行縮放,使其落入一個較小的指定區(qū)間中。 ? 分類模型 可能會以 分類規(guī)則 、 決策樹 或 數(shù)學公式 等形式呈現(xiàn)出來。 ? 預測( Prediction) ? 它是一種分類的泛化,當分類的類別是一個連續(xù)值時(可看成無限多類),就是 數(shù)據(jù)預測 。 7 分類和預測的定義 ? 第一步 —— 建立模型 ? 訓練數(shù)據(jù)集:由若干數(shù)據(jù)(通常用 n維屬性向量表示)和它們相對應的類標號組成。 ? 相關分析 ? 數(shù)據(jù)變換 14 分類過程的數(shù)據(jù)預處理 ? 在執(zhí)行分類過程之前,通過對數(shù)據(jù)進行預處理,可以提高分類過程的 準確性 、 有效性 和 可伸縮性 。 18 分類的評價標準 ? 精確度(正確率) :表示測試集中被正確分類的數(shù)據(jù)所占的比例。 ? 先剪枝方法 ? 后剪枝方法 30 ID3算法 ? 特點:在選擇根結點和各個內(nèi)部結點的分枝屬性時,采用 信息增益 作為度量標準 ,因此每次都會選擇具有 最高信息增益 的屬性作為分枝屬性。 )(),...,()( 21 fmf AEnnnInfoAGain ??34 age ine student credit_rating buy_puter youth high no fair no youth high no excellent no middle_aged high no fair yes senior medium no fair yes senior low yes fair yes senior low yes excellent no middle_aged low yes excellent yes youth medium no fair no youth low yes fair yes senior medium yes fair yes youth medium yes excellent yes middle_aged medium no excellent yes middle_aged high yes fair yes senior medium no excellent no ID3算法 —— 示例( buy_puter) 35 ID3算法 —— 示例( buy_puter) ? 首先,計算數(shù)據(jù)集分類所需的期望信息: ? 在數(shù)據(jù)集中,給定的樣本數(shù)量為 14,類標號為 Yes (表示購買電腦 )的樣本數(shù)量為 n1=9,類標號為 No (表示不購買電腦 )的樣本數(shù)量為 n2=5,因此數(shù)據(jù)集中兩個類別的先驗概率分別為: p(Yes)=n1/total=9/14 p(No)=n2/total=5/14 ? 對數(shù)據(jù)集分類所需的期望信息為: Info(n1,n2)=p(Yes)*log(p(Yes))p(N
點擊復制文檔內(nèi)容
數(shù)學相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1