freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

模式識(shí)別——決策樹算法-全文預(yù)覽

  

【正文】 oid setDec(int n) { if (n 0 || n = ()) { (決策變量指定錯(cuò)誤。 (row)。 for (String value : values) { (())。 while ((line = ()) != null) { Matcher matcher = (line)。 } // 讀取 arff文件,給 attribute、 attributevalue、 data賦值 public void readARFF(File file) { try { FileReader fr = new FileReader(file)。 i++) { (i)。 i++) { if (i != ) (i)。 模式識(shí)別 —— 決策樹算法 第 8 頁(yè) 共 14 頁(yè) (play)。 root = (root)。 // 決策變量在屬性集中的索引 public static final String patternString = attribute(.*)[{](.*?)[}]。 public class ID3 { private ArrayListString attribute = new ArrayListString()。這樣就可以分別用這兩個(gè)特征構(gòu)建下一級(jí)的決策樹 節(jié)點(diǎn)。 用同樣的方法,相關(guān)人員又分別計(jì)算了采用性別特征、月收入特征作為根節(jié)點(diǎn)所能夠帶來(lái)的信息增益 0 9 7 ( g e n d e r )I n f oI n f o ( D )r)G a i n ( g e n d e A ?? ( i n c o m e )I n f oI n f o ( D )e)G a i n ( i n c o m A ?? 相關(guān)人員發(fā)現(xiàn),用性別作為第一個(gè)特 征能夠帶來(lái)不純度最大的減小,于是決定用性別特征作為決策樹的根節(jié)點(diǎn),如圖 (1)所示:所有 16 個(gè)樣本被按照性別特征分成了兩組,女性組有 9 個(gè)樣本,其中 1 人需要家長(zhǎng)接送;男性組有 7 個(gè)樣本,其中 3 個(gè)人不?,F(xiàn)在希望找到一個(gè)能夠最有效地劃分買車與不買車兩類的特征 ,也就是希望引入該特征后,能夠使不純度最有效地減少。于是她查閱了有關(guān)資料,決定把年齡以 10 歲為門檻分成兩檔,把收入按照每 月3000 元以下、 30006000 元和 6000 元以上分為低、中、高三檔,這樣,她的數(shù)據(jù)就變成了表如下的形式。于是,她收集了某一學(xué)校學(xué)生由家長(zhǎng)接送的信息,得到了表如下的數(shù)據(jù),這就是她的訓(xùn)練樣本集,她的目標(biāo)是建立能夠估學(xué)生是否會(huì)由家長(zhǎng)接送的決策樹。即是: ( ) ( ) ( )AGai n A Inf o D Inf o D?? ( 3) Gain(A)告訴我們通過(guò) A的劃分我們得到了多少。為了得到準(zhǔn)確的分類我們還需要多少信息?這個(gè)量由下式度量: 1||( ) ( )||v jAjjDIn fo D In fo DD???? ( 2) 項(xiàng) ||||jDD充當(dāng)?shù)?j個(gè)劃分的權(quán)重。 模式識(shí)別 —— 決策樹算法 第 4 頁(yè) 共 14 頁(yè) 假設(shè)按屬性 A劃分 D中的元組,其中屬性 A根據(jù)訓(xùn)練數(shù)據(jù)的觀測(cè)具有 v個(gè)不同值{a1,a2,… ,av}。使用以 2為底的對(duì)數(shù)函數(shù),因?yàn)樾畔⒂枚M(jìn)位編碼。選擇具有最高信息增益的屬性作為節(jié)點(diǎn) N的分裂屬性。從概念上講,最好的劃分準(zhǔn)則是導(dǎo)致最接近這種情況的劃分。其中, D為數(shù)據(jù)劃分; attribute_list是描述元組的屬性列表;Attribute_selection_method指定選擇屬性的啟發(fā)式過(guò)程,所選擇的屬性按類“最 好”地區(qū)分元組。由數(shù)據(jù)劃分 D 的訓(xùn)練元組產(chǎn)生決策樹。其中的三種度量方法分別是 信息增益、增益率和 Gini指標(biāo)。 ID3采用貪心方法,其中決策樹以自頂向下遞歸的分治方式構(gòu)造。第二步,決策樹的剪技:決策樹的剪枝是對(duì)上一階段生成的決策 樹進(jìn)行檢驗(yàn)、校正和修下的過(guò)程,主要是用新的樣本數(shù)扼集(稱為測(cè)試數(shù)據(jù)集)中的數(shù)據(jù)校驗(yàn)決策樹生成過(guò)程中產(chǎn)生的初步規(guī)則,將那些影響預(yù)衡準(zhǔn)確性的分枝剪除。在葉節(jié)點(diǎn)上,每一個(gè)節(jié)點(diǎn)只包含純一類的樣本,不需要再劃分。這一度量是基于信息學(xué)理論中熵的概念。決策樹 (Decision Tree)是在已知各種情況發(fā)生概率的 基礎(chǔ) 上,通過(guò)構(gòu)成決策樹來(lái)求取凈現(xiàn)值的 期望 值大于等于零的概率,評(píng)價(jià)項(xiàng)目風(fēng)險(xiǎn),判斷其可行性的決策分析方法,是直觀運(yùn)用概率分析的一種圖解法。在各種分類算法中,決策樹是最直觀的一種。Entropy = 系統(tǒng)的凌亂程度,使用算法 ID3, 和 生成樹算法使用熵。每個(gè)子節(jié)點(diǎn)再用新的特征來(lái)進(jìn)一步?jīng)Q策,直到最后的葉節(jié)點(diǎn)。一般情況下,訓(xùn)練樣本 數(shù)據(jù)集 是根據(jù)實(shí)際需要有歷史的、有一定綜合程度的,用于數(shù)據(jù)分析處理的數(shù)據(jù)集。 ID3算法主要針對(duì)屬性選擇問(wèn)題,是決策樹學(xué)習(xí)方法中最具影響和最為典型的算法。 ID3算法中關(guān)鍵的一步是屬性選擇度量,即選擇分裂準(zhǔn)則。 算法的基本策略如下: 算法: Generate_decision_tree。 輸出:一棵決策樹 模式識(shí)別 —— 決策樹算法 第 3 頁(yè) 共 14 頁(yè) 方法: 創(chuàng)建一個(gè)節(jié)點(diǎn) N; if D 中的元組都是同一類 C, then 返回 N 作為葉節(jié)點(diǎn),以類 C 標(biāo)記; if attribute_list 為空 then 返回 N 作為葉節(jié)點(diǎn),標(biāo)記為 D 中的多數(shù)類; //多數(shù)表決 使用 Attribute_selection_method( D, attribute_list),找出“最 好”的splitting_criterion; 7 用 splitting_criterion 標(biāo)記節(jié)點(diǎn) N; if splitting_ attribute 是離散值的并且允許多路劃分 then //不限于二叉樹 attribute_list ? attribute_list splitting_ attribute ; //刪除劃分屬性 for splitting_criterion 的每個(gè)輸出 j // 劃分元組并對(duì)每個(gè)劃分產(chǎn)生子樹 設(shè) Dj 是 D 中滿足輸出 j 的數(shù)據(jù)元組的集合; //一個(gè)劃分 if Dj 為空
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1