freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

決策樹分類算法的應用、進展和發(fā)展前景(編輯修改稿)

2025-06-15 07:22 本頁面
 

【文章內(nèi)容簡介】 人為的因素比較多。 抽樣方法 Khaled Alsabti等人提出了一種新的決策樹分類器CLOUDS,提供了兩種確定數(shù)值型屬性最優(yōu)分裂點的新方法 SS和 SS采用分位技術(shù)將每一個數(shù)值型屬性的取值范圍分為若干個區(qū)間 (每一個區(qū)間包含的數(shù)據(jù)點基本相等 ),計算每個區(qū)間兩個端點的基尼指數(shù)并將基尼指數(shù)最小的點作為最優(yōu)分裂點進行下一步的分枝。SSE是 SS的改進算法 ,它利用求出最小基尼指數(shù)并估計出每一個區(qū)間上基尼指數(shù)的下限。若區(qū)間的基尼指數(shù)下限小于最小基尼指數(shù) ,則將區(qū)間保留 。否則刪除 ,然后對于那些被保留區(qū)間中的每一個點 ,計算其基尼指數(shù) ,取基尼指數(shù)最小的點為最優(yōu)分裂點。 SSE的精度要高于SS,但是計算量也大。 CLOUDS通過一個 估計步 對數(shù)值型屬性的所有取值進行抽樣 ,由此可以縮小尋找最優(yōu)分裂點的搜索空間。與傳統(tǒng)的決策樹算法相比 ,明顯地降低了運算的復雜度而且產(chǎn)生的決策樹在精度和規(guī)模上也保持了較高的質(zhì)量。 ? 前面提到的數(shù)據(jù)概化、歸約和抽樣方法都可以簡化數(shù)據(jù)集 ,提高決策樹算法的效率。然而這樣也可能漏掉數(shù)據(jù)中有價值的信息。所以有必要研究能夠直接對大型數(shù)據(jù)集進行處理而運行時間不會太長的決策樹算法。Manish Mehta等人提出的 SLIQ和 Shafer .等人提出的 SPRINT是能對大型數(shù)據(jù)集進行處理的決策樹算法 ,它們都能處理連續(xù)值屬性和離散值屬性。這兩種算法都使用了預排序技術(shù) ,并對原始數(shù)據(jù)集的結(jié)構(gòu)進行了重新構(gòu)造。 ? SLIQ使用若干駐留磁盤的屬性表和單個駐留內(nèi)存的類表。每一個屬性具有一個屬性表 ,由記錄標志符 (RID)建立索引。每個元組由屬性表中鏈接到類表的一個表目鏈接表示 ,而類表的表目則鏈接到它在決策樹中對應的葉節(jié)點。 SLIQ的特點是將類表駐留在主存 ,在決策樹的學習過程中經(jīng)常訪問它 ,因此算法的效率會提高。 SLIQ使用基尼指數(shù)作為選擇測試屬性的標準 ,選擇基尼指數(shù)最小的屬性作為最優(yōu)分裂點 ,具體到每個節(jié)點的分割又包括矩形類圖 的更新和類表的更新。 SLIQ采用了 MDL的方法來修剪樹。這一算法的缺點是類表的大小隨訓練集中樣本數(shù)目增長 ,當類表太大而不能放在主存時 ,它的性能會隨著下降。 ? SPRINT使用不同的屬性表數(shù)據(jù)結(jié)構(gòu)存放類和 RID信息。當節(jié)點分裂時 ,屬性表被相應劃分 ,并在子節(jié)點中分布。在對表進行劃分時 ,維持表中記錄的次序不變。因此 ,劃分表時不需要重新排序。當 SLIQ和 SPRINT
點擊復制文檔內(nèi)容
畢業(yè)設(shè)計相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1