freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘論文決策樹-資料下載頁(yè)

2025-06-03 14:48本頁(yè)面
  

【正文】 自動(dòng)計(jì)算完成。 第三階段 —— 應(yīng)用階段。這個(gè)階段的任務(wù)是使用分類器對(duì)待分類項(xiàng)進(jìn)行分類,其輸入是分類器和待分類項(xiàng),輸出是待分類項(xiàng)與類別的映射關(guān)系。這一階段也是機(jī)械性 階段,由程序完成。 至此我們可以在同一個(gè)訓(xùn)練集與測(cè)試集上觀察兩個(gè)函數(shù)之間的優(yōu)劣(原始數(shù)據(jù)集數(shù)據(jù)量為 n, 每個(gè)數(shù)據(jù)的維數(shù)為 m, k為樹的深度)。 表 42 ID3與 BeYesian算法對(duì)比表 算法名稱 空間復(fù)雜度 預(yù)處理時(shí)間復(fù)雜度 搜索時(shí)間復(fù)雜度 樣本個(gè)數(shù) 程序運(yùn)行時(shí)間(預(yù)處理 +搜索) 分類準(zhǔn)確率 ID3 O(n*k*m) O(mn^2 ) O(logk) 560 BeYesian O(n*m) O(n*m) O(mlogk) 560 注:實(shí)際測(cè)試中發(fā)現(xiàn) 程序每一次的運(yùn)行時(shí)間都有些許的變化,所以表格中的數(shù)值是測(cè)試三次后取的平均值。 通過表格顯示的數(shù)據(jù)我們可以看到對(duì)于這個(gè)測(cè)試數(shù)據(jù)集而言 BeYesian 算法顯然占用的內(nèi)存更少,程序運(yùn)行的速度更快且分類準(zhǔn)確率更高。 保證原有數(shù)據(jù)集不變的情況下,改變訓(xùn)練樣本數(shù)和測(cè)試樣本數(shù)的比值,得到如下圖: 圖 42 ID3與 BeYesian樣本數(shù)變化比較圖 與 算法 比較 算法是機(jī)器學(xué)習(xí)算法中的另一個(gè)分類決策樹算法,它是基于 ID3算法進(jìn)行改進(jìn)后的一種重要算法,相比于 ID3 算法,改進(jìn)有如下幾個(gè) 要點(diǎn): ( 1)用信息增益率來(lái)選擇屬性。 ID3選擇屬性用的是子樹的信息增益,這里可以用很多方法來(lái)定義信息, ID3 使用的是熵( entropy, 熵是一種不純度度量準(zhǔn)則),也就是熵的變化值,而 用的是信息增益率。 ( 2)在決策樹構(gòu)造過程中進(jìn)行剪枝,因?yàn)槟承┚哂泻苌僭氐慕Y(jié)點(diǎn)可能會(huì)使構(gòu)造的決策樹過適應(yīng)( Overfitting),如果不考慮這些結(jié)點(diǎn)可能會(huì)更好。 ( 3)對(duì)非離散數(shù)據(jù)也能處理。 ( 4)能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理。 增益比 率度 量是 用前 面的增 益度 量 Gain(S , A) 和分 裂信息 度量SplitInformation(S, A)來(lái)共同定義的,如下所示: ),(),(),( ASm at ionSpl itInf or ASG ai nASG ai nR at io ? 其中,分裂信息度量被定義為 (分裂信息用來(lái)衡量屬性分裂數(shù)據(jù)的廣度和均勻 ): || ||l og|| ||),( 21 SSSSASm at ionSpl itInf or ici i???? 其中 S1到 Sc 是 c 個(gè)值的屬性 A 分割 S而形成的 c個(gè)樣例子集。注意分裂信息實(shí)際上就是 S關(guān)于屬性 A的各值的熵。這與我們前面對(duì)熵的使用不同 ,在那里我們只考慮 S關(guān)于學(xué)習(xí)到的樹要預(yù)測(cè)的目標(biāo)屬性的值的熵。 請(qǐng)注意,分裂信息項(xiàng)阻礙選擇值為均勻分布的屬性。例如,考慮一個(gè)含有 n個(gè)樣例的集合被屬性 A 徹底分割(譯注:分成 n組,即一個(gè)樣例一組)。這時(shí)分裂信息的值為 log2n。相反,一個(gè)布爾屬性 B分割同樣的 n個(gè)實(shí)例,如果恰好平分兩半,那么分裂信息是 1。如果屬性 A和 B產(chǎn)生同樣的信息增益,那么根據(jù)增益比率度量,明顯 B會(huì)得分更高。 由于 是基于 ID3 的改進(jìn)算法,因此程序?qū)崿F(xiàn)中只要將選取的條件從原來(lái)的最大信息增益改成最大信息增益率即可,而使用的數(shù)據(jù)結(jié)構(gòu)和主要方法都 不變。在同一個(gè)訓(xùn)練集與測(cè)試集上觀察兩個(gè)函數(shù)之間的優(yōu)劣: 表 43 ID3與 算法名稱 空間復(fù)雜度 預(yù)處理時(shí)間復(fù)雜度 搜索時(shí)間復(fù)雜度 樣本個(gè)數(shù) 程序運(yùn)行時(shí)間(預(yù)處理 +搜索 ) 分類準(zhǔn)確率 ID3 O(n*k*m) O(mn^2 ) O(logk) 560 O(n*k*m) O(mn^2 ) O(logk) 560 可以發(fā)現(xiàn)對(duì)于這個(gè)數(shù)據(jù)集而言 算法并沒有很好地發(fā)揮出其優(yōu)勢(shì)。 此外使用增益比率代替增益來(lái)選擇屬性產(chǎn)生的一個(gè) 實(shí)際問題是,當(dāng)某個(gè) Si接近 S( |Si|187。 |S|)時(shí)分母可能為 0 或非常小。如果某個(gè)屬性對(duì)于 S 的所有樣例有幾乎同樣的值,這時(shí)要么導(dǎo)致增益比率未定義,要么是增益比率非常大。 本章小結(jié) 首先對(duì)實(shí)驗(yàn)所用到的數(shù)據(jù)集進(jìn)行描述,然后介紹自主設(shè)計(jì)的剪枝方法對(duì)算法進(jìn)行優(yōu)化,并代碼實(shí)現(xiàn)貝葉斯分類和 算法來(lái)比較算法之間的性能,并將所得到的結(jié)果以圖表方式進(jìn)行展示。 第五章 總結(jié) 時(shí)間過得很快,轉(zhuǎn)眼間學(xué)習(xí)數(shù)據(jù)挖掘這門課程已經(jīng)有一個(gè)學(xué)期。在十六周的學(xué)習(xí)過程中,我對(duì)數(shù)據(jù)挖掘這門技術(shù)有了一定的了解,明確了一些以前經(jīng)常容易混淆 的概念,并對(duì)其應(yīng)用以及研究的熱點(diǎn)有了進(jìn)一步的認(rèn)識(shí)。因此,希望借助這個(gè)機(jī)會(huì),來(lái)談一下本學(xué)期我對(duì)數(shù)據(jù)挖掘這門課程的認(rèn)識(shí),以及其中的心得體會(huì)。 隨著數(shù)據(jù)庫(kù)技術(shù)和計(jì)算機(jī)網(wǎng)絡(luò)的迅速發(fā)展以及數(shù)據(jù)庫(kù)管理系統(tǒng)的廣泛應(yīng)用,人們每一天的日常行為中都會(huì)伴隨產(chǎn)生大量數(shù)據(jù),數(shù)據(jù)挖掘就是在這樣的背景下誕生的。簡(jiǎn)單而言,數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中,抽取出潛在的、有價(jià)值的知識(shí)、模型或規(guī)則的過程。作為一類深層次的數(shù)據(jù)分析方法,它利用了數(shù)據(jù)庫(kù)、人工智能和數(shù)理統(tǒng)計(jì)等多方面技術(shù)。 數(shù)據(jù)是知識(shí)之源,然而大量的數(shù)據(jù)本身并不意味信息。盡管現(xiàn)代的數(shù)據(jù)庫(kù)技術(shù)使我們很容易存儲(chǔ)大量的數(shù)據(jù),但還需要一種成熟的技術(shù)幫助我們分析、理解這些數(shù)據(jù)。數(shù)據(jù)的迅速增加與數(shù)據(jù)分析分析方法的矛盾越來(lái)越突出,人們希望在對(duì)已有的大量數(shù)據(jù)分析的基礎(chǔ)上進(jìn)行研究,但是目前所擁有的數(shù)據(jù)分析工具很難對(duì)數(shù)據(jù)進(jìn)行深層次的處理,使得人們只能望“數(shù)”興嘆。數(shù)據(jù)挖掘正是為了解決傳統(tǒng)分析方法的不足,并針對(duì)大規(guī)模數(shù)據(jù)的分析處理而出現(xiàn)的。數(shù)據(jù)挖掘可以幫助人們對(duì)大規(guī)模數(shù)據(jù)進(jìn)行高效的分析處理,以節(jié)約時(shí)間,將更多的經(jīng)歷投入到更高層次的研究中,從而提高科研工作效率。 而我在這門課中也學(xué)到了許多東西。 在此之前,“數(shù)據(jù)挖 掘”對(duì)我而言是一個(gè)神秘遙遠(yuǎn)的詞匯,只能在各種文獻(xiàn)或是一些科技雜志上才會(huì)頻繁出現(xiàn)。而通過整個(gè)課程,我了解到了數(shù)據(jù)挖掘的基本含義,以及其基本步驟流程,對(duì)以前經(jīng)常容易混淆的概念有了更加深入的認(rèn)識(shí)。這門課程為我揭開了數(shù)據(jù)挖掘神秘的面紗,讓我對(duì)其不再感覺陌生,也極大地激發(fā)了我繼續(xù)研究分析數(shù)據(jù)的興趣。 其次,增強(qiáng)了我搜索收集有關(guān)數(shù)據(jù)的能力。本次課程的三個(gè)實(shí)驗(yàn)我用到了不同的方式收集構(gòu)成我的測(cè)試數(shù)據(jù)集。第一個(gè)實(shí)驗(yàn)所用數(shù)據(jù)集是通過自制的問卷發(fā)放并且收集,經(jīng)過合理的篩選整理之后得到,雖然數(shù)據(jù)量并不是很大,但是形式新穎有趣,挖掘 到的信息也反映出了一定的參考價(jià)值;第二個(gè)實(shí)驗(yàn)是從國(guó)外網(wǎng)站上搜索到的 Chanel 香水的售賣情況,通過對(duì)他們數(shù)據(jù)的解讀讓我真正認(rèn)識(shí)到了專業(yè)數(shù)據(jù)集問題設(shè)計(jì)所應(yīng)該達(dá)到的規(guī)范;最后一個(gè)實(shí)驗(yàn)室在原有數(shù)據(jù)集的基礎(chǔ)上新增自己特價(jià)的屬性,屬于對(duì)數(shù)據(jù)集的重新改造。三個(gè)實(shí)驗(yàn)下來(lái)對(duì)我的能力培養(yǎng)還是很大的。 第三,我在這門課中學(xué)到了許多重要的算法并掌握了它們的核心思想。課程時(shí)間內(nèi)雖然主要介紹了關(guān)聯(lián)分析中的 Apriori 算法,分類算法中的 ID3 決策樹以及聚類算法中的 Kmeans 算法,但是這幾個(gè)算法都是數(shù)據(jù)挖掘中最為經(jīng)典的算法,真正掌握 它們就能踏入數(shù)據(jù)挖掘的神圣殿堂,因此還是受益匪淺。 最后是增強(qiáng)了我的邏輯思維能力,編程能力以及閱讀代碼能力。整個(gè)課程的所有代碼都是由我編寫實(shí)現(xiàn)的,但在其過程中也有部分參考了其他人的思路,認(rèn)真吸取了其中改進(jìn)以及精華的部分到自己的代碼中來(lái),從而不斷提升個(gè)人水平。 總之,數(shù)據(jù)挖掘技術(shù)是一個(gè)發(fā)展十分迅速的領(lǐng)域,隨著數(shù)據(jù)挖掘技術(shù)在各領(lǐng)域日益廣泛的應(yīng)用,越來(lái)越多的學(xué)者會(huì)投入到相關(guān)的研究中來(lái)。當(dāng)然,我也會(huì)繼續(xù)關(guān)注數(shù)據(jù)挖掘技術(shù)領(lǐng)域的最新研究進(jìn)展,努力為今后的課題研究打好基礎(chǔ)。 參 考文獻(xiàn) [1] 邵峰品,于忠清。數(shù)據(jù)挖掘原理與算法 [M]。 2021,28~126 [2] ,侯迪等譯,數(shù)據(jù)挖掘 構(gòu)筑企業(yè)競(jìng)爭(zhēng)優(yōu)勢(shì) [M].西安:西安交通大學(xué)出版社,2021,146~186 [3] Jiawei Han, Micheline Kamber 著,范明,孟小峰譯,數(shù)據(jù)挖掘概念與技術(shù),機(jī)械工業(yè)出版社
點(diǎn)擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計(jì)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1